search
尋找貓咪~QQ 地點 桃園市桃園區 Taoyuan , Taoyuan

阿里AI lab首發天貓精靈,前南洋理工大學教授王剛出任首席科學家

【新智元導讀】 2017年7月5日,北京,阿里人工智慧實驗室備受關注的智能音箱天貓精靈 X1 公布,新智元第一時間為您帶來報道,並為您解析這款智能音箱背後的語音語義交互技術 AliGenie。

2017年7月5日,北京,阿里人工智慧實驗室夏季新品發布會在鼓樓新落成的時間博物館舉辦。

上午,百度在國家會議中心宣布了以陸奇為總設計師的AI新戰略。自動駕駛平台Apollo和語音交互平台Duer OS 全面走向開源。下午兩點,在北京捷運8號線的另一端,阿里巴巴也帶來了最新的AI戰略和產品發布。

百度CEO李彥宏上午在演講中提到,此前在天津的一場人工智慧大會上,馬雲曾告訴他不要盯著競爭對手。他說:「百度的競爭對手不會為技術去付費,他們會為產品付費,為流量付費。百度願意為技術付費。」

此前,外界一致猜測,在這場名為「未來,開口即來」的新品發布會上,阿里將發布自己的智能音箱。新智元此前也對此進行過報道,指出:該設備將能讓的消費者使用語音控制的虛擬助理直接從阿里巴巴的購物網站上購買產品,正如美國的消費者可以使用 Echo 上的 Alexa 虛擬助理直接在亞馬遜上訂購商品一樣。阿里巴巴的虛擬助理由該公司在的人工智慧實驗室開發。這一產品以中文為主,其目標用戶是國內熟悉阿里巴巴線上服務的消費者。這也意味著,該產品不會在美國發布。

就在剛剛,答案揭曉。

阿里智能音箱「天貓精靈」誕生

阿里巴巴剛剛發布了智能音箱天貓精靈 X1,售價499元。比 Echo 和 Homepod 都要小巧。減少進入家庭環境的「入侵感」,給人「若有若無」之感。

天貓精靈X1採用了圓柱形的設計,有黑白兩種配色,高126mm, 直徑83毫米。

在X1頂部中央,配有一枚靜音鍵。當用戶觸發此鍵時,X1會立刻停止聲音播放,並停止識音功能,以有效保證用戶隱私。

X1底部設計了一圈隱藏指示燈會通過聲音來判斷用戶方位亮起燈光以示提醒燈光還會根據不同使用功能和場景配合進行提示。

在配置方面,X1 採用了業內首顆 SmartAudio專業處理晶元相比此前市面上的主流晶元處理效率提升25%,功耗降低32%

X1搭載了 6 麥克風環形陣列,能夠在家庭環境下實現5米範圍語音識別。並經過專業音效調節的獨立功放晶元,使得X1同時也具有優秀的外放效果。

背後的語音語義交互技術 AliGenie 解析

天貓精靈X1和AliGenie均由阿里巴巴的科學家和工程師團隊研發,應用了阿里巴巴積累多年的語音識別、自然語言處理、人機交互等技術。其中,阿里人工智慧實驗室正在對聲紋識別、聲紋購、NLP中文對話引擎等核心技術申請專利。不久前,阿里的NLP技術團隊還在國際權威技術論壇KDD 2017 上發表了一篇論文。

美國國家標準署2016年舉辦的全球說話人識別競賽(NIST SRE2016),阿里巴巴以OpenSesame(芝麻開門)為隊名,採用了基於深度學習網路的特徵提取,藉助距離測度學習來提高數據的泛化能力,開創性提出利用對稱性支持向量機器來提高系統性能,在近兩百多支參賽隊伍中,阿里最後的系統性能在大中華區聲紋識別性能排第一,美國賽區第二。同時阿里遞交了4個相關的專利,這一系統曾受邀在聲紋識別頂級(NIST SRE2016 workshop)作公開演講。

在語音頂級國際會議 Interspeech 2017, 阿里的兩篇論文也被接受:《The Opensesame NIST 2016 Speaker Recognition Evaluation System》《The I4U Mega Fusion and Collaboration for NIST Speaker Recognition Evaluation 2016》。

這一聲紋識別技術也被運用到了 X1上,它會根據聲音條件識別出不同的使用者,以此保證使用的安全性和私密性。而在記住了每個人之後,X1還能夠實現「千人千面」,能夠根據每個人的喜歡進行內容設定和推薦。

基於聲紋識別技術,阿里還推出了聲紋購功能,是第一個商用的聲紋購物系統,可以通過聲紋完成支付,當你發起購物、充值等行為時,只需要說出聲紋密碼,聲音識別系統將對身份進行校檢,確認是本人後才會完成交易,否則將拒絕請求。

產品支持多輪對話。阿里巴巴人工智慧實驗室在自然語言理解的基礎上,加入了「決策引擎」機制,能夠理解語音的上下文語境,並判斷當前應該響應的是哪一個模塊,進行決策。這一套先進的人機交互和自然語言處理系統也在國際頂級學術論壇KDD 2017上發表了重要的論文,並正在申請技術專利。

X1的語義理解用的是阿里人工智慧實驗室自己的技術。中文語音交互的難點在於中文的語義理解。阿里人工智慧實驗室研發的中文語義理解引擎針對常用的定時,提醒,天氣,娛樂內容,家居控制,助手,以及購物等領域進行了特別優化,僅天氣預報就能夠理解786種中文問法。

通過深度機器學習,天貓精靈X1已兼容20個領域的自然語義理解。

此外也更多考慮到中文語言對話過程中的各種實際案例,對北方語言的兒化音,乾淨利素的問法,小朋友經常疊字疊詞,南方人某些與普通話混淆的中文表達方法進行了深度處理。針對人語言發音的特色,對吞字,咬字,缺字,北京話習慣,河南話習慣進行了特別優化,進行補償和修正。

這套語義理解系統還帶有記憶功能和強大總結歸納能力,還加入了模擬的「長期記憶」和「短期記憶」功能,能夠針對不同的場景和時間度,讓語義理解系統更加貼近用戶。除此之外,阿里人工智慧實驗室還已經著手其他多個語種的研究。

AliGenie開發者平台有以下核心技術開放:

1、深度學習

阿里研發了國際領先的深度學習技術來作為AliGenie的大腦,這些技術成果被發表在頂尖國際會議例如KDD和CVPR上。阿里自主研發的深度學習能快速高效的從海量數據中進行學習,並能在廣泛的應用場景中使用。

2、自然語言處理

基於積累的海量的自然語言數據,和自主研發的國際領先的深度學習技術,阿里實現了高效準確穩定的自然語言理解。

3、搜索/推薦演算法

通過阿里積累的用戶畫像,為用戶個性化地提供用戶所需要的信息和內容服務。

4、知識表示及推理問答系統

阿里構建了一個海量的知識庫,實現對萬事萬物的結構化的描述,這個知識庫不僅幫助阿里更好的理解語言,更重要的是可以通過推理回答各種知識類問題。

上述能力阿里將免費開放給開發者和硬體廠商,無需從頭搭建AI語音系統,節省在研發上的巨量投入,使開發者能夠更好的為用戶提供服務。

硬體設備廠商可以通過兩種方式接入AliGenie:

1.通過SDK接入

提供常用平台(如嵌入式Linux、Android)的SDK給到設備廠商,SDK中包含了如長連接通訊、設備用戶綁定、音頻播控、狀態管理等功能模塊,封裝其中的實現細節,開發者可以方便的進行接入。

2.通過協議接入

提供基於Websocket的一套標準化協議,由廠商自行進行對接,直接調用AliGenie的各項能力。

Q:開發者如何分成?

A:開發者可以獲得全部收益,平台在推廣期間不參與分成。阿里還會推出相關的阿里AI創新開發者計劃。

AliGenie目前所涵蓋的功能包括:

1. 音樂音頻:海量曲庫和內容庫

2. 家居控制:語音控制智能家電設備

3. 購物充值:聲紋實現購物全流程

4. 兒童教育:精選兒童音頻內容,寓教於樂

5. 技能市場:匯聚各種服務和內容,不斷擴展功能

目前已經或正在拓展的行業解決方案有:1、兒童領域2、酒店領域3、家庭場景下4、TO B其他商業場景5、線下零售場景6、與其他顯示設備結合的場景

關於阿里人工智慧實驗室

阿里人工智慧實驗室(A.I. Labs)成立於2016負責阿里巴巴集團旗下消費級AI產品的研發。A.I. Labs的使命是探索人機交互新大陸帶領人們體驗探索未知世界的樂趣。

阿里人工智慧實驗室的首席科學家是王剛。據阿里內部人士透露,前新加坡南洋理工大學終身教授王剛已經加入阿里人工智慧實驗室,擔任傑出科學家,負責機器學習、計算機視覺和自然語言理解的研發工作。資料顯示,王剛在新加坡期間,他的研究團隊開發的自動服裝檢索系統、輔助駕駛系統、以及智能安保監控系統都被成功轉讓給了相關公司進行商業化。王剛2005年大學部畢業於哈爾濱工業大學,2010年在伊利諾伊大學香檳分校獲博士學位。

21世紀經濟報道的信息顯示阿里人工智慧實驗室的負責人花名淺雪」,原名

陳麗娟。根據此前公開的信息她曾經擔任淘寶首任產品經理一淘網運營總監阿里智能雲總監等職務。據內部人士透露,淺雪曾一手建立了阿里智能生活事業部。

不過阿里智能和人工智慧實驗室還是有一定區別。20158阿里智能曾與飛利浦推出過智能無線音箱小飛」,但它並不是自主研發品牌與這次即將發布的產品不是同一個概念。

發布會結束,新智元對淺雪進行了採訪。採訪內容我們會在後續報道中公開。據阿里工作人員介紹,馬雲覺得天貓精靈特別有03年淘寶的味道。

Q:天貓精靈X1是什麼?

A:天貓精靈X1是阿里人工智慧實驗室推出的首款智能語音終端設備,內置第一代中文人機交流系統AliGenie。AliGenie生活在雲端,它能夠聽懂中文普通話語音指令,目前可實現智能家居控制、語音購物、手機充值、叫外賣、音頻音樂播放等功能,帶來嶄新的人機交互新體驗。依靠阿里雲強大的機器學習技術和計算能力,AliGenie能夠不斷進化成長,了解使用者的喜好和習慣,成為人類貼心的智能助手。

Q:能介紹一下阿里人工智慧實驗室嗎?

A:阿里人工智慧實驗室(A.I. Labs)成立於2016年,負責阿里巴巴集團旗下消費級AI產品的研發。A.I. Labs的使命是探索人機交互新大陸,帶領人們體驗探索未知世界的樂趣。

Q:阿里為什麼要做天貓精靈X1?

A:語言是人與人之間最主要的溝通方式,也應該是人與另外一種智能進行交流的主要方式。我們認為隨著雲端一體化帶來的高度智能化,智能終端需要匹配比手機觸屏更強大的人機交互方式,AliGenie將肩負阿里巴巴在智能人機交流系統領域探索的使命。我們將為開發者和硬體廠商提供一個開發者平台,包括了語音技術、服務入口以及硬體方案,並整合阿里巴巴生態體系中豐富的互聯網服務和商業鏈接能力,共同為消費者提供全新的智能體驗。天貓精靈X1隻是這個生態體系中新生長出來的一顆大樹,我們希望未來能長出一片新的森林。

Q:為什麼起這個名字,X1有什麼意義嗎?

A:在數學中,「X」代表未知數和變數。天貓精靈X1作為消費級AI產品的開端,充滿著未知和變數。這也是阿里人工智慧實驗室推出的第一款產品,因此命名為X1。

Q:天貓精靈X1目前有哪些功能?

A:目前已經具備音樂音頻內容的播放、聽故事、講笑話、查運勢、玩遊戲、查天氣、找手機、問百科、設鬧鐘/定時器、查食物熱量、充話費、查快遞、查價格、天貓魔盒控制、天貓超市購物、智能家電操控等功能。隨著開發者的入駐,天貓精靈X1能夠實現的功能還將快速增加,具體可以查看天貓精靈官方網站,或下載天貓精靈APP。

Q:天貓精靈X1的聲音是怎麼來的?

A:我們接觸了100位專業聲優,最後選擇了我們最滿意的這位。加上語音合成技術,這就是最後大家聽到的回答,希望大家都能喜歡。另外,未來還會開放語音包介面。

Q:天貓精靈X1硬體配置如何?

A:天貓精靈X1採用了首顆專門為智能語音行業開發的晶元,在解碼,降噪,聲音處理,多聲道的協同等方面做了專門的優化處理。針對AliGenie需要進行大量音頻處理、聲音合成的工作環境,定製晶元加入了獨立的NEON處理單元,NEON 技術可加速音頻和語音處理、電話和聲音合成等,從而帶來更優秀的語音識別及音頻處理效果。

在收音方案上我們採用了業界公認的優秀方案------六麥克風收音陣列技術。在頂部的六顆高靈敏麥克風有助於收集到來自不同方向的聲音,從而更容易在周圍的噪音中識別出有用的信息,來達到更好的遠場交互效果。

Q:在有噪音的環境中也能正常使用嗎?是如何做到的?

A:天貓精靈X1背後的團隊在降噪技術上做了大量研究,並專門針對家庭使用場景做了優化。天貓精靈不是在絕對安靜的環境下工作的,家庭中有各種各樣的噪音,開發人員在廚房,客廳,卧室,書房等環境裡面,對玻璃,木材,混凝土,金屬,石材,等各種材質和環境進行了上千次實驗,其中對家庭環境大量使用的石材和木頭材質進行了針對性的測定,能夠適應在家庭環境噪音下進行喚醒。並且具備一定的學習功能,可以根據環境噪音進行學習和進化,適應不同家庭環境噪音,經過7天左右優化,會更加適應所在家庭環境。

此外,天貓精靈X1還使用了回聲對消和遠近場拾音等技術,即使在播放音樂的同時也能正常接收語音指令。

Q:什麼時候正式發售?

A:天貓精靈X1於7月5日開始限量公測,用戶和開發者可以在天貓精靈官網申請公測,8月8日將面向天貓會員用戶進行首批正式發售。

Q:這個需要配套的手機APP嗎?

A:在初次使用時,用戶在手機上安裝天貓精靈app,用以綁定賬號。手機app可以實時顯示與硬體產品的連接狀態、命令接受反應情況、產品最新的功能上線提醒,以及主動推薦適合用戶使用習慣的內容



熱門推薦

本文由 yidianzixun 提供 原文連結

寵物協尋 相信 終究能找到回家的路
寫了7763篇文章,獲得2次喜歡
留言回覆
回覆
精彩推薦