search
尋找貓咪~QQ 地點 桃園市桃園區 Taoyuan , Taoyuan

微軟首席語音科學家黃學東:從四個版塊解析微軟AI業務 | AI NEXT

雷鋒網按:本月 18 日,由美中技術與創新協會(Association of Technology and Innovation,ATI)主辦的第一屆「AI NEXT」大會在西雅圖召開。本次會議的主要嘉賓包括:微軟首席 AI 科學家鄧力,微軟院士黃學東,Uber 深度學習負責人 Luming Wang 等。華人之外,還有亞馬遜 Alexa 首席科學家 Nikko Strom,微軟小娜架構師 Savas Parastatidis 等業內知名專家。

大會主題是「探索 AI 的潛力,把 AI 技術應用於實用項目和服務」,對 CV、NLP、智能助手、深度學習框架均做了專題報告。微軟首席語音科學家黃學東也發表了演講,對微軟的人工智慧業務和進展做了全面的介紹和梳理。雷鋒網根據演講錄音和PPT整理成文。

雷鋒網註: 黃學東於1993年加入微軟,目前領導微軟在美國、德國、埃及、以色列的團隊研發研發微軟企業人工智慧客服對話解決方案 、cris.ai 和 luis.ai 等認知服務、CNTK 開源深度學習工具等人工智慧產品和技術。2017年2月,黃學東剛剛被評為「微軟全球技術院士」,這代表著微軟技術人員的最高榮譽。

微軟的AI業務簡介

其實,「人工智慧(Artificial Intelligence)」一詞最初是在1956年DARTMOUTH學會上提出的,但是為何一直到如今人工智慧技術才步入快速發展的軌道?黃學東認為,主要是兩方面的原因:海量的數據,以及計算能力的大幅提升。目前,人工智慧主要集中在視覺、語音、語言和知識(圖譜)四個領域,但是未來計算機將能夠 理解這個世界。

根據黃學東的介紹, 目前微軟的AI業務可以分成代理(Agent)、應用( Application)、服務(Service)、基礎設施(Infrastructure)這四大塊。

代理:Cortana(中文名:微軟小娜)、微軟小冰、Toronto Project(客服助手)

應用:Office 365、Dynamicas 365(整合CRM和ERP的雲服務解決方案)、SwiftKey(輸入法)、Pix(拍照軟體)

服務 :聊天機器人框架、認知服務(Cognitive Services)、Cortana智能、認知工具包(Cognitive Toolkit)

基礎設施:適用於機器學習的Azure 、Azure N Series(GPU + FPGA)、FGPA(現場可編程門陣列)

計算機語言技術的發展史

  • 1954年,IBM和喬治城大學首次展示了能力非常有限的機器翻譯系統。

  • 1966年,John Pierce發布了一份關於「語言技術」非常關鍵的報告。

  • 1975年——1986年,美國政府沒有任何撥款支持機器翻譯或者語音識別,發展陷入停滯。

  • 1985年,「共同任務(common task)」方法的出現,研究人員開始共享數據。

  • 2007年,基於統計學谷歌的翻譯上線。

  • 2011年,Siri登陸iPhone。

  • 2016年,微軟的語音識別系統的達到人類水平,同年穀歌發布支持8種語言的神經網路翻譯系統。

雖然目前神經網路翻譯系統還經常鬧出各種笑話,但是黃學東認為,在未來幾年內,計算機的翻譯水平有可能會和目前的語音識別一樣,達到人類(專家)的水平。

微軟在語音識別領域的成就

黃學東在演講中提到,微軟於1991建立了Research Lab,該實驗室的願景是讓計算機具備「看(see)、聽(listen)、說(speak)」的能力。1993年,微軟成立語音小組(Speech Group),希望能夠讓人與設備之間的語音交流成為主流。而如今,這一願景正在慢慢實現。黃學東在演講中特別提到了《經濟學人》今年1月份的封面文章——「Now we're talking」,該文章認為語音技術讓計算機不那麼令人生畏,而且更易接近。

黃學東稱,1993年的時候,他們做的語音對話識別的詞錯率(word error rate,簡稱WER)高達80%。然而2016年9月14日,由黃學東帶領的微軟語音團隊在產業標準Switchboard語音識別基準測試中,實現詞錯率低至6.3%的這一技術突破,這比IBM的6.6%詞錯率更低,達到目語音識別領域錯誤率最低的水平。僅僅一個月後的10月18日,黃學東團隊進一步將詞錯率降低至 5.9%,首次與專業速記員持平。

這個人類水平的對話語音識別系統用到了10個不同的DNN(深度神經網路)。據雷鋒網()了解,其具體實現過程是:首先用包括了ResNet(殘差網路)、LSTM(長短期記憶網路)在內的6個不同的神經網路組合併行工作,其結果再通過4個新的神經網路組合之後再輸出,最終達到專業速記員的水平。

但是黃學東表示,目前計算機的對語音的識別還只停留在轉錄階段,想要真正理解語義還非常困難。

微軟客服助手Toronto

黃學東表示,語音技術除了能夠用作娛樂用途之外,還能夠做很專業的事,比如技術支撐(technical support)。它在演講中提到,微軟除了語音助手Cortana和聊天機器人小冰之外,還有一個代號為「Toronto」的客服助手項目。

Toronto是基於深度強化學習的人工智慧,能夠理解對話中的上下文,讓客服聊天機器人更加人性化、更加高效。

根據PPT的介紹,Toronto不僅能自動回復,給出建議,還能在解答不了時提示用戶轉接人工服務。此外,它還能幫助人工客服快速了解用戶信息,給出回答建議,並可以轉接給其他的工作人員,甚至還有錄音功能。

當然,黃學東也表示,這些聊天助手和語音識別不一樣,並沒有一個已經建立起來的有效訓練方法(established recipe)。

微軟在深度學習方面的進展

黃學東此前曾表示,微軟的深度學習工具包CNTK其實比谷歌的TensorFlow開源的要早,但是由於一開始 並不是發布在GitHub上,所以外界知道的人也更少。但是黃學東表示,根據基準測試的結果,CNTK比谷歌的TensorFlow和亞馬遜的MxNet的性能要更好:相同條件下,CNTK每秒能夠處理的樣本更多。

此外,黃學東還列舉了ComputerWorld今年2月的評測結果,來證明微軟在深度學習方面的實力。從圖中可以看出,微軟認知工具包(Cognitive Toolkit)v2.0 beta 1版本在性能、開發的難易程度、以及部署的難易程度這三個方面表現突出,而綜合表現僅次於谷歌的TensorFlow r0.10。

微軟認知工具包的優勢

目前,微軟認知服務的API主要包括語言、語音、機器學習、視覺、搜索、知識這幾大類。據黃學東介紹,微軟的認知工具包有以下三大優勢:

  • 速度&可擴展性:微軟認知工具包訓練和評估深度學習演算法比其他的工具包都快,而且可以在不同的環境下有效擴展的同時保持精度。

  • 商業級的質量:使用了複雜的演算法以及大量的數據集。

  • 兼容性:可以使用C++、Python等語言,而且能夠定製內置訓練演算法,甚至使用自己的演算法。

【招聘】雷鋒網堅持在人工智慧、無人駕駛、VR/AR、Fintech、未來醫療等領域第一時間提供海外科技動態與資訊。我們需要若干關注國際新聞、具有一定的科技新聞選題能力,翻譯及寫作能力優良的外翻編輯加入。

簡歷投遞至 [email protected],工作地 北京。

雷鋒網版權文章,未經授權禁止轉載。詳情見轉載須知



熱門推薦

本文由 yidianzixun 提供 原文連結

寵物協尋 相信 終究能找到回家的路
寫了7763篇文章,獲得2次喜歡
留言回覆
回覆
精彩推薦