search
尋找貓咪~QQ 地點 桃園市桃園區 Taoyuan , Taoyuan

AI NEXT | 微軟黃學東:微軟在很多 AI 領域領先 Google

雷鋒網按:本月 18 日,由美中技術與創新協會(Association of Technology and Innovation,ATI)主辦的第一屆 「AI NEXT」 大會在西雅圖召開。本次會議的主要嘉賓包括:微軟首席 AI 科學家鄧力,微軟院士黃學東,Uber 深度學習負責人 Luming Wang 等。華人之外,還有亞馬遜 Alexa 首席科學家 Nikko Strom,微軟小娜架構師 Savas Parastatidis 等業內知名專家。

大會主題是 「探索 AI 的潛力,把 AI 技術應用於實用項目和服務」,對 CV、NLP、智能助手、深度學習框架均做了專題報告。微軟首席語音科學家黃學東也發表了演講,對微軟的人工智慧業務和進展做了全面的介紹和梳理。雷鋒網根據演講錄音和 PPT 整理成文。

雷鋒網註: 黃學東於 1993 年加入微軟,目前領導微軟在美國、德國、埃及、以色列的團隊研發研發微軟企業人工智慧客服對話解決方案 、cris.ai 和 luis.ai 等認知服務、CNTK 開源深度學習工具等人工智慧產品和技術。2017 年 2 月,黃學東剛剛被評為 「微軟全球技術院士」,這代表著微軟技術人員的最高榮譽。

微軟的 AI 業務簡介

其實,「人工智慧(Artificial Intelligence)」 一詞最初是在 1956 年 DARTMOUTH 學會上提出的,但是為何一直到如今人工智慧技術才步入快速發展的軌道?黃學東認為,主要是兩方面的原因:海量的數據,以及計算能力的大幅提升。目前,人工智慧主要集中在視覺、語音、語言和知識(圖譜)四個領域,但是未來計算機將能夠 理解這個世界。

根據黃學東的介紹, 目前微軟的 AI 業務可以分成代理(Agent)、應用( Application)、服務(Service)、基礎設施(Infrastructure)這四大塊。

代理:Cortana(中文名:微軟小娜)、微軟小冰、Toronto Project(客服助手)

應用:Office 365、Dynamicas 365(整合 CRM 和 ERP 的雲服務解決方案)、SwiftKey(輸入法)、Pix(拍照軟體)

服務 :聊天機器人框架、認知服務(Cognitive Services)、Cortana 智能、認知工具包(Cognitive Toolkit)

基礎設施:適用於機器學習的 Azure 、Azure N Series(GPU + FPGA)、FGPA(現場可編程門陣列)

計算機語言技術的發展史

  • 1954 年,IBM 和喬治城大學首次展示了能力非常有限的機器翻譯系統。

  • 1966 年,John Pierce 發布了一份關於 「語言技術」 非常關鍵的報告。

  • 1975 年——1986 年,美國政府沒有任何撥款支持機器翻譯或者語音識別,發展陷入停滯。

  • 1985 年,「共同任務(common task)」 方法的出現,研究人員開始共享數據。

  • 2007 年,基於統計學谷歌的翻譯上線。

  • 2011 年,Siri 登陸 iPhone。

  • 2016 年,微軟的語音識別系統的達到人類水平,同年穀歌發布支持 8 種語言的神經網路翻譯系統。

雖然目前神經網路翻譯系統還經常鬧出各種笑話,但是黃學東認為,在未來幾年內,計算機的翻譯水平有可能會和目前的語音識別一樣,達到人類(專家)的水平。

微軟在語音識別領域的成就

黃學東在演講中提到,微軟於 1991 建立了 Research Lab,該實驗室的願景是讓計算機具備 「看(see)、聽(listen)、說(speak)」 的能力。1993 年,微軟成立語音小組(Speech Group),希望能夠讓人與設備之間的語音交流成為主流。而如今,這一願景正在慢慢實現。黃學東在演講中特別提到了《經濟學人》今年 1 月份的封面文章——「Now we're talking」,該文章認為語音技術讓計算機不那麼令人生畏,而且更易接近。

黃學東稱,1993 年的時候,他們做的語音對話識別的詞錯率 (word error rate,簡稱 WER) 高達 80%。然而 2016 年 9 月 14 日,由黃學東帶領的微軟語音團隊在產業標準 Switchboard 語音識別基準測試中,實現詞錯率低至 6.3% 的這一技術突破,這比 IBM 的 6.6% 詞錯率更低,達到目語音識別領域錯誤率最低的水平。僅僅一個月後的 10 月 18 日,黃學東團隊進一步將詞錯率降低至 5.9%,首次與專業速記員持平。

這個人類水平的對話語音識別系統用到了 10 個不同的 DNN(深度神經網路)。據雷鋒網 () 了解,其具體實現過程是:首先用包括了 ResNet(殘差網路)、LSTM(長短期記憶網路)在內的 6 個不同的神經網路組合併行工作,其結果再通過 4 個新的神經網路組合之後再輸出,最終達到專業速記員的水平。

但是黃學東表示,目前計算機的對語音的識別還只停留在轉錄階段,想要真正理解語義還非常困難。

微軟客服助手 Toronto

黃學東表示,語音技術除了能夠用作娛樂用途之外,還能夠做很專業的事,比如技術支撐(technical support)。它在演講中提到,微軟除了語音助手 Cortana 和聊天機器人小冰之外,還有一個代號為 「Toronto」 的客服助手項目。

Toronto 是基於深度強化學習的人工智慧,能夠理解對話中的上下文,讓客服聊天機器人更加人性化、更加高效。

根據 PPT 的介紹,Toronto 不僅能自動回復,給出建議,還能在解答不了時提示用戶轉接人工服務。此外,它還能幫助人工客服快速了解用戶信息,給出回答建議,並可以轉接給其他的工作人員,甚至還有錄音功能。

當然,黃學東也表示,這些聊天助手和語音識別不一樣,並沒有一個已經建立起來的有效訓練方法(established recipe)。

微軟在深度學習方面的進展

黃學東此前曾表示,微軟的深度學習工具包 CNTK 其實比谷歌的 TensorFlow 開源的要早,但是由於一開始 並不是發布在 GitHub 上,所以外界知道的人也更少。但是黃學東表示,根據基準測試的結果,CNTK 比谷歌的 TensorFlow 和亞馬遜的 MxNet 的性能要更好:相同條件下,CNTK 每秒能夠處理的樣本更多。

此外,黃學東還列舉了 ComputerWorld 今年 2 月的評測結果,來證明微軟在深度學習方面的實力。從圖中可以看出,微軟認知工具包(Cognitive Toolkit)v2.0 beta 1 版本在性能、開發的難易程度、以及部署的難易程度這三個方面表現突出,而綜合表現僅次於谷歌的 TensorFlow r0.10。

微軟認知工具包的優勢

目前,微軟認知服務的 API 主要包括語言、語音、機器學習、視覺、搜索、知識這幾大類。據黃學東介紹,微軟的認知工具包有以下三大優勢:

  • 速度 & 可擴展性:微軟認知工具包訓練和評估深度學習演算法比其他的工具包都快,而且可以在不同的環境下有效擴展的同時保持精度。

  • 商業級的質量:使用了複雜的演算法以及大量的數據集。

  • 兼容性:可以使用 C++、Python 等語言,而且能夠定製內置訓練演算法,甚至使用自己的演算法。

近期熱門

和平分手?你根本不知道吳恩達在百度經歷了什麼

揚名 UEC 杯,騰訊圍棋 AI「絕藝」 奪冠之路全回顧!

重磅 | 撕掉電商標籤,還原阿里 「NASA」 的真實意圖

從供應鏈的角度談談,我們真的能抵制韓貨嗎?

斥資 150 億美元收購 Mobileye ,英特爾的野心與焦慮

上線兩個月,微信小程序給人們帶來了什麼?

谷歌收購 Kaggle 為什麼會震動三界?

人工智慧被寫進政府工作報告意味著什麼?

今日頭條的引擎是怎麼樣工作的?

暗網買信用卡紀實:親測盜刷無門檻

5G 比 4G 強在哪?看完這篇文章你就明白了

特訓課程



熱門推薦

本文由 yidianzixun 提供 原文連結

寵物協尋 相信 終究能找到回家的路
寫了7763篇文章,獲得2次喜歡
留言回覆
回覆
精彩推薦