Zi 字媒體

AI NEXT | 微軟黃學東：微軟在很多 AI 領域領先 Google

2021/12/25

雷鋒網按：本月 18 日，由美中技術與創新協會（Association of Technology and Innovation，ATI）主辦的第一屆「AI NEXT」大會在西雅圖召開。本次會議的主要嘉賓包括：微軟首席 AI 科學家鄧力，微軟院士黃學東，Uber 深度學習負責人 Luming Wang 等。華人之外，還有亞馬遜 Alexa 首席科學家 Nikko Strom，微軟小娜架構師 Savas Parastatidis 等業內知名專家。

大會主題是「探索 AI 的潛力，把 AI 技術應用於實用項目和服務」，對 CV、NLP、智能助手、深度學習框架均做了專題報告。微軟首席語音科學家黃學東也發表了演講，對微軟的人工智慧業務和進展做了全面的介紹和梳理。雷鋒網根據演講錄音和 PPT 整理成文。

雷鋒網註：黃學東於 1993 年加入微軟，目前領導微軟在美國、德國、埃及、以色列的團隊研發研發微軟企業人工智慧客服對話解決方案、cris.ai 和 luis.ai 等認知服務、CNTK 開源深度學習工具等人工智慧產品和技術。2017 年 2 月，黃學東剛剛被評為「微軟全球技術院士」，這代表著微軟技術人員的最高榮譽。

微軟的 AI 業務簡介

其實，「人工智慧（Artificial Intelligence）」一詞最初是在 1956 年 DARTMOUTH 學會上提出的，但是為何一直到如今人工智慧技術才步入快速發展的軌道？黃學東認為，主要是兩方面的原因：海量的數據，以及計算能力的大幅提升。目前，人工智慧主要集中在視覺、語音、語言和知識（圖譜）四個領域，但是未來計算機將能夠理解這個世界。

根據黃學東的介紹，目前微軟的 AI 業務可以分成代理（Agent）、應用（ Application）、服務（Service）、基礎設施（Infrastructure）這四大塊。

代理：Cortana（中文名：微軟小娜）、微軟小冰、Toronto Project（客服助手）

應用：Office 365、Dynamicas 365（整合 CRM 和 ERP 的雲服務解決方案）、SwiftKey（輸入法）、Pix（拍照軟體）

服務：聊天機器人框架、認知服務（Cognitive Services）、Cortana 智能、認知工具包（Cognitive Toolkit）

基礎設施：適用於機器學習的 Azure 、Azure N Series（GPU + FPGA）、FGPA（現場可編程門陣列）

計算機語言技術的發展史

1954 年，IBM 和喬治城大學首次展示了能力非常有限的機器翻譯系統。
1966 年，John Pierce 發布了一份關於「語言技術」非常關鍵的報告。
1975 年——1986 年，美國政府沒有任何撥款支持機器翻譯或者語音識別，發展陷入停滯。
1985 年，「共同任務（common task）」方法的出現，研究人員開始共享數據。
2007 年，基於統計學谷歌的翻譯上線。
2011 年，Siri 登陸 iPhone。
2016 年，微軟的語音識別系統的達到人類水平，同年穀歌發布支持 8 種語言的神經網路翻譯系統。

雖然目前神經網路翻譯系統還經常鬧出各種笑話，但是黃學東認為，在未來幾年內，計算機的翻譯水平有可能會和目前的語音識別一樣，達到人類（專家）的水平。

微軟在語音識別領域的成就

黃學東在演講中提到，微軟於 1991 建立了 Research Lab，該實驗室的願景是讓計算機具備「看（see）、聽（listen）、說（speak）」的能力。1993 年，微軟成立語音小組（Speech Group），希望能夠讓人與設備之間的語音交流成為主流。而如今，這一願景正在慢慢實現。黃學東在演講中特別提到了《經濟學人》今年 1 月份的封面文章——「Now we're talking」，該文章認為語音技術讓計算機不那麼令人生畏，而且更易接近。

黃學東稱，1993 年的時候，他們做的語音對話識別的詞錯率 (word error rate，簡稱 WER) 高達 80%。然而 2016 年 9 月 14 日，由黃學東帶領的微軟語音團隊在產業標準 Switchboard 語音識別基準測試中，實現詞錯率低至 6.3% 的這一技術突破，這比 IBM 的 6.6% 詞錯率更低，達到目語音識別領域錯誤率最低的水平。僅僅一個月後的 10 月 18 日，黃學東團隊進一步將詞錯率降低至 5.9%，首次與專業速記員持平。

這個人類水平的對話語音識別系統用到了 10 個不同的 DNN（深度神經網路）。據雷鋒網 () 了解，其具體實現過程是：首先用包括了 ResNet（殘差網路）、LSTM（長短期記憶網路）在內的 6 個不同的神經網路組合併行工作，其結果再通過 4 個新的神經網路組合之後再輸出，最終達到專業速記員的水平。

但是黃學東表示，目前計算機的對語音的識別還只停留在轉錄階段，想要真正理解語義還非常困難。

微軟客服助手 Toronto

黃學東表示，語音技術除了能夠用作娛樂用途之外，還能夠做很專業的事，比如技術支撐（technical support）。它在演講中提到，微軟除了語音助手 Cortana 和聊天機器人小冰之外，還有一個代號為「Toronto」的客服助手項目。

Toronto 是基於深度強化學習的人工智慧，能夠理解對話中的上下文，讓客服聊天機器人更加人性化、更加高效。

根據 PPT 的介紹，Toronto 不僅能自動回復，給出建議，還能在解答不了時提示用戶轉接人工服務。此外，它還能幫助人工客服快速了解用戶信息，給出回答建議，並可以轉接給其他的工作人員，甚至還有錄音功能。

當然，黃學東也表示，這些聊天助手和語音識別不一樣，並沒有一個已經建立起來的有效訓練方法（established recipe）。

微軟在深度學習方面的進展

黃學東此前曾表示，微軟的深度學習工具包 CNTK 其實比谷歌的 TensorFlow 開源的要早，但是由於一開始並不是發布在 GitHub 上，所以外界知道的人也更少。但是黃學東表示，根據基準測試的結果，CNTK 比谷歌的 TensorFlow 和亞馬遜的 MxNet 的性能要更好：相同條件下，CNTK 每秒能夠處理的樣本更多。

此外，黃學東還列舉了 ComputerWorld 今年 2 月的評測結果，來證明微軟在深度學習方面的實力。從圖中可以看出，微軟認知工具包（Cognitive Toolkit）v2.0 beta 1 版本在性能、開發的難易程度、以及部署的難易程度這三個方面表現突出，而綜合表現僅次於谷歌的 TensorFlow r0.10。

微軟認知工具包的優勢

目前，微軟認知服務的 API 主要包括語言、語音、機器學習、視覺、搜索、知識這幾大類。據黃學東介紹，微軟的認知工具包有以下三大優勢：

速度 & 可擴展性：微軟認知工具包訓練和評估深度學習演算法比其他的工具包都快，而且可以在不同的環境下有效擴展的同時保持精度。
商業級的質量：使用了複雜的演算法以及大量的數據集。
兼容性：可以使用 C++、Python 等語言，而且能夠定製內置訓練演算法，甚至使用自己的演算法。

近期熱門

和平分手？你根本不知道吳恩達在百度經歷了什麼

揚名 UEC 杯，騰訊圍棋 AI「絕藝」奪冠之路全回顧！

重磅 | 撕掉電商標籤，還原阿里「NASA」的真實意圖

從供應鏈的角度談談，我們真的能抵制韓貨嗎？

斥資 150 億美元收購 Mobileye ，英特爾的野心與焦慮

上線兩個月，微信小程序給人們帶來了什麼？

谷歌收購 Kaggle 為什麼會震動三界？

人工智慧被寫進政府工作報告意味著什麼？

今日頭條的引擎是怎麼樣工作的？

暗網買信用卡紀實：親測盜刷無門檻

5G 比 4G 強在哪？看完這篇文章你就明白了

特訓課程

桃園 qq 地點貓咪桃園市 taoyuan xuan 根部尾巴有大桃園旅遊景點