微軟首位華人「全球技術院士」黃學東：10個神經網路造就工程奇迹

1 新智元原創

作者：零夏胡祥傑

【新智元導讀】微軟語音識別技術24年老將黃學東近日被評為「微軟全球技術院士」，成功摘下這一微軟技術的「桂冠」。黃學東於1993年加入微軟。1995年，黃學東最終把洪小文也拉入微軟。黃學東還曾在Bing工作，一直跟隨沈向洋博士。接受新智元的專訪時，他談到了去年微軟對話語音識別詞錯率低至5.9%背後的故事。同時，黃學東認為語音識別的下一個大難關是語義理解，目前看來最有希望的路線是 LSTM + Attention。

黃學東，微軟語音識別技術 24 年老將，IEEE/ACM 雙科院士，微軟深度學習工具包CNTK的締造者之一。1993年加盟微軟之前他在卡內基-梅隆大學計算機學院工作，目前領導包括微軟在美國、德國、埃及、以色列的全球團隊負責研發微軟企業人工智慧客服對話解決方案、cris.ai 和 luis.ai 等認知服務、CNTK開源深度學習工具等最新人工智慧產品和技術。他在英國愛丁堡大學、北京清華大學、長沙湖南大學分別獲得博士、碩士、學士學位。他是母校湖南大學軟體學院名譽院長和名譽教授。2016年 Wired 雜誌評選他為全球創造未來商業的25位大牛天才之一。2017年2月，黃學東當選微軟全球技術院士，進一步奠定了自己在微軟的技術領袖地位。

很少有人知道，微軟全球技術院士(Technical Fellow) 代表著微軟技術人員的最高榮譽，目前為止，全球僅有約二十位人獲得，其中包括圖靈獎得主 Butler W Lampson、Charles P. Thacker等。微軟全球技術院士相當於微軟的 level-80，與全球資深副總裁同級別。黃學東是首位在微軟通過技術路線走到最高層的華人。

2017年2月，黃學東接受新智元專訪，用帶著湖南口音的普通話，聊到了微軟語音技術去年最耀眼的成就——對話語音識別詞錯率低至5.9%背後的故事。他介紹，10個神經網路 + CNTK 強大的速度成就了這一「工程上的奇迹」。

人類水平的語音識別始末

2016年9月14日，由黃學東帶領的微軟語音團隊在產業標準 Switchboard 語音識別基準測試中實現了對話語音識別詞錯率（word error rate, 簡稱WER）低至6.3%的突破，創造當時該領域內錯誤率最低紀錄。僅僅一個月後的10月18日，黃學東團隊進一步將詞錯率降低至 5.9%，首次達成與專業速記員持平而優於絕大多數人的表現。這被認為是人工智慧領域 2016年最大的突破性進展之一。

微軟首席語音科學家黃學東博士表示，「在對話語音識別中，我們已經實現了和人類同等的水平，這是一個歷史性的突破，意味著有史以來第一次有計算機能像人類一樣識別對話中的每一個單詞。」

微軟語音團隊花了不到一年時間就實現了這個目標，這遠遠超出大家的期望。黃學東認為，這一里程碑是在整個語音團隊的努力以及沈向洋全球執行副總裁領導下取得，也離不開整個AI技術研究領域多年的積累。

值得注意的是，微軟宣布的此項研究成果，是基於英文的。那麼，中文和英文有著完全不同的語法結構，對它們的語義理解哪個可能最先突破呢？黃學東表示，從語音識別的角度來講，中文識別更容易，中文只有四百個音節。微軟內部用同樣的技術分別評測中英文，中文識別率要高一些。在所有語言裡面，義大利文、西班牙文、中文，這三種語言，語音識別率比法文、英文之類要高，其中法文是最難的。然而語義理解對任何語言都很難，這是最有挑戰的課題。

記得2016年10月18日，在微軟官方宣布這一消息后，百度首席科學家吳恩達發了一條推特：「我們在2015年已經實現了超過人類水平的中文（語音）識別，很高興看到微軟在不到一年之內就在英文上也達到了相同水平。」

「達到人類水平」一直被眾多公司用來直觀呈現自己的人工智慧技術發展水平，具體到語音識別領域，百度早在2015年就宣布，中文語音識別準確率已經超過人類水平，2015年底百度的 Deep Speech 短語識別的錯誤率降到了3.7%。

針對這一評論，黃學東認為，還是需要澄清短語識別錯誤率和對話式語音識別錯誤率的不同，「可以說，這兩個指標沒有太多可比性。」

黃學東說：「我們說人工智慧達到人的水平，要講在什麼樣的任務下可以達到人類水平。簡單的任務，容易達到人類水平；困難的任務例如對話識別，整個語音界為此努力了二十多年，在這樣難度很高的識別任務中能夠達到人類水平，是一個重要的里程碑！」

同時，黃學東認為，評測的數據集對其最後結果的解讀也會產生不一樣的影響。根據官網，Switchboard 的數據是包括了大約2400個自然情形下的對話[1]，包含了各種年齡階段、覆蓋了美國主要的一些地方口語。這是一個公認的數據集。在這樣的數據集下，計算機做到跟人一樣的水平是很不容易的。

那麼，從技術上來說，黃學東團隊「達到人類水平」的語音識別技術，是如何實現的呢？

10個不同的神經網路組合，造就「工程的奇迹」

黃學東對新智元說：「達到人類水平的對話語音識別，與其說是演算法的勝利，不如說是『工程的奇迹』。」

微軟一項著名的技術——深度殘差網路，在黃學東團隊的語音識別技術中發揮了重要作用。他說，事實上，這個人類水平的對話語音識別系統用到了10個不同的神經網路。基本上我們能想到的神經網路，他們都用了。通過10個神經網路合力得出最佳結果。所以，這可以稱得上是「一場工程的奇迹」。

具體的過程是：首先是用6個不同的神經網路組合併行工作，包括了殘差網路、LSTM等，最後的結果再通過4個新的神經網路再組合之後輸出，最終獲得達到了人類水平的對話語音識別結果。

各個神經網路單獨訓練詞錯率和最終系統詞錯率

據黃學東介紹，在這個模型中，每個神經網路首先分別用長達2000小時的數據單獨訓練，每個系統具有超過2萬個 senone。其中CNN單獨訓練的效果最出眾。在這些神經網路中，包括了3個CNN的變種：

第一個是VGG網路，相比用於圖像識別的VGG，這個用於語音識別的VGG網路更深；
第二個是殘差網路，在微軟亞洲研究院用殘差網路在 ImageNet 上取得好成績的時候，語音團隊也引入了殘差網路；
第三個是 LACE，是 TDNN 的變種，每一個高層次是一系列低層次的非線性變換的加權總值。

緊隨其後的是 LSTM 的單獨表現。黃學東團隊發現，超過六層的神經網路不能改善詞錯率，而對於每一個方向的每一個層，選擇512個隱藏單位，是對於訓練時間和精確度的最佳平衡。

他也提到，整個訓練過程主要是監督學習。並且他們最終上線的產品實際訓練數據不僅僅是 Switchboard數據集，訓練時間也遠遠超過 2000小時。目前該項研究成果已經用在了如小冰、Cortana、Customize Speech Service 等語音產品。因為商用的語音識別需要的計算資源更多，所以小冰和Cortana實際上用的是簡化版的模型。

功臣——CNTK

如此複雜的工程，微軟在不到一年的時間完成並取得很好效果。黃學東認為 CNTK 功不可沒，尤其是，CNTK在LSTM的訓練速度是其它主流開源框架的5倍到10倍。

CNTK 是黃學東團隊在研究過程中開發的一個開源深度學習工具包，現在不僅僅是語音團隊，圖像、自然語言處理、醫療服務等團隊都在使用這個工具。

據介紹，CNTK具有靈活的模型定義，同時能夠有效地擴展到多個GPU和多個伺服器。即使長達2000個小時的語料庫，CNTK 也能以很高的性能應對這樣的訓練挑戰。同時CNTK 中既可以使用自定義的函數語言 BrainScript，也可以用Python。

黃學東說微軟的內部工程需要很多數據來訓練，做了很多的優化，因此CNTK非常快。這也是他們迅速訓練出達到人類水平語音識別AI的關鍵因素。

現在 CNTK 已經是最受歡迎的開源框架之一，難免被拿出來跟其它幾個開源框架比較，例如TensorFlow、Caffe、MXNet、Torch等。大家一提到開源框架，可能更多的人想到 TensorFlow。

黃學東說，關於開源深度學習框框，少有人知的兩點事實是：

第一，CNTK 比谷歌的 Tensorflow 更早開源，但是它一開始不是在GitHub上，所以了解的人也少；CNTK 當初的主要目標是服務微軟人工智慧的各種大數據的訓練任務，他們在開源出來的時候還不知道谷歌也會做同樣的事情。
第二，CNTK的性能可能是最好的。根據香港浸會大學對五大開源框架的性能測試，CNTK在小型CNN上表現一流，對於帶LSTM的RNN，CNTK速度最快，比其他工具好上5到10倍，可謂全面超越其它工具。多GPU卡環境下，CNTK平台在FCN和AlexNet上的可擴展性更好。

香港浸會大學對各大框架的性能評測，評測對比結果（每個mini-batch的運算時間，單位：秒）。註：FCN-S，AlexNet-S，ResNet-50，FCN-R，AlexNet-R，ResNet-56和LSTM的mini-batch大小分別為64，16，16，1024，1024，128，128。

黃學東說：「TensorFlow當然也有很多值得我們學習的地方，它的生態系統比我們好。嚴肅的人工智慧是需要大數據來學習的，微軟的工具CNTK 在大數據學習上是超一流的。」

黃學東還告訴新智元，CNTK 2.0 RC1 三月初一定會和大家見面。CNTK 2.0會充分擴展TensorFlow 的基本功能讓我們的用戶有更有效的選擇。所以用戶在選擇哪一個工具將來也許不是那麼重要了。因為不同的模型都可以通過 keras 或者模型轉換器互相轉換。比如 CNTK 2.0 將會提供 caffe 和CNTK 的轉換器。TensorBoard 是谷歌的可視化工具，它也可以用來可視化CNTK。

下一步：誰能實現語義理解，誰就實現了強人工智慧

黃學東介紹說，目前的語言模型難以遷移到不同的任務，通過大量正確的數據解決這一問題有一定的效果。但是究其本質，遷移問題是由於目前的語言模型缺乏語言學「頭腦」，無法準確理解語義。另外，它們也不能考慮篇章結構，僅僅只涉及局部詞語搭配。

同時，在一些人類聽者聽來難度很低或毫無難度的細微偏差，會讓現有的語音識別系統的性能大幅下降。比如實際場景中可能的各種噪音，「或者是」，黃學東說，「我的湖南口音，都會使語音識別率大幅下降。人可以很快適應各種環境下的語音，機器卻不能。」

黃學東也坦白說，微軟的系統雖然在 Switchboard 上達到人類水平，但也不能說明在平時的應用中能達到人類水平。

黃學東認為，語音識別基本解決了，只要有足夠的計算資源、有足夠多的場景數據就可以做得很好。下一步，是要做好語義理解。誰能實現語義理解，誰就實現了強人工智慧。

他提到了語言理解中比較有前途的一些技術方向，例如 LSTM + Attention Model + 大數據。把傳統的符號系統和現代的概率系統有機的結合，是語言理解重要的研究方向之一。

黃學東說，在六七十年代傳統 AI 都是符號邏輯、專家系統，直到八十年代人工智慧的冬天，這些都快銷聲匿跡了。後來通過貝葉斯統計方法再次獲得新生。為什麼說下一個浪潮是兩者從演算法和工程上的有機結合？因為獲取知識一定要理解語言，要理解語言又需要知識。在學習過程中，這兩者是緊扣的。LSTM和「AttentionModel」都是人們對 RNN的改良，其中 AttentionModel是指神經網路在執行任務時知道把焦點放在何處，讓神經網路在每一步都從更大的信息集中挑選所關注的信息作為輸入。

黃學東認為另一個重大突破點在於怎麼樣把知識圖譜和語言理解有機的結合起來。知識圖譜包含了大量的世界知識，實體鏈接是實現了文本到知識的連接，是基於知識的文本語義理解的基礎技術[2]。黃學東認為，關鍵是要把兩者結合起來用深度學習方法和外部存儲指導深入學習的訓練，目前還沒有學會怎麼樣有效地利用這些。

「如果計算機理解了語言，那才是真正的突破，這就是強人工智慧了，它可以二十四小時學習，大大超過人類的學習效率」，黃學東說。當新智元問到微軟在語言理解方面的進展，黃學東也表示，現在任務艱巨，正在努力。

語音識別的四十年，CMU語音天團的傳承

「語音識別的發展有四個階段，」黃學東對新智元說，「第一個階段，從孤立短語開始應用；第二個階段，做成連續的，但是中間字和字需要停頓；第三個階段是李開復當時博士論文做的，可以識別連續的語音，是人和機器交流，不需要訓練；第四個階段，對話式的語音識別早在二十多年前就已提出，其錯誤率一直徘徊在30%-50%之間，直到最近幾年才有突破性進展。」

這四個階段，橫跨了語音識別探索四十餘年的艱辛與夢想。

1971年，由Allen Newell領導的語音識別研究小組建議引入更多知識來源，他的報告討論了六個層次的知識：聲學、參量、音素、辭彙、語句和語義。DARPA資助的各種語音理解系統，正是為了實現Newell報告的目標。得到資助的研究小組不多，黃學東導師Raj Reddy 1976年在CMU領導的小組是其中之一。

1982年，黃學東在清華讀研究所，那是他涉足語音識別領域的開始。他在接受新智元專訪時說：「大家看到更多的是我在CMU 和微軟的成就，但是我不會忘記我的母校清華和湖南大學的功勞，是清華把我帶入語音技術領域。是湖大幫我打下追求科學和工程的堅實基礎。」

此後，黃學東先後進入英國愛丁堡大學和CMU 繼續語音識別的研究。在CMU他加入Raj Reddy的學生李開復（前微軟全球副總裁）負責的Sphinx項目。第一代Sphinx是最早演示話者無關語音識別的系統。李開復離開之後，黃學東成為第二代Sphinx負責人，並首次開源了該項目。1992年研發的Sphinx-II在同年DARPA資助的語音基準評測中獲得了最高的識別準確度，黃學東也因此於1992年獲得了Allen Newell 優秀研究獎章。值得一提的是 AllenNewell也是來自CMU 。洪小文（微軟資深副總裁）也參與了Sphinx 的開發和研究，也是非常著名的語音專家。

1998年微軟亞洲研究院前身」微軟研究院「，左三為黃學東，其它依次為沈向洋、洪小文、凌大任（時任微軟美國研究院院長）、李開復、劉志成、陳宏剛）

CMU之後，黃學東於1993年加入微軟。1995年，數顧茅廬之後，黃學東最終把洪小文也拉入微軟。此後黃學東幾乎一直在微軟研發語音識別技術，其間在Bing工作了一段時間，一直跟隨微軟全球執行副總裁沈向洋博士。新智元問及他在同一個領域堅持攻關幾十年的感受。他說：

第一個感受是「腳踏實地」，語音多年來有很好的評測系統，這是沒有辦法忽悠的。做的東西是驢子是馬，拿出來遛遛就知道了。

第二個感受是「創新」，也就是說，只要效果好，不管白貓黑貓都會上。語音識別是第一個用統計的方法取代了傳統的人工智慧專家系統的應用，也是第一個將深度學習和隱馬科夫模型結合，成功大幅降低識別錯誤率的案例。深度學習在語音識別的應用推動了其他深度學習的成功，是微軟研究院第一次把深度學習加入隱馬爾可夫的方法。今天所謂的人工智慧「三大法寶」：演算法、算力、大數據，早在幾十年前，做語音技術的人基本上最先注意到了這三個東西的重要性。

第三個感受是「堅持」。研究過程中，自然有很多困難，例如90年代在Switchboard上測試的錯誤率降不下來，機器不夠用，跑的實驗永遠比機器多，學習訓練的數據量不夠大，缺乏同時具有人工智慧深度知識和實踐大型系統工程能力的專業人才等等。回過頭來，有時才意識到，已經堅持了這麼久。

第四個感受是「團隊」。黃學東認為自己一直很幸運，有一群天才的隊友在自己周圍共同奮鬥。團隊的力量是最重要的力量。

如今，業界的普遍共識是，語音交互是下一代人機交互方式，國外有亞馬遜Echo的熱銷，有微軟在Cortana上的投入，有蘋果在Siri上的投入，國內則有陸奇成立度秘事業部。李彥宏也曾在亞布力論壇上說：移動互聯網是人與觸摸屏的交互，到了人工智慧時代，人機交互的方式會變成自然語言，帶來很大變化。而語音識別技術可以說是語音交互之爭的勝負關鍵手。

結語

黃學東這位微軟「老男孩」，歷經技術發展沉浮，依然對語音技術保持信仰。他相信未來5年，語音識別將通過圖靈測試。這將真正使星際迷航般的移動設備願景成為現實。他也認為語音識別和機器翻譯技術可幫助縮小消除我們與機器之間的隔閡，大大促進和增強人與人之間溝通的強大工具。

黃學東團隊，其中包括另外兩位華人余棟、熊偉

參考列表：

[1] http://spot.colorado.edu/~michaeli/Lexsubj/swbd.html

[2] 深度學習與知識圖譜:http://www.cips-cl.org/static/CCL2016/tutorialpdf/T2A_%E7%9F%A5%E8%AF%86%E5%9B%BE%E8%B0%B1_part3.pdf

[3] 百度短語識別率相關報道：

「招聘」

全職記者、編譯和活動運營

歡迎實習生

以及人工智慧翻譯社志願者

詳細信息請進入公眾號點擊「招聘」

或發郵件至 [email protected]

新智元招聘信息請點擊「閱讀原文」