微軟全球資深技術院士黃學東：AI今後10年帶來的變革超過之前2000年

[ 億歐導讀 ] 2017年5月21日，由人工智慧學會、中文信息學會主辦，億歐承辦的2017·全球人工智慧技術大會在北京·國家會議中心拉開帷幕。

2017年5月21日，由人工智慧學會、中文信息學會主辦，億歐承辦的2017·全球人工智慧技術大會在北京·國家會議中心拉開帷幕，學術界、工業界、高校師生參與其中，5月21日為活動的主論壇，主講嘉賓包括人工智慧學會理事長-李德毅院士、IBM研究院院長-沈曉衛、微軟公司全球資深技術院士-黃學東、香港FDT金融銀行家兼FDT總導師-馬蔚華等。

黃學東做了主題為「語音識別和人工智慧進展回顧」的演講，本文為其演講速記整理：

大家好！我今天非常高興來到北京，在強烈的燈光照射下我看不到大家，但是大家能看到我。在我開始之前，我想跟大家簡單介紹一下，我們是怎樣一個激動人心的時代，我們生活在這個時代多麼幸運。大家看一下這個視頻。

我們過去多少代人沒有實現的夢想，這是一個非常激動人心的時代。在我開始之前，我想給大家看一下經濟學人的封面故事。封面故事說，我們終於可以和人交流了，封面故事講的非常深刻，它是從1954年，IBM從做機器翻譯開始，描述了從50年代、60年代、70年代，一直到2016年，幾個很重要的歷史性的里程碑。

這裡可以看出來，在貝爾實驗室當時做了很多語音識別的實驗，一直到美國軍方在70年代末發動了大規模的語音和語言理解的研究，到蘋果、谷歌和微軟相繼推出語音的智能助理，深度的機器翻譯和去年年末，微軟第一次在（英文）上歷史性的達到了和人一樣的媲美的語音轉錄系統，這是一個追求卓越，追求人工智慧突破一個非常顯著的成就。

今天的計算機是非常了不起的人工智慧里程碑

人工智慧從總體上來講包括了感知和認知兩大類。感知的突破是前所未有的，認知的突破還非常難以預測。深度學習在計算機視覺上的突破非常激動人心，我們發明了深度的RESNET，層數有150多層，PPT很難展示，首次超過了人在圖形識別上的精確性，這是一個非常了不起的成就。

在去年年末，我們再次獲得了振奮人心的消息，語音識別系統達到了和人一樣的高度，這是一個里程碑，我82年在清華大學做語音識別的研究，很難想象在30年中計算機的識別能超過人，因為語言是我們人特有的發明，我們和猴子最大的不同地方，我們可以用語言描述周圍深刻的世界，可以描述我們看不見的東西。今天計算機第一次可以獲得和人一樣的精準的轉錄系統，這是非常了不起的人工智慧里程碑。

在前兩年，我和卡耐基梅隆大學（英文）教授和Dragon 創始人在ACM雜誌合寫了一篇語音識別過去40年的回顧，沒想到這個回顧的東西已經過時了，由此可見語音識別、人工智慧發展速度有多麼快。這張圖片大概總結了在過去幾十年來，整個研究界在公開測試中做的努力，我們把平均發表（英文）的文章做了一個統計，大部分的系統都是在10%到15%左右，一些非常新穎的東西，錯誤率超過了20%，但是IBM在過去一直領導業界的潮流，他們在（英文）上取得了非常卓越的成就，在6%到5%之間。微軟和其他很多同行一樣，也在致力於開發語音助手，在Windows10我們和其他硬體廠商，像Harman Kardon提供語音音箱，深入我們的生活。

人工智慧是深度學習、大數據、大計算和三類神經網路模型的亂燉

我們看另外一個話題，看他們造就了一個怎樣的生態系統，看一下視頻。我解釋一下，我們採訪了美國很多公司，他們是怎樣開發自己的語音助理，一起為大家提供優秀的服務。人工智慧的核心技術基本上經歷了過去幾十年的變化，現在最具有代表性的是深度學習。

深度學習基於好幾個東西，第一個，我們需要有大的數據，所以智能語音能搜集非常多的數據，這是一個非常重要的東西。第二，不同的設備，像智能音箱，你的手機、PC和其他的智能設備，都會無縫結合起來，所以在這個互動情況下，人工智慧可以發揮更大的作用。所以在人工智慧這個過程中，我們需要大的計算，需要更強大的演算法，需要更多的數據。在這三者的配合下，我們可以創新很多落地的服務，這就是今天我想重點介紹一下微軟在人工智慧落地服務有什麼樣的觀點和看法。

神經網路是非常古老的技術，現在能煥發技術，最主要的原因是數據多了，計算大了，層次深了。在人工智慧發展過程中，深度神經網路可以分為三類，第一類是傳統的深度神經網路DNN，非常簡單，把數據拿過來，通過加權不斷迭代上去，可以模擬非常大的函數。第二是轉積神經網路CNN，它可以去掉圖像的位置變化，所以它對圖像識別非常強大。第三類是RNN，可以模擬動態的時間訓練，把過去的輸出當為下一個時間的輸入，這樣可以描述動態的時間訓練。

這三個東西各有千秋，都不錯，加上強大的數據，基本上可以解決我們現在在感知方面遇到的主要問題。當然，因為深度學習的原因，在過去人工智慧研發過程中，基本上是要去尋找新數據的演算法，現在因為神經網路這個工具的強大，數據的豐富，和開源工具大家應有盡有，基本上變成了調參數的過程，所以只要有足夠的計算資源就可以調出非常強大的系統，當然你不知道為什麼它能工作的很好。

另外一個神經網路像東北菜的亂燉，把什麼東西都放進去，做一個大雜燴出來，只要有足夠的數據，足夠的計算，就可以做出相當不錯的系統，比如在語音識別這個過程中，環境噪音是非常難處理的問題，現在可以把環境噪音和其他的語音特徵一起訓練，你也搞不清為什麼它能工作，它工作的很好，這就是讓我們做信號處理很惱火的事情。同樣的，各種人的口音不一樣，你講普通話可以講不同的口音，音調高度都不一樣，沒有關係，我們可以吧i-vector當成一個特徵和其他傳統的語音特徵放進去，可以訓練出一套語音對所有人都能適應的系統。所以深度學習神經網路有很多意想不到的優點，就是特徵學習非常獨特，以前的人工智慧模式識別需要做很多特徵抽取的工作，現在基本上做大雜燴，只要有計算資源，只要有數據，通過一燉亂燉做出的菜也相當鮮美。

最後我用三張PPT，基本上把所謂人工智慧有怎麼樣的突破總結出來了，基本上就是深度學習，大數據，大計算，再加上三類神經網路模型，DNN， CNN， RNN可以亂燉，做出雜燴非常鮮美，但是雜燴的化學成分什麼樣子，大家也沒有好好研究，這些是有待我們進一步發掘和理解、探索的問題。

語音識別是怎麼樣達到和人一樣媲美的水平

我想，剩下的時間給大家做一個簡單的介紹，回顧一下微軟語音識別是怎麼樣達到和人一樣媲美的水平。在Switchboard研發過程中，大家多在想人識別這樣的系統，到底精準度有多高，微軟在2016年把Switchboard的測試系統，通過我們正常的標註，有兩套人馬通過比較標註，得到的錯誤率5.9%。IBM今年挑戰微軟，說你們錯誤率太高，所以他們在澳洲重新搞了四套人馬，重新標註微軟做過的系統，他們說人的水平如果花更多的時間，聽的遍數更多可以做到5.1%，其實我覺得5.1%和5.9%是大同小異，很多人都不同意到底是5.1%還是5.9%。

我們在去年10月份首次達到5.8%的水平，我們覺得達到可以和人媲美的語音識別系統，至少是在Switchboard任務上。我們把三大神經網路系統完美整合起來，我們有10套神經網路系統在并行工作，通過最優組合創造了這個工程的奇迹。就像我剛剛講的，深度學習基本上是東北亂燉，大雜燴，我們通過10套神經網路并行處理，得到了前所未有的歷史性的里程碑，5.8%是我們去年報告的結果，這是一個了不起的奇迹。第一個是在Switchboard的語音識別的任務上，計算機達到了和人可以媲美的水平。

在今年2017年在ICASSP會議上，我們把計算機語音識別和人標註結果，讓參加大會的人做一個選擇，我們發現50%的人選擇計算機，50%的人選擇了人的標註，再次證明通過2017年ICASSP參會者的評價，大家分辨不出是人還是機器學習的結果。

簡單介紹一下我們過去幾十年人工智慧語音識別總的發展情況，基本上就是這樣一個狀況，通過深度學習，通過大數據，通過強大的計算，我們可以達到前所未有的感知，計算機視覺和計算機語音識別的突破，但是在認知，推理上還有漫長的道路要走。在這樣的情況下，我們一直在考慮，我們能給大家提供什麼樣的服務，你們不需要幾十年，幾千人的深度人工智慧積累，也可以開發出更加智能的應用。

我們在兩年前開始了微軟認知服務的研發工作，到今天已經有將近30個雲計算打包的人工智慧服務，大家可以使用，這都在Azure的雲平台上，從計算機語音識別到語言理解，知識表達和搜索，還有最新的人工智慧的服務，我們都打包到Azure雲上去了，所以大家在開發這個簡單的程序的時候，不要去關注裡面是怎麼做的，你可以調用這個API就可以創造出Cortana一樣強大的智能服務。

我想再強調，微軟第一次做的非常精準的手勢識別，可以通過事先標註的方法重新定義，因為手勢識別，現在大部分人的做法，和70年代語音識別用的方法基本一樣，一個手勢用一個模板，70年代大家做語音識別的時候，就是一個字一個模板，出來一個新字大家不知道怎麼辦，要重新訓練。

今天的語音識別是通過音素系統，你只要這個字的發音，寫下來就可以了，語音識別通過了從模板到音素的轉變，只要定義你的位置和手勢的移動，我們可以定義一個手勢的字典，這是非常激動人心的工作。下一個風口在那裡，一定是Ambient Computing，像語音助手，你放一個智能音箱在家裡，你可以隨喊隨到，根本不需要接觸這個裝置，所以計算機真的看不見了。語音有它的局限性，因為它很難描述這個和那個到底是什麼東西，語音加上手勢，一定是領導下一個計算機浪潮的領頭軍。所以我非常激動，微軟的認知服務不僅僅是提供了語音識別，還提供了Cortana最基本的智能，大家可以參與在新的認知平台上，可以開發最新最高級的智能應用程序。

案例分析：微軟的認知服務到底能做什麼？

下面講幾個案例，通過微軟的認知服務到底能做什麼。比如微軟最新技術Switchboard達到人的水平，這是在某一個環境下做成的，今天技術很難做成完全通用的，不管什麼樣的任務都很難做得和人一樣優秀。我給大家演示一下遊戲開發公司，用微軟的量身定製的語音識別系統能做到什麼程度。開發遊戲的過程中，他們可以做到完全精準的語音聲控和語言理解。

下面給大家演示一下微軟小冰語音合成能做到什麼樣的水平，語音合成也是因為深度學習的關係，最近取得了長足的進展，它的自然度大家可以看看這個表，微軟小冰的語音合成自然度已經非常接近人類的水平，給大家簡單放一下小冰語音合成現在是什麼樣的情況，希望大家能聽到這個音頻。這些是通過我們深度學習語音合成翻譯成比較自然的語音。

第三個案例，我想給大家介紹一下微軟語音翻譯系統，也是因為深度學習能做成什麼樣的水平。PPT下面有一個（英文），因為這是我的語音模型，我下面會講一些英文，可以看到字幕可以實時轉錄過來。如果大家不看我英文的轉錄，你可以安裝微軟的翻譯軟體。微軟在上個星期召開的大會上，我們的CEO演講，在公司每個樓里有一個大屏幕直播，屏幕下面都是用微軟的AI做了實時轉錄，因為有的人看不懂英文，可以用他的PC上的實時翻譯，我們可以同時支持60種語言，我給大家看一下這個視頻。這個語音是微軟的產品，大家如果想試用，可以在蘋果手機，安卓手機上下載，如果你用PC，也可以在網站上下載，我們可以同時支持100個人用60種語音集體聊天，我給大家做一下實時的演示。

如果我用我的電話講中文、法文、日文、德文，可以在這個屏幕上實時翻譯成英文。這是我要演示的另外一個案例，微軟翻譯系統，我們做過一個簡單的評價，大家可以看出來，在以前是用統計做機器翻譯，這個越高表示質量越好，從我們推出深度學習的機器翻譯，質量有大幅度的提高，我們同時和谷歌的機器翻譯做了比較，其實我們的水平是相當接近的，藍色是代表微軟的質量，越高越好，紅色是代表谷歌的質量，這是我們用人評價中英翻譯機器的質量。當然，機器翻譯不像在Switchboard一樣，可以達到人的水平，還需要有一些努力，我們希望提供更好的服務。

第四個案例給大家介紹智能客服，微軟有非常多的產品線，我們的客服需求的工作是相當繁重的，對技術要求也相當深刻，可以說在全球500強里，我們對客服的要求非常高，微軟用人工智慧和深度學習的方法，最近推出了一個聊天的機器人，多倫多計劃，這已經在美國上線了，所以如果你在美國的話，這時候已經有微軟的語音智能客服為你解答問題，這是自然語言理解的系統，現在你不是和人聊天，你是和機器聊天，它像人工客服一樣，一步一步可以幫你解決很多微軟產品的問題，如果你不滿意，這時候我們馬上可以連入人工客服，為你解決你的問題，這是一個非常重要的人工智慧解決實際問題的案例。

我講了這些，微軟的人工智慧80%都是在我們的CNTK上面完成，這是我們最大的秘密武器，這已經是微軟開源的深度學習系統。香港浸會大學在今年做過一個深刻的評測，這個表大家可能讀不了，我跟大家簡單介紹一下，香港浸會大學做了好幾種不同神經網路的評測，最下面是DNN，CNN，and RNN/LSTM，可以看出來在GPU的情況下，不同的深度學習工具包，在不同的任務上的LSTM性能，CNTK用的是0.01，第二名是0.06，要慢6倍。

所以如果大家對人工智慧真的非常感興趣，有大的數據處理，這個訓練速度是一個最大的問題，微軟內部一直在用CNTK主要原因，是微軟為商用人工智慧產品處理的數據相當大，以前我們的語音識別系統訓練時間數據量非常大，需要一到兩個月時間，這樣造成了為什麼CNTK在微軟內部非常重要，所以我們一直關注怎麼樣把深度學習的訓練速度提上去，我們非常高興，微軟已經開源了深度學習的工具包，大家可以到網站上下載和使用CNTK，我們完全分享我們的秘密武器，所以讓人工智慧服務於所有的人是我們最重要的宗旨之一。

今年，英偉達在開了一個大會，他們的CEO自己做過一個評測，在這裡面，這個綠色是越小越快，他們推出了最新的GPU，比以前的系統快很多倍，同時也評價了Caffe 2 和MxNET，這也是相當快的深度學習系統，可以看出來CNTK中間這個深度學習包，在最新的V系列上是前所未有的快，所以我們是非常自豪跟大家分享。

最後，我講一下在的實際案例，這是一個醫療解決方案。在糖尿病性視網膜病變是很常見的併發症，全球有4億多人有這樣的問題，上海長征醫院和Airdoc合作，用微軟的CNTK開發了一個非常強大的計算機視覺識別系統Airdoc DR，檢測糖尿病的正確率水平已經達到了普通醫生的水平，所以這是一個非常了不起的，為老百姓提供實實在在的福利的人工智慧案例，我想給大家看一下他們的視頻。看到的是本土公司用微軟的CNTK，怎麼樣解決實實在在的問題，為老百姓提供福利的非常好的案例。

總結一下，這是個非常激動人心的時代，就像剛剛我開始的時候視頻介紹的一樣，人類歷史長河中，人類往前的進步是非常激動人心的，人工智慧將帶來的變革在今後10年將是以前2000年不可媲美的。再次感謝大家，我們能有這樣一個非常激動人心的機會，和大家一起推動人工智慧往前發展，在感知和認知上取得更大突破，造福人類，謝謝大家。

億歐深耕科技領域，關注人工智慧行業的動態，已與400位人工智慧創始人進行深度訪談。步入2017年之後，億歐已經發布了《人工智慧首部人物視頻》；億歐智庫研究院發布了第一份人工智慧與產業結合的報告《億歐智庫：人工智慧產業綜述報告》；4月21日，億歐在深圳舉辦了人工智慧與產業結合的行業峰會《新科技·劃時代峰會——讓AI落地產業才能產生價值》。更多關於人工智慧在各行業中的應用報告，請關注億歐黑科技頻道及億歐智庫。

本文系投稿稿件，作者：黃學東；轉載請註明作者姓名和「來源：億歐」；文章內容系作者個人觀點，不代表億歐對觀點贊同或支持。