對話微軟黃學東：語音交互的技術前景到底如何？

贊助本站

本期講述人物為IEEE/ACM雙科院士、微軟公司語音識別領域的領軍人物黃學東博士，他如何看待語音交互技術的發展？又如何詮釋微軟在人工智慧時代的技術路線？聽聽他怎麼說！

作者 | 小羿

在微軟眾多的技術大咖中，黃學東是最有激情的一位。

有人說，他在用技術改變世界。

作為IEEE/ACM雙科院士、語音識別領域的技術大咖，2016年他被美國《連線》雜誌評選為全球創造未來商業的25位大牛天才之一。今年2月，黃學東當選微軟全球技術院士，這代表著微軟技術人員的最高榮譽，也進一步奠定了他在微軟的技術領袖地位。

作為語音領域的權威專家，黃學東深信「對話即平台」，「語音交互的發展是一個自然的過程，這是因為語音交互是一個無需觸碰設備即可完成的體驗，它可以讓人擺脫設備的枷鎖。」黃學東說到。

黃學東同時表示，高計算量、噪音問題、理解力三個問題，限制了語音交互在實際應用場景中的效果。雖然如此，但是語音交互畢竟已經可以落地併產生了商業化應用，「機器聽懂人話」這個目標已經基本實現。

加入微軟24年，黃學東目前領導著微軟在美國、、德國、埃及、以色列的團隊研發，包含語音識別及合成，微軟企業人工智慧客服對話解決方案、cris.ai以及luis.ai等認知服務、CNTK開源深度學習工具等人工智慧產品和技術。

在黃學東看來，語義理解是語音交互中最難攻克的問題之一。他指出，這是因為語音理解方面的標記非常少，而且也沒有公認的標準，所以要通過非監督式學習來攻克這個困難，但是非監督式學習目前還在探索階段，亟待突破。這也導致了機器無法學習知識，也沒有理解能力，陷入了「雞和蛋」的問題中。

「認知方面的突破，現在還不知道猴年馬月。」黃學東坦言。

對人工智慧今年落地發展，黃學東稱非常期待能夠看到在金融、醫療、保險、招聘等領域的垂直深度應用。

而微軟在人工智慧的布局上，用黃學東的話來說，我們的人工智慧是為了幫助人們做到更好，而不是與人競爭。在技術上，微軟有與谷歌TensorFlow想匹敵的人工智慧開源開發工具CNTK，以及提供全部人工智慧技術的Azure雲。在業務上，微軟現在有三款聊天機器人，主打情感計算的小冰、主打商務助理的小娜，還有在垂直領域的深度應用智能客服。另外，在神經網路翻譯領域，黃學東稱Microsoft Translator已經超過Google Translate。

對於亞馬遜Echo的火熱，黃學東稱微軟有更大的戰略。「我們把微軟過去幾十年做的人工智慧方面的研發集成到Azure雲上去，Azure雲支持IoT、Bot Framework，第三方如果想要用微軟的人工智慧技術，已經可以通過Bot Framework、Azure IoT等來做。」

根據黃學東的解釋，Azure雲可以實現更多的事情，像語音識別、語言理解、機器翻譯、語音合成，遠遠超出亞馬遜Alex。

可以說，Azure雲承載了微軟布局人工智慧的最大野心。不過，業內很多人並不知道微軟提供了如此強大的功能。

「微軟在人工智慧時代一定能夠王者歸來。」黃學東自信地表示。

以下根據黃學東問答實錄整理，媒體智能（公眾號Smartman163）做了不改動原意的刪減：

機器能聽懂人話，但價格、噪音、理解力限制了實際效果

媒體智能：

您是語音識別方面的頂尖研究者，由於人工智慧的應用，語音識別的準確度不斷提高，但是我看到在一些實際的應用場景中，比如說客服，我們在打電話的時候，還是會有受到環境的一些影響，實際的效果並沒有那麼好。所以我想請教您，語音識別往下發展的時候，如何克服環境噪音，在具體的會話語境中提升準確率？

黃學東：

人工智慧領域基本包括了兩大塊，一塊是感知，包括語音識別、圖像識別等；另外一塊是認知，包括自然語言理解、推理、知識表達等。人工智慧在過去幾年來看，因為深度學習的進步，在感知這個領域突飛猛進是非常令人振奮的，首先是微軟研究院兩年前第一次在圖像有重大突破，基本上改寫了我們對計算機視覺能做事情的認知。

去年，微軟在語音識別再一次突破，達到人的水平，這個實際上是會話語音。電話會話語音其實有很傳統的公開的數據，這是美國政府在90年代中期就開始進行這樣的研究，當時錯誤率高達80%以上，通過20多年的努力，因為深度學習的進步，微軟是第一次在這個數據集上，達到和人一樣的水平，甚至超過人的水平，所以這是非常了不起，振奮人心的歷史性的進步。

但是這個是在電話，不是遠場的情況下做的。在實際應用中有幾點問題，第一個是計算成本，微軟達到這個水平的時候，計算量要求比較高，要求十個神經網路同時在工作。但是通常我們上線的產品，只有一個（神經網路）在工作，所以我們現在正在使用的技術並不是微軟能達到人的水準的技術，因為計算需求太高。不過往前看，隨著計算會越來越快，越來越先進，這個問題早晚會解決。第二，在噪音比較大的環境下，人比較魯棒，計算機還沒有達到人的魯棒性水平，因為這個系統基本上還是在打電話。第三，是人的理解還是非常強大的，錯兩個字沒關係，意思能懂。計算機儘管在識別方面，每個字超過了人的水平，但是領會意思還差得很遠，這就是人工智慧認知水平和人的水平的差別。這不是五年、十年的差別，短期內很難解決。這也是人工智慧語音識別方面，很大的一個現狀，理解還有距離，遠場和噪音環境還有距離。

儘管有這幾點問題，但是我們的進步也很大，所以它離實用化基本上已經不是問題了，所以今年年初，《經濟學人》、《封面》雜誌等都在講機器終於能聽懂人的講話了。20多年前，我們當時的口號是讓語音識別走向主流，到今天機器可以聽懂人講話，可以說我們這個目標已經實現了。

媒體智能：

您的意思是在具體應用上還有一些困難，但是基本上技術已經達到了這個水平？

黃學東：

具體應用主要是理解的問題，因為不同的場景需要有很多相關知識，從知識應用到理解，這是最大的距離。而用語音識別出每個字不是主要的挑戰，但是要做到在噪音或遠場的環境下識別，這個挑戰還是蠻大的。語音、手勢、計算機視覺有非常強大的功能，你看過去幾十年計算的進步，從大型計算機到PC，再到手機，人一定要去觸碰到這個設備，才能達到計算的目的。語音和計算機視覺，也就是麥克風和相機，兩者合起來就可以讓人解放到不需要觸碰設備，這是一個很大的飛躍。你看亞馬遜的Echo現在做的那麼火，就是因為你可以隨時隨地交互，甚至是遠場控制，獲得你想要的信息。

今後如果計算機視覺和聽覺合起來，通過手勢演進和雲的交互，這些相結合，你可以不讓人受到設備的枷鎖，砍掉這個枷鎖，計算的進步是下一次新的飛躍。而且這個飛躍，背後我們有人工智慧的強力支持，所以計算的未來會越來越美好。

媒體智能：

還有一個問題，之前媒體智能採訪洪小文博士，他提到一個「雞尾酒會效應」，就是人在和一群人聊天的時候，我想聽到某一個人說的話，我就能自動過濾到其他人。如果讓語音識別技術去解決的話，您覺得是理解的問題還是噪音的問題？

黃學東：

這是一個麥克風陣列的問題，麥克風陣列如果能做的很好，可以識別到某一個方向，除非兩個人在同一個位置講話，你也可以通過blind source這樣的核心技術來分解，這個問題我覺得是都可以解的。

語義理解要靠非監督式學習，知識和理解是最難的「雞和蛋」的問題

媒體智能：

剛才您說到理解是最大的挑戰，目前在自然語言處理和認知這塊，您覺得最大的困難是什麼，能不能結合現在微軟的一些研究，提出一些建議？

黃學東：

機器學習是人工智慧過去幾年進步最大的動力，尤其是深度學習，但深度學習要求的數據量也很高，而且需要最好是有標記的數據。我們講的監督式學習，不管是機器翻譯、語音識別，還是圖像識別，因為有很好的標記，所以這個問題是很好定義的，比較容易實現。而語義理解這方面標記的數據非常少，目前這個標記本身也沒有一個公認的標準，所以要通過非監督式學習，來理解這個語言，目前非監督式學習還在探索階段，這是最主要的問題之一。

第二個問題，人在理解文本的時候需要知識，你沒有知識，看了一個東西還是似懂非懂。然後，人獲取知識，是需要有理解的能力，這兩者就是一個雞和蛋的問題，錯綜複雜。現在機器沒有知識，所以它對理解語言有障礙，然後又因為沒有閱讀的能力，所以不能獲取知識。

第三個問題，現在深度學習，連續的信號比較強大。語言這個東西，每個字是一個人造的形態，要對字準確處理，除非機器翻譯這樣相對定義得比較好的東西，給映射到到連續空間去。對理解首先它是沒有非常定義好的標準，第二理解需要知識，知識需要理解，它是互相依賴的。因為那麼複雜的關係，所以認知方面的突破，現在還不知道猴年馬月。

這方面沒有突破口，而且我也不知道什麼時候有突破口。

媒體智能：

現在我看很多人在做知識圖譜這個方面，是希望把這個，通過知識圖譜的形式，去推動語音語意理解這個方面的研究。

黃學東：

這個在20世紀70年代就很多人做，在人工智慧的第一個冬天之前，大家都做知識圖譜，但是沒有結果，這是一個非常難的問題。

微軟有三個聊天機器人：除了小冰、小娜，還有不為人知的智能客服

媒體智能：

另外一個，情感計算，現在大家也都在說這個情感計算，小冰也在做情感計算，也算是第一個做EQ這種方面的東西，這個方面也需要理解你們是怎麼做的？

黃學東：

微軟在這個方面做了很多開創性的工作。這個情感，我覺得是比認知更高的一個形式，當然你可以說是感知、認知到情感計算，從人的交流的角度講，這也是最高階的階段，所以這個挑戰非常大，情感計算要做的好，一定要有認知的能力。你沒有認知的能力，那怎麼能情感的溝通呢。所以我們現在可以說，人工智慧在感知是有很大的突破，達到人的水平不是問題。認知有很大的挑戰，我也不知道什麼時候能突破。那個情感挑戰更大。但是更大的問題是我們要不要去做，因為難，我們才要去做。

情感計算最好的代表是我們的小冰，從語音識別到圖像識別，微軟都達到人的水平。我覺得從知識圖譜到Bing搜索，實際上是一個認知的很好的代表。還有我們在微軟客服方面，現在也有一個聊天機器人。現在微軟有三個聊天機器人，一個是小冰，這個是情感計算的代表；一個是小娜，這個是通用的商務應用的代表；另外一個是智能客服，這個是特定性的對商務客服提供了深度且強有力的會話知識，這是一個商務AI的最好代表，這三個都是微軟在人工智慧方面的一些探索。

智能客服對知識的深度要求很高，它是很垂直的。所以我們在垂直領域，也用了深度學習、增強學習的方法，來製造客服聊天機器人。

Azure雲集成了所有的AI能力，不會局限在單一的助手上

媒體智能：

您剛才提到了Alexa，亞馬遜將這個語音助手開放給第三方使用，在今年的CES上十分火熱。其實小冰完全有這樣一個能力，集成在第三方的服務、應用、硬體產品上，為什麼小冰和小娜沒有這樣做？

黃學東：

我們是在用另一種方式做這件事情。事實上，我們把微軟過去幾十年做的人工智慧方面的研發集成到Azure雲上去，Azure雲支持IoT、Bot Framework，第三方如果想要用微軟的人工智慧技術，已經可以通過Bot Framework、Azure IoT等來做。現在大家並不一定知道微軟提供了這麼強大的功能，我們並不是限制在一定要做小娜這件事情上，Azure雲可以實現更多的事情，像語音識別、語言理解、機器翻譯、語音合成，這些都在Azure這個雲上可以實現。

Alexa確實做得不錯，它的Speaker和遠場做得非常好，但是它的局限性是只有語音式的對話。小冰和小娜在Windows上面已經有Alexa所有的功能，比如我現在把我的PC打開，我可以說「Hi，Cortana」。微軟基於PC為中心，已經服務了很多用戶。小娜是一個助手，它跟Office的整合，可以隨叫隨到；它和Bing整合也非常緊密，有很多問題通過Bing搜索就能得到回答。我認為把小娜在PC的前端，未來PC可能也會Always on（實時在線），也能通過「Hi， Cortana」來喚醒。

現在PC上做，使用場景和使用率都不能算主流，主要有幾個問題，一個是PC的麥克風陣列不是主流，所以它對遠場的功能比較弱；二是PC不能通過「Hi，Cortana」來喚醒，你要用還得先打開。不過這些事情都是可以解決的，我對PC為中心的小娜還是非常看好的。

媒體智能：

現在很多人工智慧企業開始做集成語音晶元，智能音箱通過集成Speach、麥克風陣列的晶元，達到進入智能家居的目的，您怎麼看，這是未來的一個趨勢嗎？

黃學東：

我覺得集成麥克風陣列的功能到晶元，對於語音的入口是非常有意義的。但是強大的語音識別，還是要通過雲才能達到，如果是某一個特定小環境的聲控，這個不是問題。所以具體要看應用場景是什麼，今後終端和雲的緊密的配合，一定是大方向。

微軟PK谷歌：CNTK PK TensorFlow，Microsoft Translator PK Google Translate

媒體智能：

您之前在很多場合提過，現在微軟的人工智慧架構，包括雲、應用、服務等，都用到了您開發多年的工具CNTK，想請教您，CNTK這個開源工具在微軟的AI產品里是怎樣一個角色？

黃學東：

CNTK是起了一個非常重要的幕後英雄的角色。微軟不管是語音識別，還是計算機視覺，還是智能客服，深度學習的工具都是基於CNTK的，微軟內部有一個很大規模的集群的GPU學習平台，超過80%以上的內部大規模的深度學習都是基於CNTK去做的。

CNTK是微軟內部的一個深度學習工具，TensorFlow是谷歌內部一個深度學習工具，兩者最大區別就是CNTK的分散式計算速度比TensorFlow在典型的work load（工作負載）的下面要快三到四倍左右。CNTK完全開源，雖然受歡迎程度不及谷歌的TensorFlow，但CNTK有自己的特點和優勢。

CNTK完全開源，其實有一些公司已經在用。其中有一家創業公司叫做Airdoc，他們把眼底照下來，基於CNTK提供的工具進行技術分析，可以預測糖尿病，這個方案已經落地應用了。

媒體智能：

谷歌和微軟近期都升級了各自的神經網路翻譯，媒體新聞也在跟國外一些外國媒體去合作嘗試做新聞機器翻譯，但是我們看到有些問題，比如必須針對不同的領域做不同的優化，比如說財經股票、科技、體育，這些不同的類別需要分別優化。我想問的問題是，您認為跨領域的機器翻譯該如何突破？

黃學東：

人工智慧需要大量數據，如果你的數據是來自某一個領域，它在這個領域的表現會比較好。微軟早就意識到這個問題，如果是一個新的領域，你可以把自己的數據拿上來，我們可以為你量身定製一個語音識別系統，定製版會比通用的系統好很多。微軟目前有這樣一個服務，叫做cris.ai，屬於Azure雲上的一部分。cris.ai雖然沒有在落地，但在北美已經是公開服務。機器翻譯和這個問題的解決方式是一樣的。另外我的團隊還做了一個叫做luis.ai的方案。

像微軟的機器翻譯，優點是對企業級的應用做得非常好，Microsoft Translator在中英文已經超越Google Translate。微軟是有很多先進技術的，只是我們沒有把那個故事講透。目前，微軟和谷歌的神經機器翻譯都取得了很大的進步，但是大家都知道谷歌，其實微軟在中文英文翻譯的方面已經超越谷歌，而且Microsoft Translator支持60種語言。

微軟在人工智慧大潮流下一定會「王者歸來」

媒體智能：

之前在PC的時候我們用鍵盤滑鼠交互，在移動互聯網的時候用手機觸摸交互，在人工智慧的時候可能是會話交互，也就是說未來對話式交互會成為主流。如果我們想用對話式的交互替代掉手機觸摸成為主流，我們現在還有哪些問題，您覺得多少年以後會實現？

黃學東：

可以說微軟在PC時代是領軍人物，而移動計算時代安卓、iOS起到了領導作用，下一個風口一定是人工智慧，微軟在人工智慧的積累超過了30年，我覺得微軟在人工智慧這個新的大潮流下一定會王者歸來。因為對話就是平台，微軟已經在領導這個潮流，Bot Framework是領先其他大公司的。我們的小冰、小娜和智能客服都是領軍角色，這都是基於微軟在人工智慧裡面深厚的積累。

像智能客服這樣的大規模的商業應用，馬上就可以起來了，微軟已經開始做智能客服。微軟有Windows，有Office，有Azure，這些都是技術程度非常深刻的一些產品線，產品複雜度和多樣性遠遠超於大部分其他公司。毫不誇張地講,微軟的智能產品客服是最有挑戰性的。但是，微軟的人工智慧是為了幫助人們做到更好，而不是與人競爭。

從深度來講，微軟智能客服已經能幫助我們的客戶解決很多的問題，它可以通過幾輪對話了解你到底想問什麼東西，然後提供具體的解決方案，這是智能對話的標杆性應用。它在微軟北美網站上已上線服務，已經可以回答微軟產品有關任何問題，這個沒有垂直的整合是很難做到的。微軟智能客服絕對是這個領域的領導者。從廣度來講，小冰的應用在情感聯繫方面迎合了很多年輕人，小娜已經整合到Windows10當中。不管是從深度還是廣度上來講，微軟都有可以立足的產品。

中美都有很好的AI生態環境，沒人能正確預測未來

媒體智能：

您如何看待中美之間的技術的差異？

黃學東：

像微軟這樣的跨國公司，我們在和美國的技術完全是同步的，從微軟這個公司來看，中美完全在同一個起跑線，但是其他公司做的產品是什麼樣，我本人也不了解，不好妄議。

我覺得人才濟濟，而且數據量很大，這一點是對人工智慧生態系統非常好的一個環境。因為人工智慧要發展，第一要有數據，第二要有計算，第三要有演算法，在這樣的生態環境裡面，人才、數據、計算都存在，所以這個對AI健康發展是很有意義。

媒體智能：

大家經常談人工智慧第三次浪潮，您覺得這波浪潮如何才能落地，未來還會不會冷卻？

黃學東：

感知方面的突破已經讓很多應用可以落地，像小娜的應用；語音控制、圖形識別上也有很多實際的應用。認知方面，我覺得微軟智能客服是一個很好的例子，這個是大規模商業應用，有非常大的經濟效應。但是目前它只是在某一個特定領域，要跨領域的認知服務，我覺得我真說不準什麼時候有大的突破。而跨領域、跨平台的認知服務，最好的案例，應該是搜索引擎，你不管搜什麼東西，都能拿出答案，但是他沒有真正理解這個問題。跨平台的強人工智慧任務艱巨，大家不要太急躁，這個是一個慢工細活。

這波浪潮會不會冷卻，要看我們是怎麼對待人工智慧的突破？我覺得感知這方面是非常實實在在的，它已經達到人的水平，這本身意義就非常大。認知方面，在某一個特定領域，或者是在很寬的領域，是比較膚淺的理解，它已經給千千萬萬的用戶，帶來很多實際的效應。而深度上，比如微軟智能客服可以給商業應用帶來實實在在的利益。

沒有人能正確的預測未來，我們只要踏踏實實做好人工智慧應用，這就足夠激動人心了。

媒體智能：

您對今年人工智慧市場有什麼期待？

黃學東：

我覺得像微軟人工智慧客服這樣的案例，在下一個很深的領域，像金融、醫療、保險、招聘等領域的應用是完全有可能的。其實IBM的Watson也在做同樣的事情，他們也是在垂直領域做比較深，但是不是很廣。