對話微軟沈向洋：AI當前水平怎樣有哪些技術難點

2017年5月10日，在剛剛結束了Microsoft Build 2017大會的主題演講后，微軟人工智慧及微軟研究事業部負責人沈向洋博士(Harry Shum)接受了InfoQ等特邀媒體的採訪。本文對此次採訪的要點整理。

為什麼現在人工智慧這麼火?沈向洋說：「雲計算與日俱增的強大威力、運行於深度神經網路的強力演算法，再加上今天能夠獲取到的海量數據，在這三股強大動力的交織驅動下，今天，我們終於有能力實現人工智慧的夢想。人工智慧擁有無窮的潛力，它有能力顛覆任何現有的垂直行業。」

那麼，人工智慧當前究竟發展到了什麼水平?前進的路上技術難點在哪裡?微軟的人工智慧之路是如何規劃的，又是怎樣面對人才競爭的呢?

一、如何看待人工智慧?

在回答InfoQ記者提問時，沈向洋博士全面闡述了他對人工智慧的理解：人工智慧分為感知和認知兩方面，感知方面已有重大進展，認知方面的還遠遠沒有獲得突破，但可解釋的AI將在5年到10年獲得重大突破。

1.為什麼會有人工智慧?

談到人工智慧，雖然大家在今天會激動的不得了——我自己也覺得——有些東西已經在發生了，但是，首先你要回過頭來看，為什麼會有人工智慧?

人工智慧是對於人類智能出來的，也就是Human Intelligence。後來60年以前約翰·麥卡錫定義一個詞叫Artificial Intelligence，據說是麥卡錫真正提這樣一個智能。

2.人工智慧分為感知和認知兩部分

為什麼大家會覺得人有智能?其實，人的智能基本上分成兩部分，一部分是感知，一部分是認知，而人工智慧也是對應的。

(1)感知方面有非常大的進展

感知裡面最了不起的、最大的一部分就是視覺感知。

以前有人做過這樣的研究，一個人91%的信息是從視覺收集過來的，我忘記了他用什麼樣的方法算出來這個數字，但大家基本上會同意這個觀點：絕大多數感知都來自於視覺，然後是聽覺，最後才是其他的感知。

我覺得這邊的進展非常大，我一直講，過去這一年我都在講計算機語音識別也就是五年的事情，五年之內計算機語音，它可以識別，不管你怎麼去講它都能識別。接下來10年左右的時間我覺得計算機視覺也會達到這一點，今天視覺很多東西已經超過人，人臉識別。我講的是是很泛泛的普遍認知，到一個新地方，看到一個新東西能夠聯想到什麼，這些東西大概十年左右的時間可以實現。

(2)認知方面遠遠沒有獲得突破

在認知方面，今天我們遠遠沒有獲得突破，都談不上跟人類相比的地步。

首先是自然語言處理的問題，然後就是知識獲取的問題。越來越多的人更應該去做這方面的工作。自然語言處理，我剛才也提到機器閱讀，語言這個問題，相對來講的確是比較複雜。用今天現有的方法，包括深度學習的方法，解出來的效果還不是足夠好，當然用深度學習已經可以幫助到我們很多東西，比如像翻譯也用了很多自然語言的東西。

更重要的，今天大家對整個「認知」這樣的一件事情的定義，還在一個比較初級的階段。

例如，什麼叫做常識(Common Sense)?你怎麼知道見到這個人以後，為什麼會對他很有一種親近的感覺?這些我們還不是很理解，而這是一個很大的問題。

稍微岔開一點講，很重要的一個問題是，今天我們個人工智慧做的這些東西，和腦科學的結合不夠，理解也不夠。很主要的原因就是對「智能」的很多東西，只有人腦這樣一個範本，但人腦結構很特別，今天我們還不夠理解。腦科學作為一門科學，今天也還處在一個早期的階段，我們還不能做太多的實驗，也不能隨時把一個人的腦袋打開塞一些東西進去。

這個是一個長期的問題，現在越來越多的人也在想這樣的問題——連接人工智慧和腦科學。

(3)認知方面，可解釋的AI將做出非常了不起的成果

有一個方向讓我們覺得是很激動人心：現在在微軟研究院很多的人在做這方面的事情，我也跟很多大學有一些合作，就是所謂的「可解釋的AI」(Explainable AI)。我認為，Explainable AI在接下來5到10年，肯定可以做出非常了不起的成果。今天我如果有研究所的話，我就會讓他們做這個方向的工作，原因非常簡單，因為今天AI最大的突破就是深度學習，但是深度學習的一個最大的問題就是，出來的結果非常好，但是你沒法解釋。

我自己看到的，這方面寫得最好的一篇文章，是最近在《紐約客》的一篇有關醫療AI的。為什麼看同一張圖，醫生會跟你講，你沒問題，原因是一、二、三。但今天AI還做不到這點，深度學習做不到這點，很大的問題是大家解問題的空間不一樣，醫生是在一個所謂的neural，腦的這樣一個連續的空間在解，而AI很多的理解是在符號的離散的空間上去做。

所以，如何把這些東西連起來，從技術上有講有很多有待突破的地方，也是我們現在研究院很認真在做科研的一個方面。

二、微軟在人工智慧方面的進展

1.語音方面

首先，我們講人工智慧在語音方面的突破，人工智慧在語音識別，語音合成上面最近都取得了非常矚目的結果。2016年9月，微軟的對話語音識別技術在產業標準Switchboard語音識別基準測試中實現了詞錯率低至6.3%的突破，創造當時該領域內錯誤率最低紀錄。一個月後，微軟進一步將詞錯率降低至5.9%，首次達成與專業速記員持平而優於絕大多數人的表現。

2.圖像方面

其次，在圖像方面，人工智慧也有很多長足的進步:

2015年12月，ImageNet計算機視覺識別挑戰賽結果揭曉——微軟亞洲研究院視覺計算組的研究員們憑藉深層神經網路技術的最新突破，以絕對優勢獲得圖像分類、圖像定位以及圖像檢測全部三個主要項目的冠軍。同一時刻，他們在另一項圖像識別挑戰賽MS COCO(Microsoft Common Objects in Context，常見物體圖像識別)中同樣成功登頂。在ImageNet挑戰賽中，微軟亞洲研究院的研究團隊使用了一種前所未有的深度高達152層的神經網路，這比以往任何成功使用的神經網路層數多5倍以上，從而在照片和視頻物體識別等技術方面實現了重大突破，將錯誤率降低至3.57%。

2016年10月，微軟亞洲研究院視覺計算組的研究員在圖像識別MS COCO圖像分割挑戰賽中獲得第一名，成績比第二名高出11%，且相較於前一年COCO圖像分割挑戰賽第一名的成績也有飛躍性的進步。

3.自然語言方面

除了語音和圖像以外，其實人工智慧在自然語言上面也取得了很大的進展。

(1)人機對話：自然語言人機對話方面，深度神經網路逐漸取代了傳統的統計機器學習，成為主流的研究方向。現在，自然語言技術已全部轉向深度學習網路，我們的對話系統也都用到了深度學習網路。大家熟知的微軟小冰，起關鍵自然語言處理技術就是採用的微軟自然語言處理技術，目前已經能夠實現與人類23個來回的對話。

(2)機器翻譯方面，Microsoft Translator現已支持60多種語言，可以實現多個人多種語言的實時翻譯，比如大家每個人可能來自不同的國家，只要拿著手機APP版的Microsoft Translator就可以互相交流。你說一句話或者輸入文字，對方聽到/看到的就是他的母語。而在剛剛結束的微軟年度開發者盛會Build 2017上，微軟也展示了最新的Presentation Translator的PowerPoint插件，它利用了微軟的Translation API介面，可以在播放演示文稿的過程中，實時地將其翻譯成多種語言。

(3)機器閱讀理解方面，在由斯坦福大學自然語言計算組發起的SQuAD(Stanford Question Answering Dataset)文本理解挑戰賽上，微軟亞洲研究院的自然語言計算研究組持續穩居榜首。微軟亞洲研究院團隊在準確性和相似度這兩個不同維度的評價標準上均取得了最優的成績，其準確度達到了76.922%，相似度達到了84.006%，高出第二名近兩個百分點。

三、微軟的人工智慧科研之路

任何一個企業，一個單位，特別是大了以後，一定要去想短期的目標是什麼，長期的願景是什麼，一定要從這個角度去想。我的部門比較特別的地方就是，因為我除了AI以外，還管AI研究院，在AI研究院我們有1000多位科學家，要不斷培養一代一代新的了不起的研究員去做更為了不起的技術。

1.微軟在人工智慧領域四個研究大方向

第一，搜索引擎方面。今天世界上最大的人工智慧可能還是搜索引擎，微軟Bing這麼多年下來超過25億的entity。這裡面就有很多的知識，搜索引擎本身不僅僅是一個業務，雖然現在Bing也很賺錢，我們在美國22.6%的搜索市場份額再加上雅虎的11%(技術是我們後台做的)，所以我們在美國有1/3的搜索份額，在最近漲到16.5%。從AI的角度來講，它就是知識的積累。

第二，非常非常重要的一件事情就是Cortana(小娜)，我覺得Cortana是代表了AI的未來，對人的了解。要做好AI需要三個方面的知識：

對世界的理解

對工作的了解

對用戶的了解

這三件加在一起的話，才可以做的非常好，我覺得小娜在朝著這個方向走，要去做這個事情當然要有很大的投入在裡面。

第三，其他的公司和微軟公司一起合作，怎麼樣令AI幫助微軟轉型，我剛才提到Office，也提到Cloud，也提到Windows，我們一起做。同時我們把這樣的一些技術拿出來給其他所有Microsoft開發者去做，今天我講的終點一直都是在我們AI部門這麼多年做出來，有很多的技術是從微軟研究院做了幾十年下來。

第四，對商業機會的挖掘。所有的商業應用都會被顛覆掉，在這裡面微軟正在選擇哪些方向，哪些商業的AI這樣的機會我們會挖掘，以後希望能夠有機會跟大家再分享這邊的進展。

2.長期培養人才進行科研

任何一個企業，一個單位，特別是大了以後，一定要去想短期的目標是什麼，中期的希望是什麼，長期的願景是什麼，一定要從這個角度去想。我的部門比較特別的地方就是，我除了AI以外，還管研究院。在研究院我們有1000多位科學家，剛才新智元的同事也問道，我覺得最重要的就是，要不斷培養一代一代新的了不起的研究員，去做更了不起的技術。

例如我剛才提到，人工智慧(更多在離散的空間做符號處理)和腦科學(更多在Neural神經元做連續處理)這兩個空間的融合。符號可解釋的空間和連續的腦空間之間的關係，三五年前基本上沒有什麼人研究這些方向。我認為更重要的就是應該培養新一代，看到這樣的問題。如深度學習，要去解釋它。

四、微軟的人工智慧產品之路

1.為什麼一定要有產品?

對普羅大眾來講，他不會去看論文來判斷你的研究成果，也不知道你的論文有多了不起。你要跟人解釋，最容易解釋的方法就是你給人看看你的產品，HoloLens馬上就會被人看到，我們希望有機會做一些更了不起的產品，不光是對消費者，更多是針對企業用戶的產品。我個人認為，三五年內，對AI而言最大的機會還是在企業市場中。

2.正確看待科研

很多人不明白，說這麼多人做科研，怎麼還沒有產品化?科研就是一個很長期的東西，你要麼就不要說自己做科研，要做科研就要有耐心。比如今天大家談的熱火朝天的量子計算，具體哪天量子計算機可以做出來，沒有人知道。在這一點上，美國的這套系統還是值得我們學習：從大學開始，到研究所，再到工業界。以前的AT&T和IBM，再到現在的微軟，很多公司願意花很多的錢出來做長期的科研，而絕大多數的科研成果不僅僅屬於本公司，只是自己的公司有可能得到利益。

這一點我們蓋茨講得非常清楚，比如蘋果和微軟早期的成功，很重要的就是圖形用戶界面，而 graphic interface 最早是施樂做出來的，我們跟他們學習。同樣，今天微軟做了很多了不起的事，但是可能其他一些公司，甚至一些初創公司還會做得更好，這都是很正常的。

而且，做科研是非常愉快的一件事情，做科研最愉快的事情就是根本不用擔心別人在想什麼，你自己拍拍腦袋想想就可以，要有一個了不起的想法——我以前是多麼的享受做科研，後來被鮑爾默趕出來去做產品。

3.如何從技術研究到產品化

當然，我們不是一個公益的研究院，對公司是有責任的，包括最重要的一件事情，就是從技術到產品的轉化。目前，AI本身今天很多的東西還在研究階段，所以今天微軟重組，把AI和研究院放在同一個部門——我覺得非常榮幸能夠領導這樣的部門——我們看到了非常多的機會。

怎麼從技術到產品轉化這個問題，可能今天最好的例子就是認知服務，其中大概2/3的技術是原來微軟研究院做的，而且做了很多年，以前我們不是很清楚，一些計算機視覺的技術怎麼轉化成產品。但是因為有Azure，有認知服務這樣的機會，很多很多的微軟研究院的技術，都已經通過認知服務轉化成為產品。

另外一個例子是HoloLens，它研發的過程是「研和發，研和發」不斷循環的過程。HoloLens這些人之前就是做Kinect，Kinect做出來微軟研究院就做了Kinect Fusion，又做了一個項目叫Holodesk，如果是三維的東西，你怎麼樣加一些三維的虛擬物體進去。後來微軟有一批非常了不起的做產品和設計的工程師，他們想到要在此基礎上做成HoloLens，在這個過程當中，裡面很多計算機視覺、語音的技術都是微軟研究院一起做的，是一個共同研發的過程。

4.AI部門的產品規劃

可以掙一些錢，定個小目標，這是非常重要的。但是，更重要的事情是 AI 這個部門成立之後，我們要想清楚如果我們真的覺得AI會顛覆更多的行業應用，在顛覆的過程當中，我們的機會在哪。

(1)對現有產品AI化

比如Office等跟AI結合，將會有哪些顛覆性的內容產生，有什麼新的產品出來，有什麼新的功能出來，這邊的話我們進展得非常好。

AI的三大方面：第一，你要有非常強大的運算能力;第二，你要有非常了不起的演算法;第三，你一定要有自己的數據。

我用微軟的例子來介紹一下，在微軟，我們當然相信，微軟所有的產品都必須要AI化，重新去定義這樣的產品。

我們現在很注重的地方是兩個方面，一個是在所有的Office產品，在主題演講中我給大家看了 PowerPoint一個功能，就是翻譯(translate)。其實PowerPoint他們還做了另外一個，我自己非常喜歡的，所謂的圖說生成(image caption)：來一張照片，PowerPoint圖說生成可以自動給你出圖片說明，這個我們已經做得相當好了。

PowerPoint很多人用。這樣的數據可以幫助我們不斷改善一些演算法。前不久我們也發布Word，Word裡面使用AI技術，這也非常非常重要。

這裡面還有很多AI的技術都才剛剛開始，我自己覺得Office最激動人心的技術就是所謂的機器閱讀。前不久微軟買了一個加拿大的初創公司叫做Maluuba ，主要就是做這方面的工作，用自然語言、深度學習的方法來做這個東西。深度學習裡面一個很重要的問題，就是回答問題。我覺得對Office的影響會非常巨大，所以我們AI部門的同事和Office的同事一起在做。

另外一個就是在雲這裡，大家合作非常多，你到Azure.com主頁的產品裡面，Cognitive Services的內容放置最顯著的位置上，這是Scott和我，跟我們產品團隊的同事review了以後決定，Cognitive Services會變成Azure的重中之重。Windows還有很多AI，像HoloLens還有很多AI的技術，計算機視覺、計算機語音方面。

(2)挖掘新的產品線：決定做什麼和不做什麼

另外一個你要去想，新的產品線在哪裡，你有沒有一條新的產品線出來，三五年以後可以做到十億美元的生意。要思考，你有沒有這樣的業務，五到十年可以做到一百億美元的生意。如果有，當然要放馬去追求這樣的機會。

所以我們現在整個AI部門最重要的事情，就是決定要做什麼，決定不做什麼。

五、如何應對人工智慧方面的人才挑戰?

1.如何看待人才流動?

我覺得人才流動非常正常，一個大公司培養了很多的人才，最重要的還是說任何一個公司你要知道你存在的價值和理念，這體現到優秀的員工為什麼會選擇留在你這裡，不光是你到外面挖人，你給在這裡的員工提供什麼樣非常了不起的環境，讓他在這裡面有非常好的發展。

我上次在烏鎮，跟劉雲山書記報告的時候，跟大家說微軟公司在，為IT產業培養了無數的優秀人才，我說你不僅要看到幾乎所有IT公司的CTO都是我培養的，從聯想到海爾到小公司，我說你更加要看到微軟研究院在過去18年，培養了5000個學生，那些才是真正了不起的，新一代的創業公司出來——現在可能不會是這樣的情況——當時計算機視覺、AI公司剛起來的時候，那些投資人來問我一些情況，我說你不要跟我講，在開計算機視覺的公司，要麼是我的學生開的，要麼是我的學生的學生開的，這都非常光榮的事情。回過頭來看，微軟研究院、微軟公司對的IT發展，很多方面都起了巨大的正面作用，特別是為培養了非常多的一流人才。

關於對外輸出人才，微軟研究院一直覺得非常自豪。我們培養了李開復，我們培養了張亞勤，我們培養了趙峰、我們培養了芮勇，芮勇還是我學弟，這些都非常好，我們都覺得非常光榮。

2. 如何培養人才

我們最近在做一個非常重要的事情就是關於人才方面的。在6個月以前，當時成立我們這個部門還不久，我就成立了微軟人工智慧學院，培養相當一批微軟內部人才。我們希望通過這樣的方式可以吸引到更多很多外面的人才來到微軟。這麼做，並不是我們擔心又有人挖我們AI的人才，更重要的是把我們的人才培養成AI capable，所以我們就有一字頭的課、二字頭的課、三字頭的課，一直到六字頭的課，我最近剛剛做完一期AI611這門課，專門做深度學習具體項目。有10個項目，非常了不起，這門課結束的時候，我專門用了2小時去聽了他們的報告，非常好!所以我們現在在不斷培養AI的人才，既包括內部的人才培養，也包括吸引外面的人才。

六、結語

若干年前，很難想象會有一樣技術工具是由人工智慧驅動的。

若干年後，很難想象會有任何技術的背後沒有人工智慧的影子。

雲計算與日俱增的強大威力、運行於深度神經網路的強力演算法，再加上今天能夠獲取到的海量數據，在這三股強大動力的交織驅動下，今天，我們終於有能力實現人工智慧的夢想。

人工智慧擁有無窮的潛力，它有能力顛覆任何現有的垂直行業，比如銀行或者零售業，還有任何單一的業務流程，比如銷售、市場或者人力資源和獵頭。

這樣發展下去，終有一天，人工智慧將有能力為人類無邊的聰明才智錦上添花——增強人類已有的能力，並且幫助我們獲得更強的生產力。

受訪者簡介：

沈向洋博士，微軟全球執行副總裁，微軟人工智慧及微軟研究事業部負責人，美國電氣電子工程協會院士，美國計算機協會院士。全面負責微軟全球的人工智慧戰略，主持覆蓋基礎設施、服務、應用以及智能助理等前瞻性的研究與開發工作。他同時負責人工智慧產品事業群，包括微軟信息平台部門、必應和小娜產品部門，以及環境計算和機器人團隊。此外，沈向洋博士還負責與微軟產品工程部門的融合。

對話微軟沈向洋：AI當前水平怎樣 有哪些技術難點

對話微軟沈向洋：AI當前水平怎樣有哪些技術難點