Zi 字媒體

過去18年，機器人是如何學會和你愉快聊天的？

2021/12/25

yidianzixun

贏了柯潔的AlphaGo讓很多人看到了AI太過強大的一面，然而我們大多數人在生活中感受到的AI卻是十分「智障」的，不太有人工智慧應該有的樣子。

這種巨大的反差主要是因為能應用在生活中的人工智慧，還長時間處於早期階段。

比如語音助手。

但對話和翻譯其實是人工智慧最早涉足的領域。

能讓機器理解人類的語言，或者模仿人類的語言是大家對人工智慧最初的幻想，所以在早先，圖靈測試一度成為評判人工智慧的標準。

對話和翻譯應用的是人工智慧眾多學科分支里自然語言處理（Nature Language Processing，簡稱NLP）的部分，目的是要解決人和機器之間的溝通問題，是人工智慧處理的發端，至今仍面臨很多問題。

就拿對話系統來說，市面上各個巨頭都推出自家智能語音助理，但鮮有一款能完全擺脫「智障」的嫌疑。

可以說在這條賽道上，大家跑的都不快。但儘管如此還是堅持在跑，就連長期困頓在手機里的Siri，也要推出自己的智能音箱。

「儘管目前形勢不太樂觀，但是一直跑下去，總會見到成效。」6月1日，微軟亞洲研究院副院長周明表示，再堅持5-10年自然語言處理就會看到長足發展。

周明博士認為自然語言處理的發展有三個階段：

第一層是基礎技術：分詞、詞性標註、語義分析。
第二層是核心技術：辭彙、短語、句子、篇章的表示。包括機器翻譯、提問和回答、信息檢索、信息抽取、聊天和對話、知識工程、語言生成、推薦系統。
第三層是「NLP+」：仿照「人工智慧+」或「互聯網+」的概念，實際上就是把自然語言處理技術深入到各個應用系統和垂直領域中。比較有名的是搜索引擎、智能客服、商業智能和語音助手，還有更多在垂直領域——法律、醫療、教育等各個方面的應用。

關於第三層的「NLP+」,市面上大大小小的語音助手有不少，從微軟畢業的有兩個：小娜（Cortana）和小冰。雖然都是語音助手，但是兩者還是有些區別。

小娜通過手機和智能設備介入，讓人與電腦進行交流：用戶發布命令，小娜理解並執行任務。同時，小娜能夠記憶一些用戶性格特點、喜好、習慣，然後主動給一些貼心提示。

比如，你過去經常路過某個地方買牛奶，在你下次路過的時候，她就會提醒你，問你要不要買。她從過去的被動到現在的主動，從原來的手機，到微軟所有的產品，比如Xbox和Windows，都得到了應用。

小冰純粹就是閑聊了，沒想幫你解決什麼問題，它閑聊的主要目的是希望儘可能的「像人一樣」。

「它是一種新的理念，很多人一開始不理解。人們跟小冰一起的這種閑聊有什麼意思？其實閑聊也是人工智慧的一部分，我們人與人見面的時候，寒喧、問候、甚至瞎扯，天南海北地聊，這個沒有智能是完成不了的，實際上除了語言方面的智能，還得有知識智能，必須得懂某一個領域的知識才能聊起來。所以，小冰是試圖把各個語言的知識融匯貫通，實現一個開放語言自由的聊天過程。」

而小冰最開始是怎麼學習聊天的？主要是跟網友學的。

首先將網上的論壇、微博或是網站里出現過的對話句子抽取出來，當成訓練語料庫。當用戶輸入一個句子時，系統會從語料庫里找到一個跟這個句子最相像的句子，而這個句子對應的答覆就可以直接輸出作為電腦的回復。雖然看起來簡單粗暴，但確實奏效。

有的時候，系統找到的句子可能對應了很多回復，它不知道哪個回復最適合當前的輸入語句。這時就會再有一個匹配的過程，去判斷輸入語句跟語料庫里的回復在語義上是相關的或者是一致的。

到目前，小冰已經覆蓋了三種語言：中文、日文、英文，累積了上億用戶，平均聊天的回數23輪，平時聊天時長大概是25分鐘左右。

目前取得的自然語言方面的成果，是微軟18年的努力。

微軟在1998年11月5日成立微軟亞洲研究院時就開創了自然語言處理的研究領域，除了200多篇頂級期刊的論文，還有大量的NLP人才。

2014年5月，微軟推出小冰，同年7月，推出Cortana。

2016年，微軟首席執行官薩提亞在大會上提出了一個概念「對話即平台」（「Conversation as a Platform」，他認為圖形界面的下一代就是對話，它會對整個人工智慧、計算機設備帶來一場新的革命。

而小冰和小娜就是微軟為這場革命做出的準備。

其實無論小冰這種閑聊，還是小娜這種注重任務執行的技術，背後單元處理引擎無外乎就三層技術。

第一層：通用聊天，需要掌握溝通技巧、通用聊天數據、主題聊天數據，還要知道用戶畫像，投其所好。
第二層：信息服務和問答，需要搜索的能力，問答的能力，還需要對常見問題表進行收集、整理和搜索，從知識圖表、文檔和圖表中找出相應信息，並且回答問題，這些統稱為Info Bot。
第三層：面向特定任務的對話能力，例如訂咖啡、訂花、買火車票，任務是固定的，狀態也是固定的，狀態轉移也是清晰的，就可以用Bot一個一個實現。通過一個調度系統，通過用戶的意圖調用相應的Bot 執行相應的任務。它用到的技術就是對用戶意圖的理解，對話的管理，領域知識，對話圖譜等。

除了創造出小娜小冰，微軟還要技術釋放，讓開發者能開發自己的Bot。如果開發者的機器不懂自然語言，這時就可以通過一個叫Bot Framework的工具來實現。

任何一個開發者只用幾行代碼，就可以通過Bot Framework完成自己所需要的Bot。比如，有人想做一個送披薩外賣的Bot，可以用Bot的框架填入相應的知識、相應的數據，就可以實現一個簡單的Bot。很多沒有開發能力的小業主，通過簡單操作，就可以做一個小Bot吸引來很多客戶。

在這個開源平台里有很多小冰的關鍵技術。微軟有一個叫做LUIS（Language Understanding Intelligent Service）的平台，提供了用戶的意圖理解能力、實體識別能力、對話的管理能力等等。

比如說這句話「read me the headlines」，識別的結果就是朗讀，內容就是今天的頭條新聞。再比如說「Pause for 5 minutes」，識別的結果是暫停，暫停多長時間？有一個參數：5分鐘。通過LUIS，我以把意圖和重要的信息抽取出來，讓Bot來讀取。

這些對於人類來說甚至不需要動腦思考的對話，對於機器來說是難到了另一個層次上。

周明博士認為人工智慧有四個層次，從下往上依次是：運算智能、感知智能、認知智能和創造智能。

運算智能已經達到很高的水平了，感受一下來自世界頂級圍棋選手對AlphaGo的評價。

其次是感知智能，主要體現在聽覺、視覺和觸覺方面，也就是我們通常說的語音技術、圖像技術。語音技術用的就多了，比如讓Siri聽懂你說的話，圖像識別主要應用在人臉識別上，喜歡跟隨科技潮流的公司一般會把門禁換成人臉識別。

認知智能是我們今天說的重點，主要包括語言、知識和推理。語言的重要性體現在什麼地方呢？Siri不能只是識別出來你在說啥，它需要根據你說的話做出回應，這時候就需要理解你在說什麼。

創造智能就是一種最高級的形態了，也就是當AI擁有想象力的時候。

在運算和語音、圖像識別上，機器已經能達到很高的準度，目前的主要缺口在認知智能上。過去認知智能主要集中在自然語言處理，它簡單理解了句子、篇章，實現了幫助搜索引擎、仿照系統提供一些基本的功能、提供一些簡單的對話翻譯。

周明博士認為語言智能是人工智慧皇冠上的明珠，如果語言智能能實現突破，跟它同屬認知智能的知識和推理就會得到長足的發展，就能推動整個人工智慧體系，有更多的場景可以落地。

對於未來語音智能的發展，周明博士認為有幾個方向：

第一，隨著大數據、深度學習、雲計算這三大要素推動，口語機器翻譯會完全普及。
第二，自然語言的會話、聊天、問答、對話達到實用程度。
第三，智能客服加上人工客服完美的結合，一定會大大提高客服的效率。
第四，自動寫對聯、寫詩、寫新聞稿和歌曲等等，
第五，在會話方面，語音助手、物聯網、智能硬體、智能家居等等，凡是用到人機交互的，基本上都可以得到應用。
最後，在很多場景下，比如說法律、醫療診斷、醫療諮詢、法律顧問、投融資等等，這些方面自然語言會得到廣泛的應用。

當然，現在的自然語言現在也面臨許多困境。最關鍵的一點是如何通過無監督學習充分利用未標註數據。現在都依賴於帶標註的數據，沒有帶標註的數據沒有辦法利用。但是很多場景下，標註數據不夠，找人工標註代價又極大。

那麼如何用這些沒有標註的數據？這就要通過一個所謂無監督的學習過程，或者半監督的學習過程增強整體的學習過程。

再給NLP一些時間，語音助手也許就能說服你它其實是人工智慧了。

微軟聯合創始人造出了史上最大飛機，一次可發射三枚火箭！

從微軟到「巨硬」：我們和Surface之父聊了聊他對產品的執念，以及Surface的未來

檢驗信仰的時刻：Surface Pro 新品首發 5888 起，Surface 全系入華

不品讀這本詩集，你就根本不了解人工智慧的文學素養！

桃園 qq 地點貓咪桃園市 taoyuan xuan 根部尾巴有大桃園旅遊景點