Zi 字媒體

Facebook的AI用「自創秘密語言」對話？程序員：參數沒調好……

2021/12/25

yidianzixun

1新智元報道

報道/編譯：文強，劉小芹，張易

最近 Facebook 的一個 AI 項目火了，而且火得不要太好——稍微上網一搜就能看到：

AI 機器人發展出自己的語言，Facebook 的工程師們慌了
Facebook AI 發明出人類不能理解的語言，擔心失控項目已被關閉
難道我們人類造出了一個怪物？

一則宣稱「Facebook AI開發出自己的語言」的報道。圖片來源：bgr.com

還有一家英國小報引用一位機器人學教授的話，說這一事件表明，如果類似的技術被用于軍事機器人，將「非常危險，並且可能是致命的」。

更多的新聞延伸到未來的機器人革命、殺人機器人、惡意的人工智慧，各種各樣的有關人類滅絕的想象。所有這些，無不引用 Facebook 兩個聊天機器人這樣一段對話：

Bob: I can i i everything else ..............
Alice: balls have zero to me to me to me to me to me to me to me to me to
Bob: you i everything else .............
Alice: balls have a ball to me to me to me to me to me to me to me to me

有圖有「真相」：

看上去恐怖嗎？

這一切的起因是，上月中，FastCo Design 網站針對 Facebook 利用「生成對抗網路」開發對話談判軟體的努力做了一篇報道。這篇報道引用的兩個 bot，其設計的目的是證明：「具有不同目標（端到端訓練神經網路實現）的對話智能體，能夠從頭到尾地與其他 bot 或人類進行談判，並達成一個共同的決策或結果」。

兩個 bot 針對給定的話題（例如書籍，帽子，球，都是一些無害的物體），討論如何分割成雙方都同意的部分，除此以外並不做其他事情。

這樣做的目的，是開發一個可以從人類的互動中學會談判交易的聊天機器人，它能夠非常流暢地進行對話，終端用戶甚至不會意識到他們在與機器人對話。

就這麼簡單。

然而，FASTCO 的報道寫道，「FAIR 的談判智能體利用強化學習和對話推演（dialog rollouts），表現與人類談判相當……這證明 FAIR 的 bot 不僅能講英語，並且對要講什麼也是有過思考的。」

更要命的是，文章引用了專業人士的評價——「智能體會脫離人類可以理解的語言，發明自己的代碼語言。」那篇文章引用 FAIR 訪問研究員 Dhruv Batra 的話說，「就好比我說 5 遍『the』這個單詞，你會理解為我想要 5 個這個東西。這與人類發明簡略表達的方式並沒有太大不同。」

於是事情一發不可收拾。

在繼續討論前，我們先來看 FAIR 訪問研究員 Dhruv Batra 自己的澄清。

FAIR團隊。圖片來源：research.fb.com

Dhruv Batra 是 FAIR 研究員，也是對話模型那篇論文作者之一，他在自己的 Facebook 主頁回應道：

我剛從 CVPR 回來，就發現我的 FB/Twitter 的時間流充滿了這些說 Facebook 的研究員開發的 AI 智能體發展出自己的語言，描述各種世界末日景象的文章。

我不想針對某篇具體的報道，或者對某個斷章取義的引用提出具體的回應，但我認為這樣的報道只是為了賺眼球，非常不負責任。

AI 智能體發展出自己的語言這種說法可能令人震驚，或讓這個領域之外的人感到意外，但這是發展了很多年的 AI 的一個子領域，相關研究文獻可以追溯到幾十年前。

簡單地說，環境中的智能體試圖解決一個任務時，通常會找到一種方式來最大限度地提高回報（reward）。分析這個回報函數並改變實驗中的參數，與「關閉 AI 項目」完全不是一回事！如果這能一樣的話，每個 AI 研究者在停止某個機器的工作時都在「關閉AI項目」。

Batra 希望大家都閱讀一下他們的研究論文或者 FAIR 博客上的介紹文章，並閱讀各個研究團體有關多智能體語言出現的文獻。

用戶「蔡曦」結合報道中提到的 Facebook 論文《Deal or No Deal？End-to-End Learning for Negotiation Dialogues》，做了比較詳細的分析。

論文的大致流程是，用人類的對話作為數據集，訓練一個端到端的模型，模仿人類進行物物交換的談判對話，例如：

論文用 5808 組人類對話作為訓練集，526 組對話作為測試集，分別用兩種不同的模型（Likelihood Model 和 Goal-based Model）和不同的訓練方法（一種是用 RNN 作簡單的監督學習，另一種是用監督學習先作預訓練，再用強化學習來微調模型），在 PyTorch 上跑對話模型。

結果是，直接用簡單的相似度導向（Likelihood-based）的監督學習產生的對話與人類的語言（英語）最接近。

而運用目的導向策略（Goal-based）的強化學習模型情況下，當更改相關參數后就會產生雜亂無章的對話。注意：這並不代表產生了一種新的語言並且兩個 agent 相互理解，只是基於訓練時輸入的英文單詞的錯誤組合而已！

一位不願透露姓名的業內人士對新智元表示：這就是訓練失誤的模型。做失敗的東西也能拿出來吹，有些媒體的做法確實欠妥。當然，這一波是國外媒體先如此報道的。還是希望這個領域的媒體多些理性，不要看到是 Facebook 或者谷歌的研究就吹。

再來仔細看 Facebook AI Research 的論文——需要指出，Facebook 研究人員並沒有在論文中表示其 AI 發展出了自己的語言（developed their own language）。

至於「吹不吹」，還是需要在理解的基礎上進行判斷。Facebook AI 這條新聞出來這麼久，還沒有多少新聞在報道時真正聚焦研究本身，這或許也是炒作甚囂塵上的一個原因。

FAIR 進行研究的目的是讓智能體學習談判。

談判既是語言也是推理問題，在談判時你需要有一個意圖，然後在口頭（或文本）上實現。由此進行的對話同時包含了合作和對抗的要素，這就要求 AI 需要了解並制定長期規劃，並生成話語以實現其目標。

FAIR 研究人員在開發這種擁有長期規劃能力的對話 AI 方面進行了一種創新，他們稱之為「dialog rollouts」。

Dialog rollouts 能讓 AI 收到輸入后，推算出（roll out）多種模擬的對話，直到每段對話的結束，然後從中選擇結果最好（也即預期獎勵最大）的對話路線來進行。

下面是示意圖，選擇得分為 9 的最下面那條路線，顯然結果最好（能夠拿到 3 頂帽子）。

實際上，類似的思路也被用於遊戲環境中的規劃問題，但 Facebook 研究人員表示，這種方法此前還從未被用於語言研究，原因是可以選擇的行動數量過於巨大。

為了提高效率，FAIR 研究人員首先生成了一小部分備選的表述（utterance），然後重複模擬未來的整個對話，從而估算這種表述成功的程度。FAIR 開發的這種模型，預測準確率足夠高，從而在好幾個方面極大提升了談判策略：

更努力地談判（Negotiating harder）：新的智能體能與人類進行更長時間的對話，不會那麼快就成交。模型會一直談判一直談判，直到達成協議。
有策略地談判（Intelligent maneuvers）：在一些案例中，智能體在最開始會對自己不感興趣的東西裝作很感興趣，之後把這些東西放棄，顯得自己做出了妥協——人在談判時也常常使用這種策略。FAIR 研究人員表示，這不是編程實現的，而是 bot 自己觀察后認為這是一種實現目的的好方法。
生成新的句子（Producing novel sentences）：神經網路往往傾向於重複訓練數據中見過的句子，但在這項研究中，模型在必要時生成了新的句子。

從 Facebook 官博上給出的例子（見下），這個談判 AI 開發還是成功的：

現在，Facebook 確實關閉了這個對話項目，但並不是因為他們對創造出可能不受控制的智能體感到恐慌。在 FastCo 的報道中，FAIR 另一名研究員 Mike Lewis 說，他們決定關閉對話，因為「我們感興趣的是做能夠與人類對話的 bot」，而不是 bot 互相間能夠很有效率地進行對話，「我們要求 bot 相互之間的對話要能夠被人理解」。

但在這個媒體浮誇的時代，新聞報道所做的可能與這些機器人並沒什麼不同，這個故事從關注機器學習技術的短期實現潛力，演變成製造恐慌的末日故事。

實際上，正如 Dhruv Batra 所說，AI 之間「交流」是非常普通的一個現象，只要你把兩個機器學習設備放在一起，並讓它們相互學習，都會出現這樣的現象。值得一提的是，假如 bot 之間簡略的「語言」可以解釋，出來的對話也就能夠理解，並且完全不像之前的那麼可怕。

這類機器學習技術可能讓智能設備或系統更高效地相互交流。如果說這些成果引出一些問題，就是一旦這樣的系統出錯，debug 會非常不容易！但這完全不是說人工智慧脫離了人類的控制。

上海交通大學教授、斯坦福 AI Lab 博士后盧策吾在接受新智元採訪時表示，這件事情告訴我們，沒有很 solid 和 novel 的工作，PR 需謹慎，可能對自己和機構都是副作用。研究計算機是否能（非監督地）獨立產生自己的語言，這件事情本身是非常有意義的科學探索，因為這是檢驗計算機是否理解人類高級語義和抽象概念的好方法。

他也建議大家有興趣的話，可以看一下Noam Chomsky 的經典討論，這樣更能把語言產生這件事的高度提高一下。

「這就像一個與世隔絕的部落，AI 獨立產生了自己語言，雖然符號表達和我們不一樣，但是我們一翻譯，發現它們有和我們一樣的高級語義，比如「朋友」，「愛情」等等，我會說他們真的理解這些概念，具有人類的高級智能。」盧策吾告訴新智元。

目前，計算機能識別「貓」，「狗」，「汽車」，但計算機真的理解這個概念嗎？盧策吾認為不一定，更多是像模式識別（pattern recognition）。「例如，有一輛外形奇怪的車，在訓練集合里沒出現過，計算機馬上就掛了，因為計算機沒有『什麼是車』這個概念，而是記下一般情況下車的長相。」盧策吾說：「這樣就看出，目前計算機沒有真正全面地理解人類概念，還是比較低級別的 AI。如果計算機真的理解人類概念，其對現實世界的改造威力將會大上好幾個量級。」

盧策吾教授研究組的一個 topic 是讓計算機看大量視頻，然後（非監督地）獨立發明辭彙。目前結果應該說是「非常崩潰的」，計算機只能推斷出一些「顯而易見」的概念。

「我們發現第 1242 號辭彙（pattern）好像是對應『走』的意思——其實這是很低級別語義，沒什麼意思——更深刻概念就根本抓不到，還在探索中，探索路上經常被打擊。分享一下我們一些比較崩潰的研究經歷，就是想說，計算機獨立發明語言是一件非常艱難的事情。但這是窺探強人工智慧的一個好工具，我相信逐步一點點推進還是有可能的。」

一個AI：闢謠文章發了？

另一個AI：發了。

一個AI：人類信了嗎？

另一個AI：信了信了信信信信信了了

一個AI：……

參考資料

Facebook 研究人員 Dhruv Batra 的澄清：https://www.facebook.com/dhruv.batra.dbatra/posts/1943791229195215?pnref=story
知乎用戶周曦的回答：
Facebook 官博論文介紹：
Gizmodo 事件回顧：http://gizmodo.com/no-facebook-did-not-panic-and-shut-down-an-ai-program-1797414922

本文來自新智元：

本文來自果殼網，謝絕轉載

如有需要請聯繫[email protected]

（歡迎轉發到朋友圈~）

桃園 qq 地點貓咪桃園市 taoyuan xuan 根部尾巴有大桃園旅遊景點