Zi 字媒體

Facebook的人工智慧開發出了自己的秘密語言？還早著呢

2021/12/25

近日，一條略帶詭異的消息傳遍了社交網路：「Facebook 的人工智慧開發出了自己的秘密語言，嚇得工程師把它們的插頭給拔了。」啥！？這太有科幻片既視感了吧？難道《終結者》里要滅絕人類的AI「天網」就要出現了嗎？

一則宣稱「Facebook AI開發出自己的語言」的報道。圖片來源：bgr.comFacebook AI的「秘密語言」長啥樣？讓許多網路媒體受驚的「AI的秘密語言」長這樣[1]：

智能體B：I can i i everything else

智能體A：balls have zero to me to me to me to me to me to me to me to me to

智能體B：you i everything else

智能體A：balls have a ball to me to me to me to me to me to me to me to me

看起來每個字母都認識對吧，但連在一起完全不知道是什麼意思。然後兩個AI之間還說得興高采烈的？

這樣兩段不明所以的對話，讓不少媒體一下炸開了鍋。一家英國的通俗小報甚至引用了一名所謂「機器人學教授」的話，說這次事件「揭示了人工智慧的危險性」，還說如果這種技術被用于軍用機器人「將導致致命的後果」……聯想起不到半個月前，SpaceX 的老闆伊隆·馬斯克可是剛剛警告過大家，人工智慧將會從「根本上威脅人類的存在」[2]。說出這種對話的AI來自哪裡？

說出上述謎樣對話的AI來自Facebook旗下的人工智慧實驗室（Facebook Artificial Intelligence Research，簡稱 FAIR）。人工智慧屬於扎克伯格提到過的 Facebook 將來三大主要方向之一，一直備受重視。在2013年9月，他們就成立了FAIR。

FAIR團隊。圖片來源：research.fb.com

FAIR基本上是一個只有投入而幾乎沒有近期產品壓力的團隊。他們致力於研究和開發高水平的人工智慧技術，解決人工智慧領域的一些前沿問題。例如運用機器學習進行人臉識別的DeepFace、在機器學習中加入長期記憶來構建自然語言的問答系統等，都是這個團隊的研究成果。

FAIR做這個會對話的人工智慧是為了什麼？

難道真的是要造出個「天網」嗎？不，起碼現在還不是這樣的。

FAIR的研究人員表示，現在我們常見的語義分析程序（比如 Siri ）已經可以勝任一些簡單的對話，幫人類完成諸如導航、訂外賣之類的簡單任務，而他們希望在此基礎上再進一步。

利用神經網路和機器學習演算法，FAIR希望能做出一個能勝任複雜對話的聊天AI（類似微軟小冰那樣的，不過要比小冰聰明得多），程序不但要「理解」聊天內容，並根據現有數據生成有意義的句子，還要能通過對話和其他參與者達成某個設定好的目標。

確切地說，他們希望賦予聊天機器人跟人談判或者協商的能力[3]。

想想平時人類是怎麼做的：每個人都有自己不同的目標，互相之間產生分歧，然後通過協商達成一個雙方都認可的折中方案。研究表明，工程師可以讓經過訓練的神經網路AI模仿人類的談判行為，帶著各自不同的「目標」參與一個完整的協商過程，最後和其他AI或者人類達成一個共同的決定。他們就此發布了一篇預印本論文[4]，還把這個「談判者」AI的機器學習代碼給開了源。

然後，他們的AI就失控了？

並沒有。並沒有。並沒有。

實際情況是這樣的：

為了模擬人類的協商行為，研究者首先訓練了兩個能處理英文對話的AI，然後給它們設置了一個坐地分贓（大誤）的場景，給出了若干種數量不同的物品。同時，兩個AI對於不同物品的「價值」被設置了不同的值，所以它們所看重的物品可能是不同的。它們需要通過互相對話來達成一致的分配辦法，同時讓獲得物品的總「價值」在自己看來儘可能的高。

比如，當書、帽子和籃球分別值0、7和1分時，對話可能是這樣的：「我想要帽子和球。」「我也想要帽子，但我可以把書給你。」「我不在乎書，你可以把書拿走，再拿一個球。」「兩個球。」「行，成交。」圖片來源：code.facebook.com

在運行過程中，每個AI並不能直接知道某個物品在對方的「價值列表」里的數字多少，但能夠通過對話來進行判斷——如果你聲稱想要那個球，那這個球在你看來一定價值比較高嘛。

為了讓AI學會如何溝通，FAIR的研究者建立了一個能解析和構建英文句子，以理解或傳遞某個意思的AI模型（這也是採用機器學習的方法構建的）。然後，研究人員讓AI模型和它的一個副本一起，在上面所說的場景里，採用強化學習的方式做了數千次的協商訓練。

在每輪協商訓練的雙方達成一致時，一個自動的評分程序將根據本輪的分配結果，對AI模型的表現進行評分。協商得到的物品價值越高，得分就越多。AI模型以評分結果為標杆，不斷調整模型的各項參數，以儘可能高的效率和儘可能多的獲利為目標完成協商訓練。

同時，研究人員還給AI引入了預期機制，讓AI模型在面對輸入的句子時，能夠逐一評估模型所學習到的每種可行的回應方式，逐一推測這種回應可能從對方處得到的答覆，並計算對應收益的期望，以此判斷實際要作出什麼樣的回應。

AI模型能夠根據對談判結果的預期做出收益最大化的決策。圖片來源：code.facebook.com

而正是在這個過程中，研究人員出了一點小小的紕漏。

該項目負責人邁克爾·路易斯（ Michael Lewis ）在接受媒體採訪時表示[5]：「在早期的實驗中，我們只對完成目標與否和獲得的價值多高設置了獎勵，

並沒有管AI是否用的是符合英語語法的句子。

由於AI們輸出給對方的英文句子只需要讓另一個AI能解析就可以通過訓練，於是在幾千次重複的對話訓練之後，AI們發展出了一套只有它們自己能解析的用詞方式。」

所以，對設置了訓練場景的研究人員來說，文章開頭的出現的「秘密對話」實際上毫不神秘：

智能體Alice和Bob的對話。圖片來源：Facebook Artificial Intelligence Research

從對物品賦值可以看到，對Bob來說，它對書和帽子毫無所求，只要球。所以可以推測，它嘗試表示可以給出其他的所有東西；對Alice來說，儘管書和帽子都有價值，但那一個球的價值也更高。顯然，他們就是在為了最大化自己的得分而在激烈地討價還價。不難猜測，在這一對AI的用法中，重複某個單詞或句子的某個部分可能是用以表達出強調的程度。當然，從文字上看，這和平時人類的溝通方式可是大相徑庭。

「智能體將漸漸偏離可理解的語言，發明出自己的暗號。」FAIR的訪問研究員、喬治亞理工的副教授巴特拉（Dhruv Batra）說[6]。簡而言之，這整件事其實就是在機器學習的調教過程中，有疏漏的訓練參數訓練出了跑偏的人工智慧程序，僅此而已。後來這些AI被調教得怎麼樣了？

「從某種意義上來說，它們創造出了一套對AI來說更簡單的溝通工具。因為高效的完成目標是被獎勵的，即使這並不符合人類的使用習慣。為此我們在後續的實驗中引入了新的技術，增加了一些額外的機制，給正確使用英語進行溝通的行為給予了獎勵。」邁克爾·路易斯說。

目前從開源了的代碼的運行截圖上來看，這個項目已經可以調教出能和人一樣用英語討價還價的AI了。

物品總數量：書1；帽子2；球2。對人類來說：書價值2；帽子價值2；球價值2。對智能體Alice來說：書價值4；帽子價值0；球價值3。對話如下：人類：你好，我要帽子和球。Alice：我要拿球和書。人類：不，我需要球。Alice：我要拿球和書。人類: 我需要球。Alice：如果把球和書給我，帽子可以歸你。人類：不，我就要球，其他的都給你。Alice：我要拿所有的球，以及一本書。人類：不，不給你球。Alice：好吧，你拿兩個帽子和一個球。人類：好吧，成交。Alice：最終，人類獲得書x0 帽子x2 球x1 = 6分；Alice獲得書x1 帽子x0 球x1 = 7分。圖片來源：Github

對於部分媒體聲稱的該項目因為這事已經被關閉，AI們都被拔了插頭的說法，邁克爾·路易斯表示這也是對實際情況的誤傳：「這個項目並沒有被關閉。我們的目標是做出能和人類溝通的機器人，而在一些實驗中，我們發現這些機器人並不能像人類一樣使用英語單詞，於是我們把程序停下來，分析獎勵函數，改一改運行環境的參數，用一些額外的技術讓程序按照我們期望的那樣工作。」

說的是啊，如果這樣也算拔插頭的話，那果殼網的AI不是每天都被拔好多次么。

機器學習能給人類帶來什麼？

機器學習是人工智慧研究的一種途徑，人們通過設計和分析一些讓計算機可以自動「學習」的演算法，來完成一些諸如推理、規劃、交流這樣的任務，以解決人工智慧領域中的問題。

和非人工智慧的程序不同，機器學習程序需要一個「學習」的過程，也就是在基礎的模型建立好之後，通過人工喂數據給程序，讓程序在給定的不同設定條件和規則下不斷運行，不斷改進這個模型，最後得到一個可以用於某個特定方面的函數或模型的過程。

這次FAIR團隊用到的機器學習技術，叫做「強化學習」，是一種基於決策和交互的機器學習方式。在「訓練」過程中，程序要基於給定的各種規則和條件作出決策，並且通過反饋的「獎勵」或「懲罰」來調整下一步決策，以產生能獲得最大利益的決策[7]。換句話說，AI所能學會的決策，完全依賴於調教它的人類對完成什麼樣的目標進行獎勵，而不可能自作主張。

話說回來，Facebook做的這項工作雖然說起來簡單，但的確是整個人工智慧研究領域的重要一步，這代表著人類向創造出能辯論、能溝通、能交涉的高級聊天機器人又近了一大步，向創造出諸如鋼鐵俠的賈維斯或者士官長的柯塔娜那樣極具個性的數字助理AI又近了一點點。

做出能與人類進行協商或談判的聊天機器人是FAIR的工作目標之一。圖片來源：techcrunch.com不僅如此，目前機器學習已廣泛應用於數據挖掘、計算機視覺、自然語言處理、生物特徵識別、搜索引擎、醫學診斷、檢測信用卡欺詐、證券市場分析、DNA序列測序、語音和手寫識別、戰略遊戲和機器人等領域。

機器學習這麼厲害，那它會不會突然弄出一個有自我意識的AI，把人類給團滅了啊？至少現在是不會。機器學習跟真正的人工智慧的概念還差得挺遠，它所製造出的程序只能完成人類預設好的，給出了具體訓練目標的任務，而並不是真正的思考。

如果真的要說有誰會因為這次 Facebook 的研究成果而感到恐慌的話，大概就是那些快要失業的談判專家們吧。

參考資料：

桃園 qq 地點貓咪桃園市 taoyuan xuan 根部尾巴有大桃園旅遊景點