search
Facebook最新研究:我們訓練機器人討價還價,沒想到AI還自己學會了「使詐」(附論文)

Facebook最新研究:我們訓練機器人討價還價,沒想到AI還自己學會了「使詐」(附論文)

作者 | Mike Lewis,Denis Yarats,Yann N. Dauphin,Devi Parikh,Dhruv Batra 編譯 | Aileen,Huo Jing

你跟女票說:「今晚的球賽特別重要,但是為了陪你我勉強放棄不看!」實際上今晚比賽的球隊你根本不感興趣,這樣做只是讓女票同意你明天和哥們喝酒的談判「小伎倆」。

這個「使詐」的技能是不是很熟悉?而這次,學會這個技能的是Facebook的討價還價機器人,而且,這還是人家AI自己獨立學會的技能。

今日凌晨,Facebook發布最新研究,稱他們訓練的機器人已經get了談判技能。而且,有些情況下,機器人最初假裝對無價值項目感興趣,只有通過放棄它才能「妥協」 ——這是人們經常使用的有效談判策略。這個行為並不是由研究人員編寫的,而是由機器人發現的,作為試圖實現目標的方法。

每天,從我們醒來的那一刻開始,我們的生活就是不斷地與人談判:從討論看什麼電視頻道,到說服你的孩子吃蔬菜或試圖買菜時獲得更好的價格。所有這些都是共通的,它們需要複雜的交流和推理技能,這是計算機所沒有的屬性。

迄今為止,現有的chatbots(聊天機器人)上的工作已經導致系統可以進行短暫的對話,並執行簡單的任務,如預訂餐廳等。但是,與人們進行有意義的對話的機器人還是很具有挑戰性的,因為它需要機器人將其對話的理解與其對世界的知識相結合,然後產生一個新句子來幫助實現其目標。

今天,Facebook人工智慧研究(FAIR)的研究人員已經開放源代碼,並發表論文,介紹機器人具有的新功能 - 談判能力。

*

類似於人們有不同的需求,遇到衝突,然後談判達成一個商定的妥協,研究人員已經表明,對於具有不同目標的對話機器人(實現為端對端訓練的神經網路)在達成共同決定或結果的同時,與其他機器人或人員可以進行從開始到結束的談判。

任務:多議題討價還價

FAIR研究人員研究了多議題談判任務。對兩個機器人都顯示了相同的項目集合(比如說兩本書,一個帽子,三個球),並且被指示他們通過談判把這些物品分配給彼此。

每個機器人都提供自己的價值函數,它表示對每個類型的項目關心多少(比如對於機器人1,每個球值得3分)。 在生活中,兩個機器人都不知道其他機器人的價值函數,必須從對話中推斷出(如果你說你想要球,那你應該很重視球)。

FAIR研究人員創造了許多這樣的談判方案,始終確保兩位機器人商不可能同時獲得最佳交易。 此外,如果談判進行不下去(或者不經過10次對話之後的協議),那這兩個人都只得0分。 簡單地說,談判是至關重要的,良好的談判導致更好的表現。

對話框部署

談判同時是語言和推理問題,其中必須制定意圖,然後口頭實現。 這樣的對話包含合作和對抗的要素,要求機器人了解和制定長期計劃併產生話語以實現其目標。

FAIR研究人員在構建這樣的長期規劃對話機器方面的關鍵技術創新是一種稱為對話部署的概念。

當聊天人可以建立對方(對話者)的心理模型,提前思考或預測未來談話的方向時,他們可以選擇避開沒意義的,混亂的或令人沮喪的交流,從而走向成功的談判。

具體來說,FAIR已經開發了對話部署,作為一種新技術,其中機器通過將對話模型推出到對話結束來模擬未來的對話,從而可以選擇具有最大預期未來獎勵的話語。

類似的想法已被用於遊戲環境規劃中,但從未被應用於語言上,因為語言可能的動作數量要高得多。為了提高效率,研究人員首先產生了一組較小的候選語言來表達,然後對於每個候選語言,他們反覆模擬對話的完整未來,以估計它們的成功程度。該模型的預測精度足夠高,使得該技術在以下幾個方面大大提高了談判策略:

談判更加努力:新的機器人與人類進行了長時間的對話,反過來也會很快接受交易,這個模型會一直談判直到交易成功。

智能機動:有些情況下,機器人最初假裝對無價值項目感興趣,最後只有通過放棄它才能「妥協」 - 這是人們經常使用的有效談判策略。這個行為並不是由研究人員編寫的,而是由機器人發現的,作為試圖實現目標的方法。

創造語句:雖然神經模型很容易從訓練數據中重複句子,但這項工作表明,模型能夠在必要時進行泛化。

建立和評估談判數據集

為了訓練協商機器人和進行大規模的定量評估,FAIR團隊協作收集了一系列人與人之間的談判記錄。這些人被展示了一組物品和每個物品的價值,每兩個人要討論決定,要怎麼劃分這些物品。然後研究人員訓練一個遞歸的神經網路,通過教它模仿人們的行為來進行談判。在對話框中的任何點,模型都試圖猜測人類在這種情況下會說什麼。

不同於先前針對目標對話框的工作,這些模型被訓練成「端到端」,完全是由人類所做的語言和決定所決定的,這意味著這種方法可以很容易地適應其他任務。

為了超越簡單地模仿人們,FAIR研究人員允許模型來實現談判的目標。為了訓練模型實現其目標,研究人員讓模型進行了數千次的自我談判,並使用強化學習演算法,當它取得好的結果時給予獎勵。為了防止演算法開發自己的語言,它也同時訓練模型產生人類語言。

為了評估談判機器人,FAIR團隊測試他們在網上與人交談。大多數以前的工作避免與真實的人對話或在較不具挑戰性的領域工作,因為學習模型要響應人們所說的各種語言非常困難。

有趣的是,在FAIR團隊的實驗中,大多數人沒有意識到他們是在與機器人交談,而不是與另一個人交談,這表明機器人已經學會在這個領域用英語進行流利的對話。FAIR團隊最好的談判機器人,使用強化學習和對話的推出,其性能已經可以和人類談判相媲美。它取得了更好的交易的頻率,等同於更糟的交易的頻率,表明FAIR的機器人不僅可以說英語,也可以聰明地決定想說什麼。

強化學慣用於對話機器人

監督學習的目的是模仿人類用戶的行為,但它並沒有明確地試圖實現機器人的目標。FAIR團隊採用另一種方法,嘗試預訓練再加監督學習,然後基於評估指標,利用強化學習對模型進行微調。實際上,他們使用監督學習來在語言和意義之間進行映射,但是使用強化學習來幫助決定說什麼。

在強化學習過程中,一個機器人試圖從與另一個機器的對話中改進其參數。而另一個機器可能是一個人,FAIR團隊使用一個固定的監督模型,訓練模仿人類。第二個模型是固定的,因為研究人員發現,隨著機器開發自己的語言進行談判,更新兩個機器模型的參數導致了模型不收斂。在每一個對話結束時,根據最後達成的協議給予獎勵。然後,使用策略梯度,這個獎勵通過輸出的每一個字被回傳網路,從而增加導致高回報的行動的概率。

下一步

這一突破對於研究社區和BOT開發商是重大的一步,可以創造聊天機器人推理,交流,洽談的能力,對於建立個性化的數字助理至關重要。與社區合作使我們有機會分享我們的工作和我們要解決的挑戰,並鼓勵有才華的人貢獻他們的想法和努力,推動這個領域向前發展。

熱門推薦

本文由 一點資訊 提供 原文連結

一點資訊
寫了5860317篇文章,獲得23246次喜歡
留言回覆
回覆
精彩推薦