遊戲訓練人工智慧未來或與AI一起玩遊戲

2021/12/25

近幾年來，人工智慧一詞可謂是賺足了公眾的眼球，機器人不僅能處理各種繁重的工作，還學會了如何玩電子遊戲，過不了多久，可能就能和人類一起大打電競了。

「拿到鑰匙！」

通過簡單的英語指令，AI（人工智慧）學會了在一個最棘手的Atari 視頻遊戲中解謎通關。

加利福尼亞斯坦福大學的一個團隊開發了AI玩蒙特蘇馬復仇遊戲的系統，在該遊戲中玩家們要在Aztec寺廟中刷寶。AI學習該遊戲是具有挑戰性的，因為遊戲里的寶藏分佈稀疏，它要求玩家在得分前進行一些動作操作。

大多數視頻遊戲的人工智慧運用強化學習策略，他們要依賴反饋，例如遊戲得分，來告訴他們哪裡操作得好。為了幫助AI更快地掌握遊戲策略，斯坦福團隊以自然語言指令的形式輔助強化學習系統，例如建議它「爬上梯子」或「拿到鑰匙」。

團隊成員Russell Kaplan說：「想象教一個孩子打網球，把球拍交給他讓他在乒乓球機旁練習10年。這基本上是我們現在教AI的情形；事實證明有教練教的孩子學習得更快。」

用這種方式教AI可能會有更深層次的應用，因為使用自然語言意味著，任何人都可以給AI建議，不僅僅是計算機程序員。

數字化的遊戲

該小組首先訓練AI 把指令與遊戲中正在進行的相同動作的截圖關聯起來。然後，他們讓AI 用一系列遊戲角色通過的每個房間的指令練習玩遊戲，對完成命令和遊戲通過的行動進行獎勵。

為了驗證AI 對「爬梯子」等命令有了大致的理解，研究人員進行了另一項實驗，他們移除了第二個房間的訓練數據。Kaplan說，系統儘管以前沒有見過房間布局，但仍然能夠按照該房間的指示進行操作，這表明它不僅僅是死記硬背。相反，它可能是從先前的指令進行了發散。當它找到一個更好的攻略時，它也學會了忽略指令。

在遊戲中該系統獲得了3500分，打破了OpenAI Gym（測試人工智慧在虛擬環境中的在線平台）的最高分2500分。DeepMind 的人工智慧在該遊戲中獲得高達6600分，但它花了近兩倍的時間訓練。它將強化學習與一種稱為內在動機的方法結合，來獎勵AI的好奇心和對其環境的探索。

自然引導

Kaplan說，DeepMind 的方法更先進，但他認為這兩種方法都值得稱讚並希望嘗試將兩者相結合。當AI在遊戲中獲得進步，該小組還計劃減少指令的數量，看看它從獲得指令到停止依賴於指引的學習速度有多快。

卡內基梅隆大學的Devendra Chaplot說，使用自然語言指導是一個有趣的方法。他說：「它為人類引導人工智慧系統提供了一個自然的方式，所以非常實用。」

雖然把它翻譯成現實世界可能是一個挑戰。Chaplot說：「該項目採用一套固定的指令，但理解自由的自然語言指令仍是一個非常具有挑戰性的開放式問題。」。

Kaplan 說，對他們有利的因素是豐富的數據集可以將真實世界圖像與自然語言描述相聯繫，這可以用來幫助訓練AI。

from：36氪

遊戲訓練人工智慧 未來或與AI一起玩遊戲