search
尋找貓咪~QQ 地點 桃園市桃園區 Taoyuan , Taoyuan

DeepMind進軍星際爭霸2,谷歌Facebook打響通用AI戰爭

編者按:本文來自微信公眾號「新智元」(ID:AI_era),內容來源:deepmind.com/blog 等,譯者:熊笑 弗格森;36氪經授權發布。

7日,Facebook剛剛宣布開源史上最大的《星際爭霸》遊戲數據集STARDATA。今天(10日)DeepMind在官方博客上宣布開源星際爭霸2 研究訓練平台SC2LE。AI 巨頭挑戰星際爭霸的角逐愈演愈烈。烏鎮圍棋峰會上,DeepMind CEO 哈薩比斯曾說,星際爭霸將成為AI進步的下一個大考驗。

國內AI 資深專家袁泉此前曾深入研究過星際爭霸中的若干AI問題,和UCL共同發表了多智能體協作網路BiCNet,第一次展現了AI在星際微觀戰鬥中的五類智能協作方式。新智元對此做過專門報道。此次DeepMind 和暴雪最新發布的星際爭霸 2 AI開放研究平台的論文中,也多次引用了袁泉團隊的工作。因此,袁老師應新智元之邀做了特別點評。他指出了此事的兩點意義:

第一點:星際 2 的搜索和決策空間比 AlphaGo 圍棋大了多個「數量級」,DeepMind、Facebook 等越來越多的優秀團隊參與到這項研究中,很可能創造出更好的下一代AI的新技術。因為按之前玩圍棋的技術框架的話,蒙特卡羅樹搜索加深度強化學習,應該是不能完全解決星際中的問題,尤其是full game智能策略方面的難題。此次DeepMind和暴雪在AI開放平台、API標準化、性能架構上做了不少細緻卓越的工作,為今後的研究打下了好的基礎,希望國內有志於此方向的老師同學積極投入到此項研究工作中。

第二點: SC2LE 開放平台,相對於大家之前做的星際1的平台,最大的一個優勢是提供了很多端到端的內容操作的介面,發展出來可以通過介面像人一樣打星際,進行控制,這種介面是在之前的星際1平台上不提供的。基於這一點,未來有可能大家可以會看到機器人像人一樣坐在電腦前,操作滑鼠打星際和高手對決,對機器人等相關領域也是很好的促進!

DeepMind 最新發布 SC2LE,推動星際爭霸 2 AI 研究

DeepMind 剛剛在博客中宣布,與合作夥伴暴雪一起,發布了一套名為 SC2LE (StarCraft II Learning Environment)的工具組件,這套工具組件將加速即時策略遊戲星際爭霸 2 中的 AI 研究。

星際爭霸 2 是 2010 年發布的即時策略遊戲

根據 DeepMind 的博客所說,SC2LE 包括:

一個由暴雪開發的機器學習 API,能夠讓研究者和開發者參與到遊戲中來。其中還包括面向 Linux 的工具的首次發布。(GitHub 地址

一個匿名遊戲回放數據集。在未來幾周內,其大小將從 65k 增加到超過 500k。

一個開源版本的 DeepMind 工具集PySC2,允許研究者較容易地使用暴雪的 feature-layer API 和自己的智能體。

一系列簡單的強化學習迷你遊戲,使研究者可以在特定任務上測試智能體性能。

一篇 DeepMind 和暴雪的聯合論文,論文對作為研究環境的星際爭霸 2 進行了概述,報告了在迷你遊戲上的初始基準結果,基於回放的監督式學習,以及對抗遊戲 AI 的 1 v1 ladder 遊戲(論文介紹見文後)。

星際爭霸 2 AI 研究進一步瞄準通用人工智慧和真實世界的任務

DeepMind 一向以開發能夠學習解決複雜問題的 AI 系統、推進 AI 邊界為使命。從設計用來研發通用人工智慧和機器學習系統的第一人稱視角 3D 遊戲平台 DeepMind Lab ,到圍棋、Atari 這樣的遊戲,DeepMind 一直在廣闊多樣的環境中設計智能體並測試其能力。

星際爭霸和星際爭霸 2 一直以來都位列最成功的大型遊戲之中,相關比賽已經舉辦了 20 多年。其原始遊戲就已經被 AI 和機器學習研究者所用,每年都有 AIIDE bot competition。星際爭霸長盛不衰的部分原因在於其豐富、多層面的遊戲過程,這也使得其成為 AI 研究的理想環境。

關於星際爭霸作為 AI 研究和智能體「競技場」的歷史,可以參見這篇文章:星際AI 爭霸 6 年簡史:通用人工智慧角斗場,DeepMind 確認應戰

實際上,早在2016年11 月,DeepMind 工程師 Oriol Vinyals 就在公司博客公布,DeepMind 將和暴雪合作,讓星際爭霸2 成為人工智慧研究場景,並開放給所有的人工智慧研究者。

Oriol Vinyals 少年時期曾是西班牙的頂級星際爭霸玩家,他當時坦言,「要打敗人類職業選手,機器尚有很長的路要走。

他當時在博客中寫道,DeepMind 之所以選擇星際爭霸2作為人工智慧研究的目標,是因為它的複雜性:玩家必須做出高級戰略決策,同時還要控制數百個元素,並快速做出各種決定。Oriol Vinyals 認為,跟國際象棋和圍棋相比,星際爭霸更能模擬真實世界的混亂狀況。他說:「如果要讓智能體程序學會玩星際爭霸,它需要有效利用記憶,還要能制定長遠計劃,而且能根據最新信息調整計劃。」他認為,如果能開發一套機器學習系統,讓它掌握操作星際爭霸的技巧,這種技術將最終可以用來執行真實世界的任務。

此後,《星際爭霸》的製造公司暴雪娛樂建造總監 Tim Morten 對媒體確認,AlphaGo 將挑戰《星際爭霸2》。

AI研究者現在可以使用開放工具構建自己的模型,來應對星際爭霸的技術挑戰

此次 SC2LE 的發布,無疑是 DeepMind 將之前的宣言付諸了行動。在這篇最新的博客中,DeepMind 又闡釋道:

舉例來說,如果遊戲的目標是擊敗對手,遊戲者必須採用並權衡一系列子目標,比如採集能源或修建建築。另外,一局遊戲的時長可能長至一小時,這意味著遊戲早期採取的一些行動可能長時間得不到回報。最後,地圖上有很大一部分是隱藏的,這意味著智能體必須結合其記憶力和規劃能力,才能獲勝。

這款遊戲還有其他吸引研究者的特質,比如每天都有人數眾多的狂熱玩家在線比賽,這保證了訓練智能體所必需的回放數據,也保證了 AI 智能體不缺有實力的對手。

星際爭霸的動作候選空間里有高達 300 種基本動作可被採用,Atari 遊戲則大概只有 10 種(如上、下、左、右等)。不僅如此,星際爭霸中的動作還是有層次的,可以被調整和增強,其中許多都要在 screen 上佔據一個 point。即使screen 尺寸只有 84x84,可選動作也約有 1 億個。

本次發布意味著,研究者現在可以使用暴雪自己的工具來構建自己的任務和模型,來應對上述挑戰了。

這次發布中的 PySC2 環境提供了靈活易用的強化學習智能體界面。在這一初始發布中,DeepMind 將遊戲分解成了「feature layer」,其中諸如單位類型、血量、地圖可見度這樣的元素彼此是孤立的,同時也保留了遊戲的核心視覺和空間元素。

AI 在迷你遊戲和完整遊戲中表現差異巨大

本次發布還包括了一系列迷你遊戲(mini-games),這是一種將遊戲分解成更可控的部分的技術,可以用於測試智能體在特定任務中的表現,例如移動視角(camera)、採礦或是選擇操作單位。DeepMind 在博客中表示,希望研究者能夠在這些迷你遊戲上測試其技術,同時也為其他研究者提供新的迷你遊戲,用以競賽和評估。

DeepMind 在博客中說,初始研究顯示其智能體在迷你遊戲上表現良好,但在完整遊戲中,即使強大的baseline 智能體,比如 A3C,也無法打敗最簡單的遊戲 AI。下面的視頻展示了一個早期訓練智能體(左),無法讓其農民採礦,而這對於人類來說完全不成問題。訓練之後(右),智能體採取的動作更為合理了,但還需要在深度強化學習和相關領域取得更多的突破,才能讓其真正應對競賽要求。

DeepMind 最後在博客中表示,使得他們的智能體學習更強大策略的一個技術是模仿學習(Imitation Learning)。暴雪將持續放出成千上萬收集自星際爭霸 2 ladder 的匿名遊戲回放,多虧這一點,這種訓練方法變得容易很多。這將不僅使研究者可以訓練有監督智能體進行遊戲,而且也將打開其他有趣的研究領域,例如序列預測和 long-term memory。DeepMind 希望此次新工具的發布將進一步推動 AI 社區已經在星際爭霸 1 中所做的工作,鼓勵更多的深度強化學習研究,使研究者更輕鬆地聚焦領域前沿研究。

DeepMind 論文:星際爭霸 2,強化學習的新挑戰

本文介紹了SC2LE(StarCraft II Learning Environment),這是基於「星際爭霸2」遊戲的強化學習環境。這個領域為強化學習提出了一個新的大挑戰,提出了以前大多數工作未考慮到的更具挑戰性的課題。

這是一個多智能體問題,並伴有多個玩家的互動。由於智能觀察地圖中的一部分,所以存在著不完全的信息;它具有涉及數百個單位的選擇和控制的巨大的動作空間;它的狀態空間巨大,只能從原始輸入特徵面觀察;它需要超過數千步的長期戰略,延遲了credit 分配。

我們描述了星際爭霸2 的觀察、動作和獎勵參數,並提供了一個開源的基於Python 的界面,用於與遊戲引擎進行溝通。除了遊戲的主地圖,我們提供了一系列迷你遊戲,聚焦於星際爭霸2 的不同元素。對於遊戲的主地圖,我們還提供了一個來自人類職業玩家(匿名)的遊戲回放數據的附帶數據集。

我們給出了從該數據訓練的預測遊戲結果和玩家行為的神經網路的初始基線結果。最後,我們給出了一些權威的深度強化學習智能體應用於星際爭霸 2 的初步基線結果。在迷你遊戲中,這些智能體學習達到了與新手玩家相當的遊戲水平。但是,在主遊戲訓練中,這些智能體無法取得重大進展。SC2LE為探索深度強化學習演算法和架構提供了一個新的、具有挑戰性的環境。

上圖:星際爭霸 2 學習環境 SC2LE,圖中展示的是嵌入到一個神經網路智能體中的組件。

PySC2 視角。在圖的左邊展示了人類可理解的角度,右邊彩色的版本則是 feature layer 。比如,例如,地形高度,霧戰,爬行,攝像機位置和玩家身份,都顯示在功能圖層的頂層中。

視頻地址

上圖是人類在星際爭霸 2 上的玩法與 PySC2 顯示的玩法的比較。我們將行動空間設計得儘可能貼近人類行為。第一行顯示遊戲畫面,第二行是人類動作,第三行是PySC2中採取的邏輯動作,第四行是由環境暴露的動作(以紅色表示,智能體在每個時間步驟中的選擇)。請注意,前兩列不具有「構建供應」操作的功能,在這些情況下智能體尚不能使用此功能,因為必須首先選擇 worker。

本論文考慮的基礎智能體的網路架構

此前,Facebook 剛剛公布了史上最大的《星際爭霸:母巢之戰》遊戲數據集

2017年8月7日,Facebook 的四名科學家 Zeming Lin, Jonas Gehring, Vasil Khalidov, Gabriel Synnaeve 公布了史上最大的《星際爭霸:母巢之戰》遊戲數據集:365GB,包含6萬遊戲記錄,15億幀,4.9億玩家操作。

Github鏈接

在提交的論文中《STARDATA: A StarCraft AI Research Dataset》中,研究者們介紹,他們發布的STARDATA是一個包含了65646條星際爭霸遊戲記錄的資料庫,包含了15.35億幀和4.96億玩家操作。

「我們提供完整的遊戲狀態數據以及可以在「星際爭霸」中查看的原始重播。遊戲狀態以每3幀為頻次進行記錄,確保它們適用於各種機器學習任務,如戰略分類,反向強化學習,模擬學習,前向建模,部分信息提取等。我們使用TorchCraft來提取和存儲數據,它可以將數據格式標準化,用於從重放中讀取和直接從遊戲中讀取。此外,數據可以在不同的操作系統和平台上使用。數據集只包含了有效的,非損壞的重放,其質量和多樣性通過一些啟髮式來確保。我們用各種統計數據來展示了其數據的多樣性,並提供從數據集中受益的任務的例子。」

未來機器人像人一樣坐在電腦前,操作滑鼠打星際

國內AI 資深專家袁泉此前曾深入研究過星際爭霸中的若干AI問題,和UCL共同發表了多智能體協作網路BiCNet,第一次展現了AI在星際微觀戰鬥中的五類智能協作方式。新智元對此做過專門報道。此次DeepMind 和暴雪最新發布的星際爭霸 2 AI開放研究平台的論文中,也多次引用了袁泉團隊的工作。因此,袁老師應新智元之邀做了特別點評。他指出了此事的兩點意義:

第一點:星際 2 的搜索和決策空間比 AlphaGo 圍棋大了多個「數量級」,DeepMind、Facebook 等越來越多的優秀團隊參與到這項研究中,很可能創造出更好的下一代AI的新技術。因為按之前玩圍棋的技術框架的話,蒙特卡羅樹搜索加深度強化學習,應該是不能完全解決星際中的問題,尤其是full game智能策略方面的難題。此次DeepMind和暴雪在AI開放平台、API標準化、性能架構上做了不少細緻卓越的工作,為今後的研究打下了好的基礎,希望國內有志於此方向的老師同學積極投入到此項研究工作中。

第二點: SC2LE 開放平台,相對於大家之前做的星際1的平台,最大的一個優勢是提供了很多端到端的內容操作的介面,發展出來可以通過介面像人一樣打星際,進行控制,這種介面是在之前的星際1平台上不提供的。基於這一點,未來有可能大家可以會看到機器人像人一樣坐在電腦前,操作滑鼠打星際和高手對決,對機器人等相關領域也是很好的促進!

人工智慧的下一個大考:星際爭霸

過去十年 AI 領域取得了巨大進展。藉助標籤數據監督,機器在一定程度上超過了人類的視覺認知和語音識別能力。同時,單個 AI 單元(又名智能體)在多項遊戲中擊敗了人類,包括 Atari 視頻遊戲、圍棋和德州撲克。

然而,真正的人類智慧包含社會和協作智能,這是實現通用人工智慧(AGI)宏偉目標的基礎。集體的努力可以解決個體無法解決的問題。即使像螞蟻這樣弱小的個體,當其形成社會組織時,也可以完成例如獵食、修建一個王國甚至發動一場戰爭這樣有高度挑戰性的任務。

有趣的是,在即將到來的演算法經濟時代,在一定程度上具有人工集體智能的 AI 智能體開始在多個領域出現。典型的例子包括股票市場上的交易機器人遊戲,廣告投標智能體通過在線廣告交易平台互相競爭,電子商務協同過濾推薦者通過人群的智慧預測用戶興趣等等。AGI 的下一個重大挑戰是回答大規模多個 AI 智能體如何從激勵和經濟約束共存的環境中吸取經驗,學習人類水平的合作或競爭。隨著深度加強學習(DRL)的蓬勃發展,研究人員開始藉助增強后的學習能力,著手解決多代理協作問題。

Fortune報道稱,DeepMind的目標是讓計算機擊敗最頂級的人類星際爭霸玩家。「這樣的勝利將是人工智慧的重大突破,但由於掌握遊戲所需的複雜性,這可能還需要很長的時間。雖然DeepMind已經成功地創建了在玩經典Atari遊戲時表現非常出色的AI軟體,但星際爭霸卻帶來了更加困難的挑戰。」

Fortune的報道還說,DeepMind CEO Demis Hassabis 2017年5月在烏鎮圍棋峰會上曾表示, 他的團隊認為,星際爭霸是推動人工智慧進步的一個大考驗。

原文地址



熱門推薦

本文由 yidianzixun 提供 原文連結

寵物協尋 相信 終究能找到回家的路
寫了7763篇文章,獲得2次喜歡
留言回覆
回覆
精彩推薦