search
為何Deepmind、Facebook都愛上了《星際爭霸》?

為何Deepmind、Facebook都愛上了《星際爭霸》?

上周AI圈有很多大事,但只有一件事同時引起了兩家AI巨頭的興趣,那就是《星際爭霸》。

8月7日,Facebook的AI團隊發布了史上最大的《星際爭霸:母巢之戰》遊戲數據集。緊接著8月10日,Deepmind就和暴雪聯合發布了《星際爭霸2》的遊戲數據集與AI訓練平台SC2LE。

為什麼Deepmind、Facebook、阿里等AI巨頭先後迷上了對《星際爭霸》的研究?為什麼他們做的不是製造一個人工智慧去打敗人類選手,而是不約而同走上了開源數據、發布研究工具的這條路?

此外,相信關注AI的各位都注意到了,眾多媒體和專家們都認為《星際爭霸》的研究可以引導AI走向通用智能之路。但大部分解釋都知其然不知其所以然,到底《星際爭霸》跟通用智能之間是怎樣的邏輯關係?

本文嘗試回答以上這些問題——到底《星際爭霸》是如何讓AI巨頭們集體為之著迷的?

在開始詳細分析之前,我們必須要重申這樣一個常識:頂級AI專家們並不是遊戲宅(至少工作時不是),AI會打遊戲這事本身對他們來說並沒有任何價值。就像AI在圍棋上的建樹也絕不是為了顯擺AI好厲害,或者意圖羞辱亞洲國家傳統文化(沒錯,微博上有人就是這麼認為的)。

AlphaGo之所以選擇圍棋,是因為這項智力運動具有無法被暴力窮舉的特質,可以檢驗AI的非運算能力。比如我們看到最終版的AlphaGo已經展現出了布局能力、對抽象形勢的判斷力,甚至具體行為中的創造力——這都是傳統計算機絕不會具備的能力。

對於AI研究者來說,遊戲只是方法,絕非目標。AI公司的目標只有兩個:一是做出更好的AI,二是用它賣錢。但遊戲在訓練AI上有天然的實驗室屬性:用數據支撐、成敗標準清晰、大量的人類訓練數據可用。

有了這點共識,我們就可以開始破解AI巨頭對《星際爭霸》的圖謀。但第一步我們要先明白AI公司對《星際爭霸》究竟做了什麼,做這些事的目的又何在?

Deepmind和Facebook都對《星際爭霸》做了什麼?

首先我們來分別看一下Facebook和Deepmind這次很有「打擂台」意味的動作中,到底都發布了什麼。

按時間順序,首先是Facebook。簡單來說,Facebook這次發布的是達到365GB,包含6萬多條內容的《母巢之戰》遊戲數據集。當然這些數據不是給人看的,而是專門為了機器學習任務訓練使用的數據。

尤其值得注意的是,Facebook在發布的論文中特意強調了這些數據的通用性。它們可以適配不同的演算法、不同的平台,可以說是提供了相對標準化的機器學習訓練數據。

而到了Deepmind這裡,事情就有一點複雜了。他們的對象不是《母巢之戰》,而是更加高級的《星際爭霸2》。Deepmind這次發布的是被稱為SC2LE(星際爭霸2學習環境)的整合式AI訓練工具包。

在這個大禮包里包含四樣東西,還有一篇專門討論《星際爭霸2》機器學習環境的論文。

首先,Deepmind也給出了遊戲數據集,包含6萬5千場暴雪官方回收的匿名遊戲數據。未來還會持續增加。

其次,發布了由暴雪研發的《星際爭霸2》機器學習編程入口,方便研究人員和開發者將自己的智能體接入遊戲進行研究。

此外,Deepmind還開源了自己研發的PySC2工具包,讓研究者更方便地訓練自己的智能體。

最後,大禮包里還包括一系列從《星際爭霸2》里抽象出來的增強學習迷你遊戲。這些迷你遊戲可以讓研究者更方便的測試特定場景下的智能體效果。

這樣看來,Deepmind和暴雪的科學家更加貼心一些,不僅送上了主食,還附帶了各種餐具和甜點,還有食品說明書。

但無論Deepmind還是Facebook,目標都只有一個:提供儘可能方便舒適的研究環境,吸引更多研發者加入《星際爭霸》的前沿AI訓練中來。

這樣做的基本動機,在於《星際爭霸》這類遊戲的動作和情景近乎是無窮的,一家公司的人力無從進行面面俱到的深入開發與實驗。所以開源和共享數據,幫助更多研究者跳過基礎步驟直接研究前沿的、具體的動作演算法和多任務協調方案,才是AI公司目前真正的重心。

這種動作思路來源於即時戰略遊戲的特殊性。這裡我們就可以開始解答另一個問題了:為什麼一定是《星際爭霸》?

為什麼一定是《星際爭霸》?

訓練深度學習等AI系統,被使用最多的有三種遊戲:迷你遊戲、沙盒遊戲和即時戰略遊戲。但這三種當中,迷你遊戲和沙盒遊戲AI扮演的都是單一智能體。只有即時戰略遊戲提供了獨一無二的訓練特徵:複雜與協作。

剛剛OpenAI的AI打敗了DOTA2頂級選手,馬斯克激動地連發推特慶祝(順便沒忘了提AI威脅論),但很多其他AI巨頭的科學家卻相當不屑,這是為什麼?

原因在於1V1模式的DOTA2里AI僅適用一個智能體,目標比較單一,1對1遭遇戰也談不上不完全信息博弈。拼手速和反應人類是肯定比不上AI的,OpenAI的這款AI價值更多在於用系統自主學習電競的規則。

而大型即時戰略遊戲則有著完全不同的環境:

1、複雜多變的環境,考驗智能體對大量環境信息空間、時間和數據變化的理解能力。

2、眾多獨立單位的配合。人類選手稱之為「微操」的技術,就是考驗混戰下對多個單位、建築、編隊的協同運作能力,這對AI是核心考驗。

3、不完全信息博弈。這類遊戲開局時由戰爭迷霧,無法觀察對手動向。需要智能體進行布局和長遠判斷。

這些特徵讓即時戰略遊戲成為已知AI實驗環境中最複雜的其中之一,要知道AI的目標不是可以贏,而是一定贏。

至於為什麼一定是《星際爭霸》,或許也可以歸納出幾個原因:

首先,暴雪有開源打造AI的意願,《星際爭霸》本身的素材和介面也都非常流暢。整個遊戲數據化的成本很低。

其次,相比於拼效果和畫面的即時戰略遊戲,《星際爭霸》的競技屬性更強。其動作眾多、元素複雜,像圍棋一樣具有難以被暴力計算拆解的基本特質。

同時,因為競技屬性強烈、競技歷史悠久,《星際爭霸》的戰術、戰略討論非常豐富,每一個子動作的價值基本都有判斷依據,這是機器學習系統的先決條件之一。

這三點之外,其實還有個最重要的原因:《星際爭霸》是對戰量最大的即時戰略遊戲,同時戰網等平台建設非常完整——換言之,就是留給AI的訓練數據夠多。

AI巨頭的真實目的

寧願採取開源眾包的模式,也要攻克《星際爭霸》這種超複雜的訓練環境,AI巨頭們難道是吃飽撐的嗎?他們到底想要從中獲得什麼呢?

按照Deepmind把《星際爭霸2》拆解成系列小遊戲的原理逆推。我們可以知道AI公司希望的是破解一個又一個細節動作后,把這些集合在一起組成大的智能體集合。而這個集合將彙集的不僅僅是無數解決方案,更是這些方案背後普遍蘊藏的通用能力。

如果與圍棋進行參照,我們可以從《星際爭霸》作為訓練環境中推測出至少四種圍棋無法給予的能力:

1、機器記憶力。區別於棋類遊戲,即時戰略遊戲中過去的信息可能被完全抹殺,比如剛才造的兵都死了……但這些信息卻將左右接下來的故事。這就需要AI具有記憶力,和對記憶進行運用,給出反制措施。根據記憶的快速調整,將是一種全新且商業價值極強的AI能力。

2、弱信息環境下的長期規劃能力:就像上文所說,《星際爭霸》這種遊戲開局是完全信息封閉的。開局時做的事可能跟戰爭的結果完全無關,但卻具有貨真價實的因果關係。這類人類獨有的長期規劃和調整規劃能力,對應的是機器的預測和判斷能力。

3、多智能體協作能力。通過與人類近似的鍵盤滑鼠,一個智能體如何在終端指揮大量智能體協作,絕對是個迷人的話題。甚至戰略性犧牲、設置誘餌和集中火力,對照的可能是未來AI在現實社會中的中樞作用。

4、動作連貫性:打遊戲的都知道,取勝的關鍵是打出「節奏」。所謂節奏,來自玩家每一個指令之間如何銜接,是否具備連貫性。對於AI來說也是如此,一個細節上超越人類智慧並不難,但如何把每一個動作銜接起來,整體取得價值最大化,就是AI向前發展的關鍵了。

這四個方向,最精彩的部分在於都對應著現實中人的能力——不僅是人類認知和解釋世界的智能,更是記憶、協作、堅持這種人類反作用於物理世界的「動能」。

至此,或許我們就可以理解為什麼《星際爭霸》被稱為通用智能的關鍵了。因為它預示著AI將在更加混亂和真實的環境里,學得更加類似人類心智的可能性。

它不僅是實驗環境向真實環境的過渡,長遠來看,這類遊戲被AI完全攻克,甚至可能成為智能體向類人智能體過渡的關鍵。

即使不說那麼宏大的命題,類似智能體也可能成為AI代替股票分析員、代替廣告策劃、代替律師,這類巨大商業變革的基石——至少這類智能遊戲,恐怕不比與頂級玩家打《星際爭霸》困難。

AI公司對《星際爭霸》的愛戀,至此就很可以被理解了。

熱門推薦

本文由 一點資訊 提供 原文連結

一點資訊
寫了5860316篇文章,獲得23295次喜歡
留言回覆
回覆
精彩推薦