Zi 字媒體

為何Deepmind、Facebook都愛上了《星際爭霸》？

2021/12/25

yidianzixun

上周AI圈有很多大事，但只有一件事同時引起了兩家AI巨頭的興趣，那就是《星際爭霸》。

8月7日，Facebook的AI團隊發布了史上最大的《星際爭霸：母巢之戰》遊戲數據集。緊接著8月10日，Deepmind就和暴雪聯合發布了《星際爭霸2》的遊戲數據集與AI訓練平台SC2LE。

為什麼Deepmind、Facebook、阿里等AI巨頭先後迷上了對《星際爭霸》的研究？為什麼他們做的不是製造一個人工智慧去打敗人類選手，而是不約而同走上了開源數據、發布研究工具的這條路？

此外，相信關注AI的各位都注意到了，眾多媒體和專家們都認為《星際爭霸》的研究可以引導AI走向通用智能之路。但大部分解釋都知其然不知其所以然，到底《星際爭霸》跟通用智能之間是怎樣的邏輯關係？

本文嘗試回答以上這些問題——到底《星際爭霸》是如何讓AI巨頭們集體為之著迷的？

在開始詳細分析之前，我們必須要重申這樣一個常識：頂級AI專家們並不是遊戲宅（至少工作時不是），AI會打遊戲這事本身對他們來說並沒有任何價值。就像AI在圍棋上的建樹也絕不是為了顯擺AI好厲害，或者意圖羞辱亞洲國家傳統文化（沒錯，微博上有人就是這麼認為的）。

AlphaGo之所以選擇圍棋，是因為這項智力運動具有無法被暴力窮舉的特質，可以檢驗AI的非運算能力。比如我們看到最終版的AlphaGo已經展現出了布局能力、對抽象形勢的判斷力，甚至具體行為中的創造力——這都是傳統計算機絕不會具備的能力。

對於AI研究者來說，遊戲只是方法，絕非目標。AI公司的目標只有兩個：一是做出更好的AI，二是用它賣錢。但遊戲在訓練AI上有天然的實驗室屬性：用數據支撐、成敗標準清晰、大量的人類訓練數據可用。

有了這點共識，我們就可以開始破解AI巨頭對《星際爭霸》的圖謀。但第一步我們要先明白AI公司對《星際爭霸》究竟做了什麼，做這些事的目的又何在？

Deepmind和Facebook都對《星際爭霸》做了什麼？

首先我們來分別看一下Facebook和Deepmind這次很有「打擂台」意味的動作中，到底都發布了什麼。

按時間順序，首先是Facebook。簡單來說，Facebook這次發布的是達到365GB，包含6萬多條內容的《母巢之戰》遊戲數據集。當然這些數據不是給人看的，而是專門為了機器學習任務訓練使用的數據。

尤其值得注意的是，Facebook在發布的論文中特意強調了這些數據的通用性。它們可以適配不同的演算法、不同的平台，可以說是提供了相對標準化的機器學習訓練數據。

而到了Deepmind這裡，事情就有一點複雜了。他們的對象不是《母巢之戰》，而是更加高級的《星際爭霸2》。Deepmind這次發布的是被稱為SC2LE（星際爭霸2學習環境）的整合式AI訓練工具包。

在這個大禮包里包含四樣東西，還有一篇專門討論《星際爭霸2》機器學習環境的論文。

首先，Deepmind也給出了遊戲數據集，包含6萬5千場暴雪官方回收的匿名遊戲數據。未來還會持續增加。

其次，發布了由暴雪研發的《星際爭霸2》機器學習編程入口，方便研究人員和開發者將自己的智能體接入遊戲進行研究。

此外，Deepmind還開源了自己研發的PySC2工具包，讓研究者更方便地訓練自己的智能體。

最後，大禮包里還包括一系列從《星際爭霸2》里抽象出來的增強學習迷你遊戲。這些迷你遊戲可以讓研究者更方便的測試特定場景下的智能體效果。

這樣看來，Deepmind和暴雪的科學家更加貼心一些，不僅送上了主食，還附帶了各種餐具和甜點，還有食品說明書。

但無論Deepmind還是Facebook，目標都只有一個：提供儘可能方便舒適的研究環境，吸引更多研發者加入《星際爭霸》的前沿AI訓練中來。

這樣做的基本動機，在於《星際爭霸》這類遊戲的動作和情景近乎是無窮的，一家公司的人力無從進行面面俱到的深入開發與實驗。所以開源和共享數據，幫助更多研究者跳過基礎步驟直接研究前沿的、具體的動作演算法和多任務協調方案，才是AI公司目前真正的重心。

這種動作思路來源於即時戰略遊戲的特殊性。這裡我們就可以開始解答另一個問題了：為什麼一定是《星際爭霸》？

為什麼一定是《星際爭霸》？

訓練深度學習等AI系統，被使用最多的有三種遊戲：迷你遊戲、沙盒遊戲和即時戰略遊戲。但這三種當中，迷你遊戲和沙盒遊戲AI扮演的都是單一智能體。只有即時戰略遊戲提供了獨一無二的訓練特徵：複雜與協作。

剛剛OpenAI的AI打敗了DOTA2頂級選手，馬斯克激動地連發推特慶祝（順便沒忘了提AI威脅論），但很多其他AI巨頭的科學家卻相當不屑，這是為什麼？

原因在於1V1模式的DOTA2里AI僅適用一個智能體，目標比較單一，1對1遭遇戰也談不上不完全信息博弈。拼手速和反應人類是肯定比不上AI的，OpenAI的這款AI價值更多在於用系統自主學習電競的規則。

而大型即時戰略遊戲則有著完全不同的環境：

1、複雜多變的環境，考驗智能體對大量環境信息空間、時間和數據變化的理解能力。

2、眾多獨立單位的配合。人類選手稱之為「微操」的技術，就是考驗混戰下對多個單位、建築、編隊的協同運作能力，這對AI是核心考驗。

3、不完全信息博弈。這類遊戲開局時由戰爭迷霧，無法觀察對手動向。需要智能體進行布局和長遠判斷。

這些特徵讓即時戰略遊戲成為已知AI實驗環境中最複雜的其中之一，要知道AI的目標不是可以贏，而是一定贏。

至於為什麼一定是《星際爭霸》，或許也可以歸納出幾個原因：

首先，暴雪有開源打造AI的意願，《星際爭霸》本身的素材和介面也都非常流暢。整個遊戲數據化的成本很低。

其次，相比於拼效果和畫面的即時戰略遊戲，《星際爭霸》的競技屬性更強。其動作眾多、元素複雜，像圍棋一樣具有難以被暴力計算拆解的基本特質。

同時，因為競技屬性強烈、競技歷史悠久，《星際爭霸》的戰術、戰略討論非常豐富，每一個子動作的價值基本都有判斷依據，這是機器學習系統的先決條件之一。

這三點之外，其實還有個最重要的原因：《星際爭霸》是對戰量最大的即時戰略遊戲，同時戰網等平台建設非常完整——換言之，就是留給AI的訓練數據夠多。

AI巨頭的真實目的

寧願採取開源眾包的模式，也要攻克《星際爭霸》這種超複雜的訓練環境，AI巨頭們難道是吃飽撐的嗎？他們到底想要從中獲得什麼呢？

按照Deepmind把《星際爭霸2》拆解成系列小遊戲的原理逆推。我們可以知道AI公司希望的是破解一個又一個細節動作后，把這些集合在一起組成大的智能體集合。而這個集合將彙集的不僅僅是無數解決方案，更是這些方案背後普遍蘊藏的通用能力。

如果與圍棋進行參照，我們可以從《星際爭霸》作為訓練環境中推測出至少四種圍棋無法給予的能力：

1、機器記憶力。區別於棋類遊戲，即時戰略遊戲中過去的信息可能被完全抹殺，比如剛才造的兵都死了……但這些信息卻將左右接下來的故事。這就需要AI具有記憶力，和對記憶進行運用，給出反制措施。根據記憶的快速調整，將是一種全新且商業價值極強的AI能力。

2、弱信息環境下的長期規劃能力：就像上文所說，《星際爭霸》這種遊戲開局是完全信息封閉的。開局時做的事可能跟戰爭的結果完全無關，但卻具有貨真價實的因果關係。這類人類獨有的長期規劃和調整規劃能力，對應的是機器的預測和判斷能力。

3、多智能體協作能力。通過與人類近似的鍵盤滑鼠，一個智能體如何在終端指揮大量智能體協作，絕對是個迷人的話題。甚至戰略性犧牲、設置誘餌和集中火力，對照的可能是未來AI在現實社會中的中樞作用。

4、動作連貫性：打遊戲的都知道，取勝的關鍵是打出「節奏」。所謂節奏，來自玩家每一個指令之間如何銜接，是否具備連貫性。對於AI來說也是如此，一個細節上超越人類智慧並不難，但如何把每一個動作銜接起來，整體取得價值最大化，就是AI向前發展的關鍵了。

這四個方向，最精彩的部分在於都對應著現實中人的能力——不僅是人類認知和解釋世界的智能，更是記憶、協作、堅持這種人類反作用於物理世界的「動能」。

至此，或許我們就可以理解為什麼《星際爭霸》被稱為通用智能的關鍵了。因為它預示著AI將在更加混亂和真實的環境里，學得更加類似人類心智的可能性。

它不僅是實驗環境向真實環境的過渡，長遠來看，這類遊戲被AI完全攻克，甚至可能成為智能體向類人智能體過渡的關鍵。

即使不說那麼宏大的命題，類似智能體也可能成為AI代替股票分析員、代替廣告策劃、代替律師，這類巨大商業變革的基石——至少這類智能遊戲，恐怕不比與頂級玩家打《星際爭霸》困難。

AI公司對《星際爭霸》的愛戀，至此就很可以被理解了。

桃園 qq 地點貓咪桃園市 taoyuan xuan 根部尾巴有大桃園旅遊景點