Zi 字媒體

擊敗DotA2人類玩家的AI 是比AlphaGo 更大的突破嗎？答案是：NO

2021/12/25

yidianzixun

文 | Denny Britz（前谷歌大腦團隊成員）

編譯 | 量子位

當我昨天看到OpenAI的人工智慧，在一項獎金2400萬美元的電子競技賽事上，擊敗DotA2人類頂級高手時，整個人感覺超興奮。

這是因為，一方面我是一個電子競技的冬粉。儘管沒玩過DotA 2，但我經常在Twitch上觀看其他其他電競賽事，高中時我還當過一陣半職業選手。

更重要是的，像DotA這類多人在線戰術競技遊戲（MOBA），以及星際2這類實時策略遊戲（RTS），通常被認為遠超目前人工智慧的駕馭能力。因為這兩類遊戲需要長期戰略決策、多人合作，比國際象棋、圍棋有著更複雜的狀態和動作空間。

DeepMind已經在星際2上研究了一段時間，前不久剛剛發布了新的進展，但目前為止，相關研究還沒有取得重大突破。大家普遍認為，距離人工智慧在星際2上吊打人類頂級玩家，至少還有一兩年的時間。

工作人員手裡舉著一個U盤，裝在裡面的就是擊敗了人類DotA2頂級玩家的人工智慧程序

這就是OpenAI這個成果如此令人震驚的原因。這是怎麼回事？最有有什麼人工智慧方面的突破是我沒有注意到的么？於是我開始研究這個DotA 2人工智慧到底幹了什麼，它是如何訓練的，以及在什麼樣的遊戲環境中運行。

我的結論是：這是一個令人印象深刻的成就。但不是一次AI上的突破。

通過這篇文章，我想提供一個關於此事的清醒解釋。實際上，過度炒作人工智慧的進步才是真正危險的事情。例如，下面這位在推特上的發言，才是真正的誤導。

這是伊隆·馬斯克的推特，這位矽谷鋼鐵俠不單創辦了特斯拉，而且創辦了OpenAI。上面這篇推特中，馬斯克大意是說：OpenAI搞出了史上首個擊敗電子競技頂級玩家的人工智慧。這比搞國際象棋和圍棋什麼的複雜多了。

在第二條推特中，馬斯克再次發表曾被AI屆猛轟的觀點：沒人喜歡被管制，但對公眾構成危險的一切（汽車、飛機、食品、藥物等）都應該受到管制。AI也是一樣。

首先要聲明的是，我今天要談及的炒作或者誤導，並不是OpenAI研究人員的錯誤。OpenAI一直在研究方面都有諸多貢獻。目前，OpenAI還沒有公布他們解決方案的細節，所以外界很容易就會得出錯誤的結論。

現在開始切入正題。我們先來看看DotA 2的人工智慧程序，到底解決了一個多困難的問題？尤其是與AlphaGo相比。

●1v1不能與5v5相提並論

在正常的DotA 2遊戲中，兩個對抗的隊伍各由五名玩家組成。遊戲過程中需要高級策略、團隊溝通和協調，一局比賽通常要45分鐘。

而這次人工智慧擊敗人類的比賽，採用了1v1的模式，這種模式有太多限制。例如雙方基本上只能沿著單線前進，並嘗試擊殺對方，遊戲過程幾分鐘就結束了。

在1v1模式中，擊敗對手主要靠機械技能和短期策略，並不涉及長期規劃和協調，而後者才是對當前AI技術來說最具挑戰性的部分。

事實上，在這次的人機DotA 2對抗中，可以採用的有效動作數量，少於圍棋人機大戰；有效的狀態空間（目前局面情況），如果以智能的方式表示，應該比圍棋要小。

●AI可以獲取更多信息

OpenAI的人工智慧程序，極有可能是構建在DotA 2原有的機器人介面之上，可以獲取更多人類玩家看不到的信息。即使OpenAI的研究人員限制了這些信息的獲取，人工智慧仍然能夠得到比人類更精準的信息。

例如技能的施放，人類玩家必須緊盯屏幕，並且估算與對手之間的距離。而AI知道確切的距離，並且能立即決定是否施放技能。獲得精準的數字信息是一個很大的優勢。其實對戰過程中你就能看到，AI有幾次攻擊都是在最大距離上展開。

DotA 2人機大戰全程回放

●反應時間

AI可以立即作出反應，人類不行。再加上剛才說的信息優勢，AI的優勢進一步擴大了。比方，一旦對手逃離攻擊範圍，AI可以立刻取消攻擊命令。

●使用單一英雄

DotA 2中有上百種不同的英雄角色，各具不同的能力和優勢。而AI掌握的只是其中一個英雄：Shadow Fiend（影魔）。影魔通常會立刻展開攻擊，而不是在一段時間內學習掌握更複雜的攻擊技能，這更加有利於發揮AI在信息和反應方面的優勢。

所以，鑒於1v1主要比拼機械技能，AI擊敗人類玩家並不奇怪。鑒於遊戲環境被嚴格限制，造成一些列戰術和策略也被限制，而且對戰中幾乎沒有必要進行長期規劃或協調。

●再次重申我的結論：這次AI擊敗DotA玩家，比在圍棋中擊敗人類冠軍要容易得多。人類沒有在AI領域突然取得突破。

這次在DotA對抗中之所以AI獲勝，是因為研究人員聰明的設置了問題，使得AI可以繞過目前人工智慧的技術限制。

據說這個OpenAI訓練這個AI打DotA花了2周。與之相比，AlphaGo在Google的GPU集群上進行了數月的分散式大規模訓練。兩個程序之間的計算要求有著數量級的區別。

好吧，最後誇誇這個會玩DotA的AI，到底有何精彩之處？

●完全通過自學訓練

AI不需要任何訓練數據，也不會從人類的比賽中學習。整個學習過程隨機開始，並且通過和自己對抗進行學習。雖然這不是什麼新技術，但令人驚訝的是，AI學會了人類玩家已經在使用的技術。這很酷。

AI可能還有其他技術，甚至人類都不知道。這與我們在AlphaGo中看到的類似，圍棋選手已經開始學習AI的下棋方式。

●AI+電競的重要一步

在具有挑戰性的環境中（例如DotA 2和星際2）來測試AI技術是非常重要的。AI可以為遊戲提供更多的價值，遊戲也會助推AI更快發展。

●不完美信息

在DotA對決中，人類玩家智能看到地圖的一小部分，視線受到妨礙。AI可能也一樣，雖然還不清楚OpenAI如何處理這個問題的細節。

這意味著與圍棋、國際象棋、Atari遊戲機等環境不同，AI在DotA中處於一個部分可觀察的環境，而無法獲知關於遊戲當前狀態的完整信息。這類問題通常難以解決，話雖如此，但目前還不清楚1v1的DotA 2比賽中，視野的重要性到底幾何。

不管怎樣，我非常期待看到OpenAI關於這次比賽的技術報告。

黑智專訪

馭勢科技吳甘沙搜狗王小川

雲知聲黃偉格靈深瞳趙勇

小魚在家宋晨楓奇點機智林德康

Rokid Misa 瑞為智能詹東暉

極限元智能科技雷臻乂學教育栗浩洋

暴風科技馮鑫銷售易史彥澤

普強信息何國濤真機智能劉智勇

納人姜海峰眾趣科技高翔

拍拍賺科技湯勁武圖森未來陳默

智齒客服徐懿深之藍魏建倉

擴博智能嚴治慶視見醫療王峰

Roboteam Yossi Wolf 甘來曹文斌

投資人說

雲啟資本黃榆鑌松禾遠望資本程浩

英諾天使基金李竹線性資本王淮

九合創投王嘯紀源資本肖鴻達

本話題在雪球有0條討論，點擊查看。

雪球是一個投資者的社交網路，聰明的投資者都在這裡。

點擊下載雪球手機客戶端

桃園 qq 地點貓咪桃園市 taoyuan xuan 根部尾巴有大桃園旅遊景點