Zi 字媒體

在DOTA2中獲勝的AI真的比AlphaGo厲害嗎？

2021/12/25

大數據文摘作品

編譯 | 姜范波 Aileen

這個周末的科技圈再次被「AI恐懼」刷屏，這次打敗人類的AI來自Elon Musk的OpenAI。昨天凌晨的DOTA2人機大戰中，頂級人類玩家Danylo "Dendi" Ishutin被AI完敗。

到底這次人機大戰意義何在？這次在一對一DOTA2中打敗Dendi到底比AlphaGo更難還是更容易？眾說紛紜中，我們認為前谷歌大腦和斯坦福研究員Denny Britz的這篇評論文章相對中肯和理性，也得到了不少學者的力挺："這個問題實際上比擊敗人類圍棋冠軍容易得多。我們並沒有在AI中突然進步。"

DOTA界的大神們在昨天受到了暴擊，在堪稱「DOTA圈世界盃「的T17邀請賽中，頂級人類選手被OpenAI訓練了兩周的AI打敗。各類如"攻陷DOTA2","完虐人類「的字眼紛紛出現，不免讓人想起之前AlphaGo大戰柯潔的盛況。

Elon Musk本人也在推特上強推了這次人機大戰，他認為DOTA2比圍棋複雜很多，所以這次獲勝的機器人也比AlphaGo要厲害。當然，馬斯克也沒忘記再次提起AI和所有事物一樣需要被監管。重提幾個星期前和眾多技術大佬吵得沸沸揚揚的舊梗，讓不少人懷疑這是為了媒體炒作吸引眼球。

前谷歌大腦和斯坦福研究員Denny Britz就這件事發表了自己的看法：

「這是一個令人讚歎的成就，但也不是媒體想讓你相信的AI大突破。」

「過度炒作AI進展真的是危險的，Elon Musk的推特會誤導大家。」

Denny Britz相對客觀的羅列了這件事的成就和浮誇之處，以下是全文的編譯：

當我看到今天OpenAI的DOTA2機器人在國際（The International）電競大賽上擊敗人類玩家的消息時，我興奮得跳起來。

該錦標賽的獎金池超過了二千四百萬美元，作為一名電競運動迷，我雖然從來沒有玩過DOTA 2，但是我經常在線上觀看其他電競比賽，高中時還是半專業選手。但更重要的是，像DOTA這樣的多人在線戰術競技遊戲（MOBA），以及「星際爭霸2」這樣的實時戰略（RTS）遊戲，被視為超越了當前人工智慧技術的能力。這些遊戲需要長期的戰略決策，多人合作，並且相比AI技術在過去幾十年中「解決」了的國際象棋，圍棋或撲克類遊戲，具有明顯更複雜的狀態和動作空間。 DeepMind已經在星際爭霸2上工作了一段時間，幾天前發布了他們的研究環境。到目前為止，研究人員還沒有取得重大突破。據認為，我們仍需要至少1 - 2年才能在星際爭霸2上打敗人類。

這就是為什麼OpenAI今天這條消息如此令人震驚。怎麼會這樣呢？難道我錯過了最近AI發展的重大突破？當我開始更多地了解DOTA 2機器人正在做什麼，它是如何訓練的，以及它的遊戲環境后，我得出的結論是，這是一個令人讚歎的成就，但也不是媒體想讓你相信的AI大突破。

本文的目的是：對於哪些才是真正的新東西，我願意提供一個理性清醒的解釋。過度炒作AI進展真的是危險的，比如Elon Musk昨天誤導人的推特（參見文章開頭的截屏）。

首先我要說明，炒作或不正確的假設並非OpenAI研究人員的錯誤， OpenAI傳統上一向對其研究貢獻的局限性非常直觀明了，我相信在他們今天也一如既往。 OpenAI還沒有公布他們方案的技術細節，所以對於外行而言，很容易就得出錯誤的結論。

我們先來看看DOTA 2機器人解決的問題實際上有多困難。跟AlphaGo相比怎麼樣？

1對1與5對5是沒有可比性的。在DOTA 2的一個基本遊戲中，一隊5名選手對陣另外5人。這些遊戲需要高級戰略制定，團隊溝通和合作，通常需要45分鐘左右的時間。而1對1的遊戲受到更多限制，兩名選手基本上沿著單線行駛，並試圖殺死對方，通常在數分鐘內結束。在1對1中擊敗對手需要機械技能和短期戰術，但沒有任何對當前的AI技術來說具有挑戰性的需求，如長期規劃或團隊協調。事實上，你需要採取的有效操作數量少於圍棋遊戲。有效的狀態空間（玩家對遊戲中當前局面的掌控），如果以比較聰明的方式表示，應該比圍棋還要小。
機器人可以訪問更多信息：OpenAI機器人（很可能）構建在遊戲機器人API之上，可以訪問人類無法訪問的各種信息。即使OpenAI研究人員限制其訪問某些類型的信息，機器人仍然可以訪問比人類更準確的信息。例如，某項技能只能在一定範圍內擊中對手，而人類玩家必須觀看屏幕並且估計當前與對手的距離，這需要練習。機器人知道確切的距離，並可立即決定是否使用技能。獲得各種精確的數字信息是一個很大的優勢。事實上，在遊戲過程中，可以看到機器人數次在最大距離上使用技能。
反應時間：機器人可以立即反應，人類卻不能。再加上上述的信息優勢，這是另一大優勢。例如，一旦對手超出特定技能範圍，機器人可以立即取消某項技能的使用。
學習使用一個特定的角色：遊戲中有100個不同的角色，具有不同的天賦能力和優勢。機器人學習玩的唯一的角色是Shadow Fiend，通常會立即進行攻擊（而不是在一段時間內持續的更複雜的技能），作為機器人，得益於信息優勢和快速的反應時間。

鑒於1對1主要是機械技能的遊戲，AI擊敗人類玩家並不奇怪。對OpenAI而言，由於環境受到嚴格限制，（很大可能）可用的操作也受到限制，而且很少或者完全沒有進行長期規劃或協調的需要，我得出的結論是，這個問題實際上比擊敗人類圍棋冠軍容易得多。我們並沒有在AI中突然進步。它的成功，是因為我們的研究人員用正確的方式，聰明地設置了需解決的問題，把當前技術用到極致。據說機器人的訓練時間大概是2周左右，也說明真相確實如此。 AlphaGo需要在Google的GPU集群上進行數月高強度的大規模培訓。從那以後我們取得了一些研究進展，但並沒有將計算要求降低一個數量級。

現在，批評夠多啦。新聞炒作可能有點過度，但不妨礙這次人機大戰的勝利依然很酷的事實。顯然，大量具有挑戰性的工程和合作建設才實現這一切。下面這次DOTA機器人很厲害的地方：

完全通過自我訓練：這個機器人不需要任何訓練數據，它也不會從人類的演示中學習。它完全隨機開始，並且不斷地跟自己對練。雖然這種技術並不是什麼新鮮事物，但令人驚訝的是（至少對我來說），機器人自己就學習到了人們使用的技術，如Reddit和Ycombinator上評論中所提出的。我不太了解DOTA 2，所以無法判斷這一點，但是我覺得非常酷。機器人可能還有其他人類不知道的技術。這與我們在AlphaGo中看到的類似，人類玩家開始從其非常規的動作中學習，並調整了自己的遊戲方式。（有興趣的讀者可以閱讀這兩個論壇的討論： https://news.ycombinator.com/item?id=14996448和）

AI +電競需要邁出的一大步：在具有挑戰性的環境（如DOTA 2和Starcraft 2）上來測試新的AI技術非常重要。如果我們可以說服電子競技社區和遊戲發行商，我們可以通過將AI技術應用於遊戲來提供價值，我們可以期待得到大力支持，這會加速AI進展。

部分可觀察的環境：雖然OpenAI研究人員如何用API處理這個問題的細節尚不清楚，但是人類玩家只會看到屏幕上的內容，並且可能在視角上會有一些限制，比如上坡下坡的樹林陰影。這意味著，與圍棋或象棋或Atari（更像撲克）這樣的遊戲不同，我們處於部分可觀察的環境中——我們無法訪問有關當前遊戲狀態的完整信息。這些問題通常難以解決，是急需更多進展的研究領域。話雖如此，目前還不清楚1v1 DOTA2比賽的部分可觀察性是多麼重要——這裡也沒有太多可以策劃的。

桃園 qq 地點貓咪桃園市 taoyuan xuan 根部尾巴有大桃園旅遊景點