Zi 字媒體

揭秘新版AlphaGo，為什麼它能戰勝柯潔？

2021/12/25

yidianzixun

知道Google會分享，就是不知道會這麼快。

雖然只有1/4子，但昨天AlphaGo在對戰柯潔時那種遊刃有餘，穩紮穩打的作風已然顯示出其強大的實力。

DeepMind創始人兼CEO Demis Hassabis（左）和首席科學家David Silver（右）

今天上午，此次圍棋峰會的另外一個重頭戲——烏鎮·人工智慧高峰論壇正式開始。雷鋒網也第一時間來到了現場，首先上台演講的不是別人，正是打造圍棋人工智慧AlphaGo的兩位關鍵人物：DeepMind創始人兼CEO Demis Hassabis，以及DeepMind首席科學家David Silver。

在各自短暫的演講中，Hassabis和Silver分別對AlphaGo能取得當下成績的原因進行了整體說明，同時還收集了一大批圍棋界人士的評論。但最令人意料之外的還要屬最新版AlphaGo的信息披露。

AlphaGo Master：世界上實力最強高的電腦圍棋玩家

之前坊間也一直在猜測，究竟今年年初以Master出現在野狐平台橫掃60名職業棋手的AlphaGo是什麼版本。

在David Silver展示的PPT中明確提到了三種AlphaGo的稱呼：AlphaGo Fan（與樊麾對弈的版本）、AlphaGo Lee（與李世乭對弈的版本）、AlphaGo Master（驅動Master的版本）。相比之前坊間風傳的V18/V20等版本稱號，這三個名字容易理解不少。

他們三者之間最主要的差別就是棋藝水平，Google現場也展示了三者的圍棋ELO等級分：

2015年10月登場的AlphaGo Fan等級分大約在2900分左右，2016年3月登場的AlphaGo Lee等級分大約在3700分左右（李世乭本人目前3530分），今年年初登場的AlphaGo Master等級分已經來到了4800分左右。

考慮到目前世界第一人柯潔的等級分不過3625，Google還給出了一個AlphaGo Lee與AlphaGo Master之間參考性的讓子數目——3子。

柯潔本人在現場目睹這個差距之後也不由得在微博上發表了自己的感受：

早就聽說新版alphago的強大....但...讓...讓三個？我的天，這個差距有多大呢？簡單的解釋一下就是一人一手輪流下的圍棋，對手連續讓你下三步...又像武林高手對決讓你先捅三刀一樣...我到底是在和一個怎樣可怕的對手下棋...

值得注意的是，等級分的數值實際上是由一系列比賽中的勝負來確定的，這個數值在輸贏都存在的情況下比較準確（高低都有參考值）。而AlphaGo Master之前一舉面對職業圍棋人士連勝60盤，等級分很可能還遠沒有達到真實的水平（上未封頂）。

雷鋒網昨天也引用了三聯生活周刊科技記者昨天就在朋友圈中的相關觀點，即想要知道最新版AlphaGo到底超出人類多少，讓子再賽很可能是唯一的證明方法。

當然，這三者在配置、運作方式上也截然不同。以下是根據現場整理的一份簡單表格。

看到這裡肯定會有人驚呼：從50個TPU減少到1個，Google這是要逆天么？這種想法實際上是錯誤的。

原因在於，AlphaGo Master實際上是站在巨人（AlphaGo Lee）肩膀上的。

AlphaGo Master的強大為啥與 AlphaGo Lee息息相關？

如果非要分個階段，AlphaGo Fan實際上與AlphaGo Lee可以劃為同一時期。

這兩者的整體演算法架構都是一樣的：「深度學習+蒙特卡洛搜索樹+強化學習」。或者你可以將他們理解為國中生和高中生的差別，挑戰樊麾的版本在數據積累和演算法細部規則上還沒有打磨到極致，而後者則要完美不少。

到了AlphaGo Lee 時，我們原來認為的「圍棋人工智慧障礙」——圍棋棋局可能性太多，無法窮舉找到最優解，已經被解決。

圍棋中龐大的蒙特卡洛搜索樹

簡略點來說，Google實際上找了兩種「偷懶」的辦法：首先是在進行下一步落子計算時，只參考通過深度學習得來的人類落子選項。（人類如果不下的地方，它就不計算）

第二是估值網路，在每一步落子之時想要直接算出結局，同樣是不可能的。因為隨著預測步數增多，蒙特卡洛搜索樹中需要計算的內容也會指數式上漲。所以AlphaGo引入了一套打分體系。沒有一個地方是100%贏，只是對比其他地方，這一個點落子更好。

通過這兩步縱向和橫向的精簡之後，AlphaGo達成了一個幾乎不可能完成的任務——在去年3月的比賽中戰勝了李世乭。

但除了最終結果外，AlphaGo在那次比賽中的少數表現同樣值得關註：時常下出一些人類覺得有問題的棋招；在第四場李世乭神之一手之時，其估值網路發生了斷崖式的波動。

這無疑反映出了AlphaGo Lee自身的不成熟。

那麼怎麼樣才能再上一層樓呢？不同於之前很多人猜測的「完全摒棄AlphaGo中的人類元素」，Google採用了一條更加穩妥的道路——建一個全新的神經網路，在AlphaGo Lee的基礎上進行二次「學習」，並且將學習到的東西不斷記下來。

這也使得AlphaGo Master變得比AlphaGo Lee更加嚴謹，同時也更加穩定。這也是為什麼會出現昨天三番棋第一場末尾階段AlphaGo絲毫不怕柯潔追擊，只採用最穩固策略的原因。當然，其他疑問也依舊存在，例如 AlphaGo Master究竟是如何依靠單台TPU完成整場比賽的運算？在比賽過程中AlphaGo Master是否需要AlphaGo Lee的幫助？

另外一方面，Google最終沒有選擇「拋棄」人類，總算說明人類2600年的圍棋歷史並不是毫無沉澱。這或許還算一個難得的小欣慰。

關於AlphaGo vs 柯潔接下來的比賽，以及本次圍棋峰會中的更多內容，雷鋒網()也將繼續為大家帶來第一手的報道，敬請關注。

桃園 qq 地點貓咪桃園市 taoyuan xuan 根部尾巴有大桃園旅遊景點