Zi 字媒體

碾壓人類！Deepmind改寫圍棋定式開玩星際2！

2021/12/25

【中關村在線原創】在烏鎮圍棋大會之後直到最近幾天，Deepmind的AlphaGo項目負責人之一Aja Huang博士結束了休假，又恰逢歐洲圍棋大會，帶給了全世界圍棋愛好者一個「上帝視角」看三大複雜定式的解說，定式就此改寫。然後，Deepmind宣布與暴雪聯合弄出了機器學習打星際的API，連遊戲也要淪陷了……

需要點圍棋基礎知識

在理解本文之前，我們需要鋪墊一些基礎知識。關於圍棋基本規則的，大家可以通過網上的幾分鐘教學視頻大致了解一下，簡單來說，就是無氣要被提子，兩個眼才是活期。那麼什麼是定式呢？

定式的落子位置、方向、次序不能錯

定式這個詞起源於古代。古代圍棋對弈前要在四個角的星位放上黑白各兩個子，然後再對弈，規則與今天的並不一樣。圍棋素有「金角銀邊草肚皮」的說法，角部可以用更少的子圍出更多的空地，但是圍繞角部的戰鬥也更激烈。

要想不吃虧，學棋這種定式大全要能熟背很多

在以千百年計的對弈中，人們總結出來了很多對雙方看起來「五五開」的落子位置與順序，這個稱之為定式。但圍棋盤的交叉點很多，所以定式也多，《定式大全》是厚厚的2本書，而隨著規則的進化，定式也在變化。在眾多定式當中，有三個定式公認的難解，人類棋手表示搞不清複雜的變化，著三個定式分別是大雪崩定式、定式以及大斜定式。

最接近上帝的AlphaGo是怎麼評估定式的呢？

那麼作為最強的圍棋AI的AlphaGo，是怎麼看待這些定式的呢？最近幾天，Aja Huang在臉書上公布了AlphaGo的看法，讓人耳目一新，千百年來我們的定式居然下的不對！

AlphaGo VS 大雪崩定式

大雪崩定式是常見的複雜定式，學圍棋的時候要背好久。因為這個定式複雜變化多。我們先來看常見的：

白16內拐常見變化

黑1拐再3立之後黑9扳是最簡明的下法，本圖是內拐最簡明並且最常見的下法

黑9扳出也是一種下法，本圖也是大雪崩中常見的一型

白8不在10位粘先爬，是防止黑棋A位扳簡明轉身的下法，但是黑棋可以在11先貼，本圖也是一直被認為大致兩分

這個變化AlphaGo認為黑棋虧了，但人類認為是兩分的

黑11打是阿法狗認為的最佳下法

如果讓AlphaGo強行下成大雪崩，給出的答案是：黑1立完以後5冷靜的跳

後續阿法狗認為，白棋不讓黑棋7先手便宜到是關鍵，白8一定要反擊，如此雙方可戰黑將不利減到最小

黑如先手7位擋住，再9逼的話白棋會10位反擊，如此也是白棋好一點的戰鬥

那麼AlphaGo是怎麼認為的呢？AlphaGo並不會下大雪崩定式，於是給出了上門的判斷，至此，困擾棋界多年的大雪崩定式被AlphaGo交易了一下，宣告新的走法，並且應該是基於全局的目前最優解。

AlphaGo VS 妖刀定式

AlphaGo對於妖道定式的全新理解與觀念，是Aja Huang博士在自己的臉書上公布的，並且可以隨意引用。在歐洲圍棋大會，樊麾老師談到了AlphaGo對大雪崩定式的看法。AlphaGo對妖刀定式又有什麼看法呢？圖1就是妖刀定式的基本型。在Master與職業棋士的對局中出現過圖2的變化，AlphaGo認為白4靠不好，至黑19拆邊，白棋的勝率下降近15個百分點。圖3是AlphaGo所認為的雙方最佳下法。如果圖3中的黑5選擇圖4的擋下，至白12將形成戰鬥，AlphaGo認為白棋稍微有利。

妖刀定式的基本型

這是Master年初對局的變化，AlphaGo認為白4不好，勝率下降15%！！！

AlphaGo認為的正解，這是五子棋嗎？

這個變化認為白子有利一點

人類棋手的實戰

圖3的三路跳已經有職業棋手在正式比賽中下過(圖5)。在這個局部，AlphaGo的下法(白1至11)與黨毅飛九段是一致的，並且AlphaGo認為全局仍然是雙方均勢。勝率下降15%是什麼概念？保守估計換算成日韓規則，要虧一目以上，以後妖道將不再妖刀……

AlphaGo VS 大斜定式

大斜定式是黃博士最後一個公布的AlphaGo眼中的「定式」，其實在AlphaGo眼中，就沒有大斜定式，因為白的大飛它認為並不好。大家好，之前我們公布了AlphaGo對大雪崩定式與妖刀定式的看法，接著我們想向大家分享AlphaGo對大斜定式的看法。

1，大斜定式基本型

AlphaGo的選擇，注意白3的位置，和大斜定式的落子位置不同……

在這個場合下，AlphaGo會下大斜的走法，是一種場合下法而非定式

AlphaGo認為雙方的理想下法，白4飄逸靈動的布局讓人耳目一新

AlphaGo認為雙方均勢的一個變化

另外一個均勢的下法，強調黑8、10的手段

這個變化白稍好

黑稍差

圖1是大斜定式的基本型。簡單來說，在一般的情況下AlphaGo認為大斜不如A位飛壓，所以AlphaGo並不會下大斜定式。在這個局面，AlphaGo會選擇圖2的下法。不過，在三間低夾的情況下(圖3)，AlphaGo是會下大斜的，這個局部的棋形在Master與職業棋士的對局中也出現過。接下來形成很多種可能的變化，圖4至圖7都是AlphaGo所認為雙方可能的下法，並且AlphaGo都認為雙方均勢。其中，圖6與圖7的黑8扳再黑10擋是AlphaGo所強調的手段。在圖3的局面如果黑棋選擇尖頂，會形成圖8的變化，AlphaGo認為白棋稍好。圖5的黑7如果扳，則會形成圖9的變化，AlphaGo認為黑棋稍差。

至此，人類認為三大難解的定式，AlphaGo都給出了自己的答案……

如果你看過《棋魂》

《棋魂》是曾經風靡一度的漫畫和動畫片。讓人最傷心的莫過於隨著虎次郎棋盤血跡的變淡，Sai也感知到自己要消失，這段當年的筆者看的直落淚……然而現在，作為圍棋愛好者，也要懷著一樣的心情送別AlphaGo.

黃博士臉書上傷感的告白

在今年烏鎮的圍棋峰會上，Deepmind就宣布中止了AlphaGo關於圍棋項目的研究，AlphaGo進入倒計時。與柯潔三盤棋的復盤紀錄片、新的論文以及AlphaGo的教學工具將給是AlphaGo的絕唱，江湖將只剩下一個需要仰望的高大背影離去。

在谷歌第一篇論文的參考下，騰訊絕藝團隊的圍棋AI有了很大的進步，現在野狐平台上對職業棋手已經是勝多負少，甚至讓子棋都有很高的勝率，這就是AlphaGo帶給我們的變革，而在兩年前，計算機圍棋水平不過業餘六段左右，被一線職業殺的落花流水，並且普遍認為計算機圍棋距離贏職業九段還太遠，現在這一切都已經被顛覆了。

Deepmind改玩星際了！

前幾天，Deepmind宣布，為了讓全世界的開發者能夠更好的開發出對抗即時戰略遊戲的AI，和暴雪娛樂一起，推出了關於星際2的機器學習開發套裝。在Github上可以下載。

這些工具包括：

腳本 AI API

基於圖像 AI API （功能圖層）：

文檔，示例代碼和示例機器人

支持離線AI與AI播放

1v1天梯遊戲的replay套件*

支持Windows與Mac

API完整功能的Linux軟體包

人的動作行為與機器（Agent）模仿，非常難

對於星際2的研究還處於很早期的階段。由於玩家可以採用超過300種的基本行動，與Atari遊戲相比，Atari遊戲只有大約10個動作（例如上，下，左，右等），所以這對《星際爭霸2》的空間研究帶來了巨大挑戰。除此之外，《星際爭霸》中的操作動作是分級的，人們可以自由修改和擴充操作路徑，即使是84x84的小屏幕尺寸，也可能有大約1億個可能的動作。在新公布的API中，你可以自己動手來構建任務與模型，減少研發難度。

AI實現的小區域操作

AI眼中不同層的行動，非常複雜，目前只能在一個小區域里進行操作

Deepmind聲明，感謝暴雪提供的百萬份天梯比賽錄像，目前研發的自主學習AI尚處初級階段，甚至在完整地圖中，連腳本程式的簡單電腦都打不過。而執行微操與預判戰術只能在小地圖中完成，並且需要耗費大量時間運算才能進行下一步。

不過這就是Deepmind研究的動力，同過機器學習來解決複雜的問題，並且實現方式是通過模擬人大腦的神經，不難不複雜的問題解決起來也沒有成就感。年初在Deepmind的招聘廣告上，要求的都是神經科學的博士以及計算機的博士，前不久還發表了相關的論文，認為這是實現通用型AI（比如既能下圍棋、打星際，也能自動駕駛）的實現方式。我們迫不及待的期待這些AI研究機構能夠開發出更多強力的AI、早日實現通用型AI，以解放我們的生產力。

桃園 qq 地點貓咪桃園市 taoyuan xuan 根部尾巴有大桃園旅遊景點