Zi 字媒體

最全匯總 | 人類最後希望與圍棋上帝AlphaGo 終極PK

2021/12/25

烏鎮圍棋峰會歷時5天，「人類最後的希望」柯潔還是輸了。這樣風平浪靜的結果想必很多人都預測到了，不過大家從一開始就知道關注的重點，不在於柯潔怎麼輸，而是AlphaGo已經進化到了什麼程度。

讓人類跟一台計算機比試計算能力和思考邏輯能力，而且對手是一台擁有超級計算和深度學習能力的智能計算機。終於，當Alphago輕鬆又拿下最後一盤后，DeepMind團隊再一次如願以償的向全世界證明了AI的強大，證明了深度學習的最先進的成果和發光發熱的未來！

「AlphaGo的劃時代意義在於它不僅僅縮短了機器與人的智能距離，還將顛覆人與人智商差異的感知。」

圍棋人機大戰 | 巔峰對決

04.10

棋手柯潔宣布和谷歌AlphaGo 2.0版進行三番棋大戰。

05.23

經過四個多小時的對弈，柯潔以四分之一子之差敗給了AlphaGo。

05.25

AlphaGo執黑子，柯潔執白子，柯潔在局勢一度領先的情況下，盤中出現失誤錯失制勝機會，盤中認輸。

05.27

AlphaGo執黑子，柯潔執白子。早早陷入困局的柯潔放手一搏，但仍不敵AlphaGo，最終柯潔選擇投子認輸。

十分鐘看懂 AlphaGo 的核心演算法

圍棋的複雜程度

圍棋是一個完全信息博弈問題。而完全信息博弈，通常能被簡化為尋找最優值的樹搜索問題。它含有 b 的 d 次方個可能分支，在國際象棋中 b≈35，d≈80；而在圍棋中 b≈250，d≈150。很顯然，對於圍棋，用窮舉法或簡單的尋路演算法（heuristics）是行不通的。但有效的方法是存在的：

從策略（policy） P(a|s) 中取樣 action，降低搜索廣度
通過位置評估降低搜索深度
把策略和值用蒙特卡洛樹搜索（MCTS）結合起來。

通常的步驟是：

用一個 13 層的 CNN，直接從人類棋步中訓練一個監督學習策略網路 Pσ。輸入為 48 x 19 x 19 的圖像（比方說，它的組成棋子顏色是 3 x 19 x 19），輸出是使用 softmax 層預測的全部落子的概率。精確度是 55.7%。
訓練一個能在運行時快速取樣 action 的快速策略 Pπ。這會用一個基於小型模式特徵的線性 softmax。精確度是 24.2%，但它計算一次落子只用 2 微秒，而不像 Pσ 需要 3 毫秒。
訓練一個增強學習策略網路 Pρ ，通過優化博弈結果來進一步提升監督策略網路。這把策略網路向贏棋優化，而不是優化預測精確度。本質上，Pρ 與 Pσ 的結構是一樣的。它們的權重使用相同值 ρ=σ 初始化。對弈的兩個選手，是當前策略網路 Pρ 和隨機（防止過擬合）選擇的此前的策略網路迭代。
訓練一個價值網路（value network）Vθ，來預測強化學習策略網路自己和自己下棋的贏家。該網路的架構和策略網路類似，但多出一個特徵平面（當前玩家的顏色），並且輸出變成了單一預測（回歸，均方差損失）。根據完整棋局來預測對弈結果，很容易導致過擬合。這是由於連續落子位置之間高度相關，只有一子之差。因此，這裡使用了強化學習策略網路自己與自己對弈新生成的數據。該數據從包含 3000 萬個不同位置的獨立棋局中抽取。
把策略網路、價值網路、快速策略和蒙特卡洛樹搜索結合起來。一個標準的蒙特卡洛樹搜索過程包含四步：選擇、擴展、評估、備份。為了讓大家更容易理解，我們只粗略講了講它如何在模擬中選擇狀態的部分（如對數學感興趣，請到原始論文中找公式）。

狀態分數=價值網路輸出+快速運行（fast rollout）的策略結果+監督學習策略網路輸出

高狀態得分（或者說落子）會被選擇。價值網路輸出和快速運行策略結果是評估函數，在葉子節點進行評估（注意，為了評估快速運行，需要一直到最後一步）。監督學習策略網路輸出是一個當前階段的 action 概率，充作選取分數的獎勵分。該分數會隨訪問次數而退化，以鼓勵探索。注意強化學習策略網路只被用於輔助，來生成價值網路，並沒有直接在蒙特卡洛樹搜索中使用。

一年的修鍊，AlphaGo的能力增強多少？

目前圍棋世界第一柯潔的等級分3625，Google給出了一個AlphaGo Lee與AlphaGo Master之間參考性的讓子數目——3子。

柯潔本人在現場目睹這個差距之後也不由得在微博上發表了自己的感受：

早就聽說新版alphago的強大....但...讓...讓三個？我的天，這個差距有多大呢？簡單的解釋一下就是一人一手輪流下的圍棋，對手連續讓你下三步...又像武林高手對決讓你先捅三刀一樣...我到底是在和一個怎樣可怕的對手下棋...

值得注意的是，等級分的數值實際上是由一系列比賽中的勝負來確定的，這個數值在輸贏都存在的情況下比較準確（高低都有參考值）。而AlphaGo Master之前一舉面對職業圍棋人士連勝60盤，等級分很可能還遠沒有達到真實的水平（上未封頂）。

從曾經震驚人類社會的深藍，到今天碾壓之勢的AlphaGo。相比之下人類卻有著2600年的圍棋歷史，AlphaGo取得的這一系列進展只花了3年，這樣的學習進化速度可以用「恐怖」來形容。

人類智力和計算機人工智慧的交鋒、相互學習將會成為一個新時代的縮影。圍棋也不會成為唯一被人工智慧改變的領域，人類如何尋找新的自身定位還需要我們努力探索。

從50個TPU減少到1個，Google這是要逆天么？AlphaGo Master實際上是站在巨人（AlphaGo Lee）肩膀上的。

AlphaGo 目前有三個版本：AlphaGo Fan（與樊麾對弈的版本）、AlphaGo Lee（與李世乭對弈的版本）、AlphaGo Master（驅動Master的版本）。

AlphaGo Fan與AlphaGo Lee 這兩者的整體演算法架構都是一樣的：深度學習+蒙特卡洛搜索樹+強化學習。或者可以將他們理解為國中生和高中生的差別，挑戰樊麾的版本在數據積累和演算法細部規則上還沒有打磨到極致，而後者則要完美不少。

到了AlphaGo Lee 時，我們原來認為的「圍棋人工智慧障礙」——圍棋棋局可能性太多，無法窮舉找到最優解，已經被解決。

簡略點來說，Google利用了兩種「偷懶」的辦法：首先是在進行下一步落子計算時，只參考通過深度學習得來的人類落子選項。（人類如果不下的地方，它就不計算）

第二是估值網路，在每一步落子之時想要直接算出結局，同樣是不可能的。因為隨著預測步數增多，蒙特卡洛搜索樹中需要計算的內容也會指數式上漲。所以AlphaGo引入了一套打分體系。沒有一個地方是100%贏，只是對比其他地方，這一個點落子更好。

通過這兩步縱向和橫向的精簡之後，AlphaGo達成了一個幾乎不可能完成的任務——在去年3月的比賽中戰勝了李世石。但除了最終結果外，AlphaGo在那次比賽中的少數表現同樣值得關註：時常下出一些人類覺得有問題的棋招；在第四場李世乭神之一手之時，其估值網路發生了斷崖式的波動。這無疑反映出了AlphaGo Lee自身的不成熟。

本次柯潔對陣的AlphaGo Master，不同於之前很多人猜測的「完全摒棄AlphaGo中的人類元素」，Google採用了一條更加穩妥的道路——建一個全新的神經網路，在AlphaGo Lee的基礎上進行二次「學習」，並且將學習到的東西不斷記下來。這也使得AlphaGo Master變得比AlphaGo Lee更加嚴謹，同時也更加穩定。這也是為什麼會出現三番棋第一場末尾階段AlphaGo絲毫不怕柯潔追擊，只採用最穩固策略的原因。

在這次對局中，人類可以學到什麼？

圍棋的美妙在於我們可以在棋盤上探索出新的棋法，人們在對人工智慧充滿了興趣的同時，卻又對其有很多詬病。

機器，是由人發明的。學習能力，才是AlphaGo最讓人震驚的地方。在短短的一年之內，從初期程序設定的運算能力驚人，第二階段可以通過比賽在不同的頂尖選手中學習他們的棋法，現在我們看到它提升了更多的學習空間。

在賽前的演講中，DeepMind創始人哈薩比斯就表示，這並不是一場人機大賽，而是人利用電腦發現新的知識。無論結果如何，最終勝利都屬於人類。一系列的比賽不僅展現出了AI的創造力，也正是展現出了人類的創造力。

-END-

以上內容綜合整理自網路，版權歸原著作者所有。

高中生人工智慧科研課題：

人臉特徵的分析及其應用

利用深度增強學習設計遊戲中的人工智慧

機器學習在預測歐洲足球比賽結果中的應用

機器學習在銀行借貸風險評估中的應用

有方博雅整合美國頂尖大學的科研團隊資源，提供純正的美式學術活動，讓學生在學術研究與國際競賽上有所斬獲，向大學招生官展示自己的熱情與實力。

桃園 qq 地點貓咪桃園市 taoyuan xuan 根部尾巴有大桃園旅遊景點