Zi 字媒體

人機對戰簡史：從國際象棋到德州撲克

2021/12/25

yidianzixun

二十年的時間裡，從國際象棋到德州撲克，人機對戰背後，機器是怎樣進化的？

頂樓TopView

2017 年 4 月 6 日到 10 日，由卡內基梅隆大學開發的人工智慧 Libratus（「冷撲大師」）將在海南與六位的德州撲克選手進行為期五天，累計長達 45 個小時的德州撲克人機對戰。

這是繼 AlphaGo 在圍棋領域大殺四方之後，AI 對人類新的挑戰。本文將為您梳理，在過去二十年的歷史中，人機對戰經歷了哪些關鍵節點，AI 又發生了怎樣的進化？

國際象棋人機對戰

關鍵詞：計算力

1996 年 2 月，美國費城，一場在當時被稱作「世紀大戰」的較量。

國際象棋世界棋王卡斯帕羅夫面對的挑戰者，並不是人。

卡斯帕羅夫的對手是 IBM 的超級國際象棋電腦「深藍」，為了這次較量，後者早已做足了準備。

在國際象棋每一個回合中，一個玩家可以有大約 35 種不同的行棋選擇，這些選擇推導結果是單線程的，從 A 到 B 到 C 的推導選擇。隨機不可控因素更小，也不存在局部的輸贏影響整體戰局的關係。對局雙方的決策能夠更直接地控制整個局面的走勢。

也就是說，國際象棋的比賽，很大程度上是棋手計算力的較量。

為了能比對手——世界棋王卡斯帕羅夫——多算準一步，深藍中，用C語言輸入了一百多年來優秀棋手的兩百多萬場對局。這台電腦重 1270 公斤，有 32 個節點，每個節點有 8 塊專門為進行國際象棋對弈設計的處理器，運行速度達一億次每秒。

1997 年電腦深藍首次戰勝國象棋王卡斯帕羅夫

然而在 1996 年的這場 6 局比賽中，深藍最終以 2:4 落敗。

首次挑戰失敗后的一年裡，IBM 的工程師們將「深藍」的運算速度又提高了一倍，達到兩億次每秒。但深藍並非計算機的王者。事實上。深藍的運算能力當時在全球超級計算機中居第 259 位。即便這樣，深藍仍然可以算出所有路數來選擇最佳策略：新的深藍靠硬算可以預判 12 步，而卡斯帕羅夫只能預判 10 步。

1997 年 5 月，深藍再次挑戰棋王卡斯帕羅夫。在前五局 2.5 對 2.5 打平的情況下，棋王第六盤決勝局中僅僅走了 19 步，就敗給了深藍。最終深藍電腦以 3.5:2.5（1 勝 2 負 3 平）獲勝，成為首個在標準比賽時限內擊敗國際象棋世界冠軍的電腦系統。

比賽結束后，「深藍」小組公布了一個秘密，每場對局結束后，小組都會根據卡斯帕羅夫的情況相應地修改特定的參數，「深藍」雖不會思考，但這些工作實際上起到了強迫它「學習」的作用，這也是卡斯帕羅夫始終無法找到一個對付「深藍」的有效辦法的主要原因。

電視問答節目對戰

關鍵詞：自然語言理解，資料庫，計算力。

2011 年 IBM 的超級計算機 Watson，宣布參加美國綜合挑戰節目《危險邊緣》。這檔電視問答節目自 1964 年開播，遊戲里的問題包羅萬象，幾乎涵蓋了人類文明的所有領域。

節目《危險邊緣》中 Watson 遙遙領先

人類選手詹寧斯和魯特都是這個領域的頂級高手。前者曾創下連續 74 場贏得比賽的紀錄，後者在比賽中共拿到 325 萬美元獎金，但仍然不是 Watson 的對手。比賽進行到第三天，Watson 以 41413 美元的分數鎖定勝局，而兩位人類選手分別僅獲得 19200 美元和 11200 美元。

Watson 的勝利背後，是一個挑戰和兩個優勢。

Watson 面臨的首要問題就是自然語言理解。能否與主持人互動，理解主持人自然語言的語義和語氣，甚至區分問題里的雙關，隱喻等信息，是 Watson 能夠做出回答的前提。

突破了這一關之後，Watson 就如魚得水了。首先，它擁有一個強大的信息來源。其中包括百科全書、字典、詞典、新聞和文學作品，還包括資料庫、分類學和本體論。雖然在比賽中沒有連接互聯網，4TB的磁碟上仍有2億頁結構化和非結構化的信息供其使用。

其次，它還有強大的計算能力。

Watson 基於 16TB 內存、2880 個 Power 7 系列處理器——當前架構中最強的處理器。這就意味著 Watson 的快。第一是檢索快，它能夠在 3 秒內檢索數百萬條信息，並選擇三個可能性最高的答案；第二是判斷快，它能夠迅速結合場上情況做出搶答與否的決策；第三是搶答快，當其中一個答案的可能性超過 50% 后，立即啟動搶答。它超越人類的搶答速度主導了整場比賽。

AlphaGo與圍棋人機大戰

關鍵詞：深度學習，神經網路

圍棋曾經是人工智慧遙不可及的戰場。

國際象棋中，平均每回合有 35 種可能，一盤棋可以有 80 回合，而圍棋每回合有 250 種可能，一盤棋可以長達 150 回合。同時，一場圍棋比賽中出現的不同局面多達 3 的 361 次方種。

李世石與 AlphaGo 對決以 1：4 告負

此外，圍棋博弈是多個局部戰爭合成的最終結果，同時局部之間相互影響，無法被演算法窮舉。更專業點說，圍棋難的地方在於它的估值函數非常不平滑，差一個子盤面就可能天翻地覆。

谷歌的 AlphaGo 程序突破了傳統電腦的「固定」程序邏輯，融入了深度學習和神經網路的能力。這個深度神經網路由策略網路和值網路兩部分組成，策略網路負責減少搜索的寬度——面對眼前的一盤棋，有些棋步是明顯不該走的。這樣 AI 就可以重點分析那些有戲的棋著。值網路負責減少搜索的深度——AI 會一邊推算一邊判斷局面，局面明顯劣勢的時候，就直接拋棄某些路線，不用一條道算到黑。

AlphaGo 利用這兩個工具學習了人類所有的棋譜，經過了幾千萬次的自我對弈與學習，不僅能夠模仿人類棋手的思考，甚至已能夠超越。2016 年 3 月，在與 AlphaGo 對決的人機大戰中，來自韓國的世界圍棋冠軍李世石以 1：4 告負。

除了計算能力外，這場比賽還暴露出機器的其他優勢：賽場上，人會因為比賽環境和壓力等外部或情緒因素影響判斷，而機器不會；在數小時的鏖戰中，人會因疲倦而分神，機器卻能永遠保持專註。賽場外，人每天可做的練習是有限的，AI 則能以上萬倍於人類的速度練習。

李世石在比賽後接受採訪時說道：「要適應與 AlphaGo 的比賽，首個挑戰就是心理方面，需要非常專註。我繼續和它下不一定能贏，因為無法比它更專註，這些方面是贏不了它的。」

2017 年 3 月，AlphaGo 的升級版 Master 橫空出世，通過下快棋連勝職業高手 60 盤，其中就包括了最強棋手柯潔。

AlphaGo2.0 發佈於 2017 年年初，相比於 1.0，這個版本能稱得上真正的「自我學習」。1.0 版本的 AlphaGo 以人類所有棋譜為藍本，AlphaGo 再怎麼走也只是算出了人類棋手曾走過的某一步，頂多算是個完美的「人類棋手」。而 2.0 版本 AlphaGo 就利用這個「完美棋手」的估值函數自我對局和「深度學習」，超出了人類棋譜的範圍，是真正機器算出來的棋法。

2017 年 4 月，AlphaGo 還將有一場與柯潔的人機對戰，這或許將會是人機在圍棋領域的最後一戰。

德州撲克人機大戰

關鍵詞：不完美信息的博弈

2017 年 1 月 11 日至 1 月 30 日，美國卡內基梅隆大學開發的人工智慧 Libratus（「冷撲大師」）與 4 名人類頂尖德州撲克選手之間的「人機大戰」在美國匹茲堡進行，經過了為期 20 天，總計對戰 12 萬手牌的賽程，最終人工智慧取得勝利。

與之前和人類在棋類的競賽中比拼智力不同，AI 在德州撲克項目上挑戰人類反映了 AI 更值得關注的進化方向。

圍棋、國際象棋比賽中雙方所有信息一覽無餘，本質上是對稱信息的博弈，而德州撲克是信息不對稱的博弈，每個選手只能看到自己的手牌。這就決定了人工智慧首先需要面對大量不完整的信息。

因此，德撲背後是一個大型的 AI 談判演算法。「冷撲大師」並不基於大數據、深度學習、強搜索等傳統 AI 方法；而是基於博弈論，直接在比賽同時動態優化勝率最高的數學模型。這其中不僅包含了概率統計和運籌策略，也包含了巨大的信息處理計算量。CMU 計算機學院院長 Andrew Moore 在接受採訪時說道：「冷撲大師的程序如果要讓人類去計算，大概得花人類 1000 萬個小時。」

與此同時，冷撲大師也面臨著挑戰。德州撲克更接近人性，因為信息是有隱藏的，牌手可以誠實地表達，也可以欺騙地表達，即德州撲克中的詐唬（bluff）技術。而機器明顯無法通過對手的動作表情判斷對手牌的強弱，也無法通過肢體、神態表演來蒙蔽對手。

在對賽中，冷撲大師無法使用德州撲克中的詐唬技術

百度首席科學家吳恩達（Andrew Ng）就曾指出，「撲克（不完美信息博弈）是人工智慧最難攻克的遊戲之一。每一步沒有所謂的最優解，人工智慧要採取隨機的策略，這樣它詐唬的時候對方才會吃不準。」

相比圍棋 AI，德州撲克 AI 應用空間更廣泛。現實世界中，不完美信息博弈才是常態，例如在商業談判、醫療方案制定等領域，這些過去被認為人類擁有獨特優勢的領域，未來都會面臨機器的挑戰。

結語：

從 1996 年到 2017 年，人工智慧與人類的四次競賽從側面反映出了 AI 的進化：從計算能力超越人類到學會自然語言理解，再到深度學習直至掌握不完美信息博弈的能力。在這 21 年中，機器不僅智商越來越高，在情商上也越來越不輸於人類。尤其是當 AI 在其最難攻克的遊戲德州撲克上與人類叫板，這意味著什麼，又將帶來哪些機會和挑戰？

4 月 10 日上午 10 點到 12 點，極客公園將攜手創新工場，和德州撲克 AI 「冷撲大師」背後的主創團隊卡內基梅隆大學計算機系教授 Tuomas Sandholm ，創新工場董事長李開復博士及五位國內科技公司創始人一起探討「冷撲大師」背後的技術邏輯以及 AI 會在未來產生哪些更深層次的影響。

這是極客公園前沿社組織的第一次閉門交流。極客公園前沿社是一個企業家社群，通過前沿的技術交流和最有效率的學習機制，幫助企業家自我提升，發現商業創新的新可能！歡迎關注極客公園前沿社公眾號和訪問官網 f.geekpark.net，在這裡收穫獨家深度內容，共同思考，一起刷新認知。

桃園 qq 地點貓咪桃園市 taoyuan xuan 根部尾巴有大桃園旅遊景點