search
尋找貓咪~QQ 地點 桃園市桃園區 Taoyuan , Taoyuan

人機對戰簡史:從國際象棋到德州撲克

二十年的時間裡,從國際象棋到德州撲克,人機對戰背後,機器是怎樣進化的?

頂樓TopView

2017 年 4 月 6 日到 10 日,由卡內基梅隆大學開發的人工智慧 Libratus(「冷撲大師」)將在海南與六位的德州撲克選手進行為期五天,累計長達 45 個小時的德州撲克人機對戰。

這是繼 AlphaGo 在圍棋領域大殺四方之後,AI 對人類新的挑戰。本文將為您梳理,在過去二十年的歷史中,人機對戰經歷了哪些關鍵節點,AI 又發生了怎樣的進化?

國際象棋人機對戰

關鍵詞:計算力

1996 年 2 月,美國費城,一場在當時被稱作 「世紀大戰」 的較量。

國際象棋世界棋王卡斯帕羅夫面對的挑戰者,並不是人。

卡斯帕羅夫的對手是 IBM 的超級國際象棋電腦 「深藍」,為了這次較量,後者早已做足了準備。

在國際象棋每一個回合中,一個玩家可以有大約 35 種不同的行棋選擇,這些選擇推導結果是單線程的,從 A 到 B 到 C 的推導選擇。隨機不可控因素更小,也不存在局部的輸贏影響整體戰局的關係。對局雙方的決策能夠更直接地控制整個局面的走勢。

也就是說,國際象棋的比賽,很大程度上是棋手計算力的較量。

為了能比對手——世界棋王卡斯帕羅夫——多算準一步,深藍中,用C語言輸入了一百多年來優秀棋手的兩百多萬場對局。這台電腦重 1270 公斤,有 32 個節點,每個節點有 8 塊專門為進行國際象棋對弈設計的處理器,運行速度達一億次每秒。

1997 年電腦深藍首次戰勝國象棋王卡斯帕羅夫

然而在 1996 年的這場 6 局比賽中,深藍最終以 2:4 落敗。

首次挑戰失敗后的一年裡,IBM 的工程師們將 「深藍」 的運算速度又提高了一倍,達到兩億次每秒。但深藍並非計算機的王者。事實上。深藍的運算能力當時在全球超級計算機中居第 259 位。即便這樣,深藍仍然可以算出所有路數來選擇最佳策略:新的深藍靠硬算可以預判 12 步,而卡斯帕羅夫只能預判 10 步。

1997 年 5 月,深藍再次挑戰棋王卡斯帕羅夫。在前五局 2.5 對 2.5 打平的情況下,棋王第六盤決勝局中僅僅走了 19 步,就敗給了深藍。最終深藍電腦以 3.5:2.5(1 勝 2 負 3 平)獲勝,成為首個在標準比賽時限內擊敗國際象棋世界冠軍的電腦系統。

比賽結束后,「深藍」 小組公布了一個秘密,每場對局結束后,小組都會根據卡斯帕羅夫的情況相應地修改特定的參數,「深藍」 雖不會思考,但這些工作實際上起到了強迫它 「學習」 的作用,這也是卡斯帕羅夫始終無法找到一個對付 「深藍」 的有效辦法的主要原因。

電視問答節目對戰

關鍵詞:自然語言理解,資料庫,計算力。

2011 年 IBM 的超級計算機 Watson,宣布參加美國綜合挑戰節目《危險邊緣》。這檔電視問答節目自 1964 年開播,遊戲里的問題包羅萬象,幾乎涵蓋了人類文明的所有領域。

節目《危險邊緣》中 Watson 遙遙領先

人類選手詹寧斯和魯特都是這個領域的頂級高手。前者曾創下連續 74 場贏得比賽的紀錄,後者在比賽中共拿到 325 萬美元獎金,但仍然不是 Watson 的對手。比賽進行到第三天,Watson 以 41413 美元的分數鎖定勝局,而兩位人類選手分別僅獲得 19200 美元和 11200 美元。

Watson 的勝利背後,是一個挑戰和兩個優勢。

Watson 面臨的首要問題就是自然語言理解。能否與主持人互動,理解主持人自然語言的語義和語氣,甚至區分問題里的雙關,隱喻等信息,是 Watson 能夠做出回答的前提。

突破了這一關之後,Watson 就如魚得水了。首先,它擁有一個強大的信息來源。其中包括百科全書、字典、詞典、新聞和文學作品,還包括資料庫、分類學和本體論。雖然在比賽中沒有連接互聯網,4TB的磁碟上仍有2億頁結構化和非結構化的信息供其使用。

其次,它還有強大的計算能力。

Watson 基於 16TB 內存、2880 個 Power 7 系列處理器——當前架構中最強的處理器。這就意味著 Watson 的快。第一是檢索快,它能夠在 3 秒內檢索數百萬條信息,並選擇三個可能性最高的答案;第二是判斷快,它能夠迅速結合場上情況做出搶答與否的決策;第三是搶答快,當其中一個答案的可能性超過 50% 后,立即啟動搶答。它超越人類的搶答速度主導了整場比賽。

AlphaGo與圍棋人機大戰

關鍵詞:深度學習,神經網路

圍棋曾經是人工智慧遙不可及的戰場。

國際象棋中,平均每回合有 35 種可能,一盤棋可以有 80 回合,而圍棋每回合有 250 種可能,一盤棋可以長達 150 回合。同時,一場圍棋比賽中出現的不同局面多達 3 的 361 次方種。

李世石與 AlphaGo 對決以 1:4 告負

此外,圍棋博弈是多個局部戰爭合成的最終結果,同時局部之間相互影響,無法被演算法窮舉。更專業點說,圍棋難的地方在於它的估值函數非常不平滑,差一個子盤面就可能天翻地覆。

谷歌的 AlphaGo 程序突破了傳統電腦的 「固定」 程序邏輯,融入了深度學習和神經網路的能力。這個深度神經網路由策略網路和值網路兩部分組成,策略網路負責減少搜索的寬度——面對眼前的一盤棋,有些棋步是明顯不該走的。這樣 AI 就可以重點分析那些有戲的棋著。值網路負責減少搜索的深度——AI 會一邊推算一邊判斷局面,局面明顯劣勢的時候,就直接拋棄某些路線,不用一條道算到黑。

AlphaGo 利用這兩個工具學習了人類所有的棋譜,經過了幾千萬次的自我對弈與學習,不僅能夠模仿人類棋手的思考,甚至已能夠超越。2016 年 3 月,在與 AlphaGo 對決的人機大戰中,來自韓國的世界圍棋冠軍李世石以 1:4 告負。

除了計算能力外,這場比賽還暴露出機器的其他優勢:賽場上,人會因為比賽環境和壓力等外部或情緒因素影響判斷,而機器不會;在數小時的鏖戰中,人會因疲倦而分神,機器卻能永遠保持專註。賽場外,人每天可做的練習是有限的,AI 則能以上萬倍於人類的速度練習。

李世石在比賽後接受採訪時說道:「要適應與 AlphaGo 的比賽,首個挑戰就是心理方面,需要非常專註。我繼續和它下不一定能贏,因為無法比它更專註,這些方面是贏不了它的。」

2017 年 3 月,AlphaGo 的升級版 Master 橫空出世,通過下快棋連勝職業高手 60 盤,其中就包括了最強棋手柯潔。

AlphaGo2.0 發佈於 2017 年年初,相比於 1.0,這個版本能稱得上真正的 「自我學習」。1.0 版本的 AlphaGo 以人類所有棋譜為藍本,AlphaGo 再怎麼走也只是算出了人類棋手曾走過的某一步,頂多算是個完美的 「人類棋手」。而 2.0 版本 AlphaGo 就利用這個「完美棋手」的估值函數自我對局和 「深度學習」,超出了人類棋譜的範圍,是真正機器算出來的棋法。

2017 年 4 月,AlphaGo 還將有一場與柯潔的人機對戰,這或許將會是人機在圍棋領域的最後一戰。

德州撲克人機大戰

關鍵詞:不完美信息的博弈

2017 年 1 月 11 日至 1 月 30 日,美國卡內基梅隆大學開發的人工智慧 Libratus(「冷撲大師」)與 4 名人類頂尖德州撲克選手之間的 「人機大戰」 在美國匹茲堡進行,經過了為期 20 天,總計對戰 12 萬手牌的賽程,最終人工智慧取得勝利。

與之前和人類在棋類的競賽中比拼智力不同,AI 在德州撲克項目上挑戰人類反映了 AI 更值得關注的進化方向。

圍棋、國際象棋比賽中雙方所有信息一覽無餘,本質上是對稱信息的博弈,而德州撲克是信息不對稱的博弈,每個選手只能看到自己的手牌。這就決定了人工智慧首先需要面對大量不完整的信息。

因此,德撲背後是一個大型的 AI 談判演算法。「冷撲大師」 並不基於大數據、深度學習、強搜索等傳統 AI 方法;而是基於博弈論,直接在比賽同時動態優化勝率最高的數學模型。這其中不僅包含了概率統計和運籌策略,也包含了巨大的信息處理計算量。CMU 計算機學院院長 Andrew Moore 在接受採訪時說道:「冷撲大師的程序如果要讓人類去計算,大概得花人類 1000 萬個小時。」

與此同時,冷撲大師也面臨著挑戰。德州撲克更接近人性,因為信息是有隱藏的,牌手可以誠實地表達,也可以欺騙地表達,即德州撲克中的詐唬(bluff)技術。而機器明顯無法通過對手的動作表情判斷對手牌的強弱,也無法通過肢體、神態表演來蒙蔽對手。

在對賽中,冷撲大師無法使用德州撲克中的詐唬技術

百度首席科學家吳恩達(Andrew Ng)就曾指出,「撲克(不完美信息博弈)是人工智慧最難攻克的遊戲之一。每一步沒有所謂的最優解,人工智慧要採取隨機的策略,這樣它詐唬的時候對方才會吃不準。」

相比圍棋 AI,德州撲克 AI 應用空間更廣泛。現實世界中,不完美信息博弈才是常態,例如在商業談判、醫療方案制定等領域,這些過去被認為人類擁有獨特優勢的領域,未來都會面臨機器的挑戰。

結語:

從 1996 年到 2017 年,人工智慧與人類的四次競賽從側面反映出了 AI 的進化:從計算能力超越人類到學會自然語言理解,再到深度學習直至掌握不完美信息博弈的能力。在這 21 年中,機器不僅智商越來越高,在情商上也越來越不輸於人類。尤其是當 AI 在其最難攻克的遊戲德州撲克上與人類叫板,這意味著什麼,又將帶來哪些機會和挑戰?

4 月 10 日上午 10 點到 12 點,極客公園將攜手創新工場,和德州撲克 AI 「冷撲大師」 背後的主創團隊卡內基梅隆大學計算機系教授 Tuomas Sandholm ,創新工場董事長李開復博士及五位國內科技公司創始人一起探討 「冷撲大師」 背後的技術邏輯以及 AI 會在未來產生哪些更深層次的影響。

這是極客公園前沿社組織的第一次閉門交流。極客公園前沿社是一個企業家社群,通過前沿的技術交流和最有效率的學習機制,幫助企業家自我提升,發現商業創新的新可能!歡迎關注極客公園前沿社公眾號和訪問官網 f.geekpark.net,在這裡收穫獨家深度內容,共同思考,一起刷新認知。



熱門推薦

本文由 yidianzixun 提供 原文連結

寵物協尋 相信 終究能找到回家的路
寫了7763篇文章,獲得2次喜歡
留言回覆
回覆
精彩推薦