search
尋找貓咪~QQ 地點 桃園市桃園區 Taoyuan , Taoyuan

德撲「人機大戰」,人類與AI的共謀

為期5天的德撲「人機大戰」在海南的36度高溫中落下帷幕。由常春藤資本合伙人杜悅擔任隊長的人類戰隊,最終輸給了AI 79萬元籌碼,以及200萬大賽獎金。

對於人類輸給AI的結局,似乎無論是對主辦方、選手還是觀眾而言,都毫無懸念。賽前媒體發布會上,杜悅坦然承認,選手的勝率預期不會超過10%。他們的目標從來就不是贏過AI,而是與此前被德撲AI擊敗的世界頂級選手相比,不要相差太多就好。

不同於圍棋「人機大戰」,人類與人工智慧的戰爭帶著捍衛種族尊嚴的英雄主義色彩,剛剛發生在的德撲「人機大戰」,更像是資本驅動下,人類與AI的一次共謀。AI有絕對的信心獲勝,而人類也在大賽中各取所需。主辦方創新工場同時做大AI與德撲兩個市場,有明確的商業指向,有變現的前景。

把德撲AI請到來

2017年大年初三的晚上,正在家休假的創新工場CMO 黃蕙雯收到李開復的訊息:「我們來做一個人機撲克賽事吧。」

這段時間,由美國卡內基梅隆大學計算機學院教授托馬斯·桑德霍爾姆(Tuomas Sandholm)及他的博士生諾姆·布朗(Noam Brown)開發的德撲AI「Libratus」,正在茲堡River賭場戰勝了4位世界頂級德州撲克選手。作為深度的德撲愛好者,李開復看了這場比賽后極為興奮,於是產生了把德撲AI請來的念頭。

Libratus在美國匹茲堡RIVER賭場挑戰世界頂級德撲選手

在複製一場德撲「人機大戰」,李開復確實是最合適的人選。他是卡內基梅隆大學的博士、榮譽校友。在校期間也曾開發過一款名為「奧賽羅」的黑白棋人機對弈系統,1988年擊敗了黑白棋世界冠軍。他還把同樣對人機對弈感興趣的師兄許峰雄推薦給了IBM,許峰雄在加入IBM的第9年做出了「深藍」,打敗了象棋世界冠軍。

李開復親自負責了前期與卡內基梅隆大學的溝通。他撰寫了一封禮貌的郵件給「Libratus」的開發者——桑德霍爾姆教授,表達對德撲AI的讚賞,以及把AI請來的意願。

桑德霍爾姆教授非常歡迎。他唯一的顧慮,可能就是擔當德撲AI「大腦」的匹茲堡超級計算機的遠程運算會不會出現故障,以及比賽既定的手牌數是否足以將德撲運氣的成分攤平。

Libratus是拉丁文,源自數學家納什定義的一種完美博弈模型。黃蕙雯後來根據發音把這個生僻的單次翻譯成了「冷撲大師」,給人一種冷酷的神秘感。

李開復並不迴避,把「冷撲大師」請到來的「私心」。最近2年來,創新工場先後投資了30多家AI創業公司,並於今年1月份成立了「人工智慧工程院」,試圖把人才、技術、市場、軟硬體平台、大數據環境集成一體,為AI創業提供支持。這位技術出身的投資人看好人工智慧的未來,並不遺餘力地為花費重金投資的創業項目造勢。

你幾乎在各個場合都能看到李開復在談論AI。今年1月份,他出現在《奇葩大會》上,預言「未來10年,有50%人的工作將被人工智慧取代」;3月,在三亞的一個投資論壇上,李開復以《我不是李開復,我是人工智慧》做了一次演講,會場中他與徐小平對視的一張圖片,後來還被網友惡搞;4月,他的新書《人工智慧》也開始預售。

李開復也是深度的德撲愛好者,在比賽現場親自和冷撲大師玩了一把

除了在AI領域早早布局,李開復同時看好德撲在市場的潛力。他本人是深度的德撲愛好者,曾經在知乎上發帖教網友打德撲,創新工場也經常組織創投圈的德撲牌局。這場比賽的承辦方——「傳奇撲克」就是創新工場投資的項目。德撲「人機大戰」同時促進兩個市場升溫,無疑是一筆劃算的生意。

在確定與卡內基梅隆大學的合作后,為德撲AI挑選一位對手並不是一個艱難的決定。在德撲圈,杜悅的名號幾乎無人不知。

杜悅是常春藤資本的合伙人,在此之前曾經在人人網負責戰略投資,主導了包括人人網收購56、百度收購糯米網在內的多宗重大併購。打德州撲克是這位60后海歸投資人的業餘愛好。

2016年夏天,杜悅在美國拉斯維加斯賭場斬獲德撲頂級賽事WSOP的冠軍金手鏈,收穫了80多萬美元獎金,以及在商界精英圈層的社交影響力——德州撲克被視作考驗智商、情商的社交遊戲,在的互聯網圈、創投圈普及率極高。

在3月份三亞舉辦的那次投資峰會上,李開復見到了同為嘉賓的杜悅。他跟杜悅說起自己把AI請到的想法,並邀請他杜悅出面帶領德撲選手參戰。

本質上,杜悅對於國內任何推廣德撲的活動都是歡迎的。他也是「傳奇撲克」的投資人之一,看好德撲在市場的未來。被動地扛起創投圈德撲第一人的大旗后,杜悅也願意多為行業多做一些貢獻。截止到目前,德州撲克在的發展仍然處於政策的灰色地帶,經常被與博彩混為一談。杜悅希望通過正面的推廣為德撲正名。

在李開復找到杜悅之前,杜悅已經在組建一支德撲戰隊,後來命名為「龍之隊」。他原本的計劃是帶領這支隊伍,去征戰今年夏天的WSOP。參加這場「人機大戰」,正好可以讓「龍之隊」在大眾面前打響名號。隊員們帶著與AI戰鬥的經驗,也有助於更好地和人類較量。「人機大戰」的來臨,讓這支戰隊的賽程提前了。

「龍之隊」成員(從左至右):許朝軍、張淮、王天建、杜悅、朱亞西、童舟

策略

「人機大戰」前的一周,「龍之隊」的5位選手從全國各地趕到北京,與隊長杜悅會合。他們在酒店集訓了5天,從牌理上總結AI的策略,從技術上研究它的工作原理。

「龍之隊」的成員,其中大多是杜悅的朋友、熟悉的牌友。點點網、啪啪網創始人許朝軍是杜悅在人人網期間的前同事,也是他在清華大學計算機系的同門師弟。綽號「喜之郎」的「聯眾」平台第一高手童舟,以及曾經簽約Poker Star的選手朱亞西都是職業牌手水準。

通常情況下,德撲比賽的賽制是9位選手坐在一個賽台上相互淘汰。但與「冷撲大師」的比賽稍有不同,採取的是一對一「單挑」的形式。此外,6位選手還被分為兩組,組間對應的兩位選手拿到相反的手牌,以此來攤平運氣成分對比分的影響。

某種程度上說,「單挑」的賽制是更有利於AI的。因為選手在打每一手牌的時候都處於精神高度緊張的狀態,對體力、精力是極大的消耗。而AI是不會感覺到疲勞的。

杜悅和許朝軍同時認為,採用「單挑」的賽制,是因為「冷撲大師」目前的運算能力還不足以應付群體競技的複雜性。某種程度上說,這也體現了「冷撲大師」的不自信。

諾姆•布朗卻表示,冷撲大師在技術上是可以達到群體賽上的標準的,「單挑」是為了防止人類抱團圍毆AI的局面。

「人類可能會聯合對抗AI。或許不是故意的,但無意中就可能受到其他人的影響,導致的最終結果就是AI會輸。」諾姆•布朗告訴36氪。

最終,德撲選手在5天的時間裡,和「冷撲大師」打了9場比賽。第三天下半場是個關鍵性的轉折。在此之前,龍之隊連續3場比賽大比分落後,總計輸給冷撲大師52萬籌碼。他們在9場比賽總共輸了79萬。下半場比賽開始前,選手們調整了策略,不再用自己不熟悉的打法去試探AI,而是回歸了自己的一貫打法。他們的成績隨之觸底反彈,每場損失不超過6萬。

許朝軍和童舟是此次「人機大戰」中成績最好的一對搭檔。選手們的平均水平是總共輸給AI 13.2萬,許朝軍輸了9.8萬,而童舟最後只輸了1.8萬。

比賽結束后,許朝軍總結了一下「冷撲大師」的打法,他認為它在90%的情況下接近於一個真正的德撲大師,內功深厚,技術精湛。而其餘10%的情況下,它就像一個「神經病」,打法和下注完全不合理,令選手們一頭霧水,並且極容易因此產生情緒波動,反過來被AI抓住把柄惡意操作。

面對這樣的對手,許朝軍的策略是變換打法,不按套路出牌。此外,情緒管理是非常重要的。他會在打牌的時候和冷撲大師「聊天」,輸牌的時候順便誇獎一下對手,「你要說這個牌打的好,你來抓我吧。實際上你是不停地在疏導自己。」許朝軍說。

為了應對「單挑」對體力的消耗,許朝軍還堅持每天早期跑步,下午比賽的間歇去游泳。中間靠各種能量飲料、食品補充體力。晚上有時候因為大腦過度興奮會失眠,許朝軍會喝2罐啤酒,把自己灌得迷迷糊糊地入睡。

許朝軍每天堅持跑步、游泳,保持良好的精神與AI作戰

許朝軍把自己的策略分享給隊友,他的搭檔童舟的狀態也漸入佳境,但其他隊友卻沒能重複他們的好成績。在杜悅看來,這是因為選手們原本風格就各不相同,短時間內很難統一成一種打法。

許朝軍對此感到有些遺憾。和人工智慧不同,人類在制定策略之後,還會受到很多其他因素的影響。「人可能10%的概率,100%貫徹策略。」

大潮與泡沫

4月10日中午,德撲「人機大戰」宣布結束。媒體的新聞稿瞬間在網路上鋪天蓋地。一些報道以龍之隊輸給AI作為噱頭,吸引流量,這也令創新工場的宣傳團隊感到有些失控。在一個媒體群上,黃蕙雯勸告記者:「各位媒體朋友,辛苦的龍之隊成員看到『狂虐』等標題,實在有點傷心哪。」

下午的發布會上,李開復又重申了一次,「請各位媒體報道的時候平衡一下,『龍之隊』是讓我們非常驕傲的,用這種方法來描述。」

這位做事體面、周全的投資人顯然不願意看到,因為宣傳德撲AI的同時,把朋友推上尷尬的處境。

作為壓力的中心,比賽結束后的發布會上,在李開復、卡內基梅隆大學教授、教授的博士生依次總結了德撲「人機大戰」中AI的出色表現之後,最後拿到話筒的杜悅忍不住多說了一句:

「『冷撲大師』確實是人工智慧及博弈論在德州撲克領域的科學傑作,(但)離理論上最佳的水平,還有一些差距。」

選手和主創們出席賽后發布會。從左至右依次為李開復、桑德霍爾姆、諾姆·布朗、杜悅

客觀來講,杜悅和「龍之隊」的表現是過關的。1月份匹茲堡的德撲「人機大戰」,世界頂尖德撲高手平均每100手牌輸給「冷撲大師」16個大盲,選手輸了22個,相差不太多。隊雖然輸了,但輸的並不丟臉。

許朝軍甚至認為,他和搭檔童舟已經逐漸發掘出冷撲大師的破綻,如果比賽持續下去,最後的結果很可能他們會贏。

對此,桑德霍爾姆教授持相反的意見。在他看來,冷撲大師在美國打了12萬手牌,在只打了3.6萬手,相較之下仍然存在著較大的波動。許朝軍和童舟,很可能就是冷撲大師在遭遇的波動。

諾姆•布朗補充道:「我們要看很多的牌才知道誰是更強。3.6萬手牌是足夠的樣本,但是每個選手6000手牌,並不是足夠的樣本。」

雖然如此,諾姆•布朗仍然對選手的成績感到驚訝。比賽之前,他預期他們會輸給AI將近100萬美元,他們最後只輸了79萬人民幣。「他們認真研究了戰術,成績比我預期的要好的多。」

許朝軍並不糾結於輿論的壓力。「很榮幸的說,我們是第一批人,可能也是最後一批人去挑戰。我可以跟後代講,當時參加過人機大戰,這個歷史是很有意義的一件事情。」

兩周前,桑德霍爾姆剛剛註冊成立了一家AI創業公司,計劃在不久的未來將Libratus的技術商業化。在他看來,Libratus處理不完整信息的技術,在股票市場、醫療和商業談判等領域都有廣泛的應用場景。在美國,類似的技術已經開始在器官移植領域實驗,AI在捐贈者和受贈者之間進行媒合匹配,提高配對的效率和準確性。

桑德霍爾姆在「自動談判」領域深耕27年。他堅信Libratus的技術將在這一領域有廣泛的應用。因為談判的邏輯與德撲牌局相似,本質上都是利益雙方在信息不對稱情況下進行博弈,最後做出最正確的判斷,令自己的價值最大化。

與阿爾法狗不同,Libratus採用的並不是被AI最受矚目的技術方法「深度學習」,而是更加傳統的「線性規劃」,通過「虛擬遺憾最小化」、「殘局解算器」和「強化自我學習」三個模塊,對不完整信息進行綜合處理分析。外界對於Libratus是阿爾法狗「低配版」的說法是不公平。因為阿爾法狗處理的是完整信息,而Libratus處理的是不完整信息,通過概率的演算尋求最優解。

桑德霍爾姆對於Libratus的應用充滿信心,並給出了一個預期的期限。「如果5年之內還看不到相關的應用我將會感到驚訝。」他告訴36氪。

桑德霍爾姆(左)和杜悅(右)在比賽現場交流

在杜悅看來,桑德霍爾姆顯然是過於樂觀了。他毫不懷疑AI是一個時代性的浪潮,會徹底顛覆人類存在的方式。但這個時代就何時會來臨,現在還未可知。

「大的方向是對的,但真正把冷撲大師的技術運用到商業裡面去,這個難度不亞於再做一個冷撲大師。」 杜悅說。

許朝軍對此有同感:「我們對於新的技術,短期要悲觀一點,長遠要樂觀。」

同樣作為投資人,與李開復不同,杜悅看了大量的AI創業項目,但迄今為止一個都沒有投。在他看來,創業公司做AI是一件成本極其高昂的事。AI研究需要世界級的科學家、海量的大數據和平台的支持。在國內,除非掛靠BAT,作為他們的一部分或是與瓶座合作,普通的創業公司很難接近這些資源,也不會有長久的想象力。

在他看來,當今的AI創業市場甚至有過熱的嫌疑,真正好的投資機會還需要理性評估。「炒作的有點多了,有點過熱。」杜悅說。

但他也同時相信,AI終將會變得無處不在。這需要一個周期,「通常一個大潮來的時候,總是要有泡沫的。」



熱門推薦

本文由 yidianzixun 提供 原文連結

寵物協尋 相信 終究能找到回家的路
寫了7763篇文章,獲得2次喜歡
留言回覆
回覆
精彩推薦