Zi 字媒體

帶著公關任務的AlphaGo，混江湖的面子與裡子

2021/12/25

徐浩峰導演的《師父》，描述的是這樣一個故事：詠春拳的唯一傳人陳識來到北方武林中心天津，希望在天津開一家武館把詠春這門絕學發揚光大。天津武林卻容不下他，擺下橫豎規矩的同時，還想讓陳識把真功夫交出來。

忍無可忍的拳師最後表示，那我乾脆把你們都打趴下唄。

雖然劇情邏輯完全不一樣，但這幾天打敗柯潔和各路圍棋高手的AlphaGo，總讓我想起《師父》的這段故事。區別在於電影里拳師是處處留面子，最後忍不下去才打敗所有高手；而AlphaGo是一開始就註定要打敗高手們，但同時要處處留面子……或許僅此而已。

同樣的高手挑戰，同樣的按規矩拜碼頭，同樣的內藏錦繡和心照不宣——在極其和諧且去商業化的對抗賽+表演賽+演講+論壇+媒體報道里，AlphaGo在其樂融融的氣氛里完成了對市場以及網民的一次大公關，同時宣告基本完成了AI+棋牌領域的基礎探索。

更加巧妙的是，DeepMind和谷歌團隊還順勢玩了一回「內容電商」，把幾個剛剛在谷歌開發者大會上重點布局的產品做了次順勢推銷。實力是真的，一舉三得也是真的。

《一代宗師》里說，有人活成了面子，有人活成了裡子，面子敬人一支煙，裡子可能就要除掉一個人。這次AlphaGo的立館之戰，恐怕也有面子與裡子的分別。

當然，這裡並沒有反對這次人機賽盛宴的意思，相反，這樣的比賽和套路恐怕越多越好。但是太多的套路確實讓我們很難看清AlphaGo帶來的最珍貴价值。畢竟求棋道是少數人的事，AlphaGo的核心卻可能關乎更多。

AI+圍棋的公關任務：精準、厚道、有套路的拜碼頭

不妨先來聊聊這次AlphaGo之行的實質。開賽前，我們就被關於限制報道此次比賽的新聞刷了屏。但是圍觀幾天之後會發現，谷歌和DeepMind團隊這些人尖子何嘗不了解官方的要求和立場？

甚至比想象中更多，AlphaGo團隊在一言一行上彷彿都受過某種訓練，不僅照顧了官方情感，還對網民的喜好瞭若指掌。

比如DeepMind創始人Demis Hassabis就在接受採訪和主題演講中，反覆提及圍棋這門運動本身的偉大和藝術性，談論其如同探索宇宙一樣的價值與魅力。並且還不忘記藉助圍棋讚美本身的偉大和歷史悠久。當然了，表示未來願意在華開展更多合作也是必須的。

除了情商在線的發言外，AlphaGo團隊的陣容齊整，誠意拳拳也令人感嘆。要知道，DeepMind是家以高冷著稱的科技公司。三位創始人基本不同時露面，而這次不僅三人同時到場，還拉上谷歌高管一起，想聊未來聊未來，想說技術說技術，說市場說營銷也有人陪著你。總之是實力拒絕一切暴力挑事兒。

此外，對柯潔與AlphaGo之戰的態度也耐人尋味。第一局柯潔半目惜敗，AlphaGo團隊還馬上澄清沒有讓棋，第二局Demis Hassabis直接表示柯潔表現幾乎完美，想來第三局即使不是柯潔勝，也應該會有更加「厚道」的贏棋方式。

這個劇情不由得聯想到《師父》里的天津比武：你贏不了就不能開武館，但你贏的不給面子，抱歉，那還是不能開……

谷歌的面子：TPU、谷歌雲和TensorFlow

在非常給，甚至可以說給人類面子的前提下，谷歌也一舉滿足了自己的面子。

我們可以整體看一下這幾天科技媒體刷屏報道的人機大戰關鍵詞。會發現一些邏輯上可能不應該出現的高頻辭彙出現了。

比如說：TPU

作為谷歌專門為機器學習量身定製的處理器，Tensor Processing Unit，簡稱TPU，自打誕生之日起就是谷歌的掌上明珠。在剛剛結束的谷歌開發者大會上，還重點披露了二代TPU的情報和數值。雖然僅有照片，但還是作為了大量發布產品與項目中的核心拿來展示。

要知道，TPU在戰略意義上彰顯了谷歌從產品與計算服務為主導的公司，向著硬體+計算+產品的全流程邁進。谷歌幾次明確了AI first戰略，而專為AI提供的晶元處理器，價值不言自明。

按理說，與李世乭對弈的AlphaGo當中就已經使用了TPU驅動計算，而在這次與柯潔對弈版本中，TPU的使用只是數量上減少了，並沒有在硬體計算能力上得到何種改變。應該不能算作AlphaGo升級的重大變化。

但在DeepMind創始人與谷歌相關負責人分享的演講，以及回答記者提問過程中。TPU卻被彷彿提及，描繪成AlphaGo計算力的核心。按理說，這次的AlphaGo特徵是對計算的需求量大大減少，玩命吹應用的處理器彷彿有哪裡不對….但他們就是這麼幹了。這就是面子。谷歌的面子。

人在屋檐下，自然要低頭。無論你是技術天才還是理想主義者，拿了谷歌的收購款自然要為谷歌服務。

事實上，目前TPU的市場應用價值還有待考量。

首先這是個不外售產品，只能通過購買谷歌雲的服務來獲得TPU的計算能力。而另一方面，作為專門為旗下機器學習平台TensorFlow量身打造的晶元，TPU在處理其他平台演算法以及其他機器學習計算網路時展現的效率還在經受質疑。

這次烏鎮峰會上，DeepMind聯合創始人之一David Silver在演講中特意強調「TPU 像 CPU 或 GPU一樣都是可編程的。它並不專為某個神經網路模型設計，可以在多種網路上執行 CISC 指令，比如卷積神經網路、LSTM 模型、大型全連接模型等」。

但事實上，針對一代TPU的測試數值來看，LSTM模型的運轉效率還相當低，遠比不上卷積神經網路的運算速度。這也是為什麼以機器學習硬體為核心的英偉達似乎始終對TPU有著某種不屑：畢竟AI之路千萬條，大家不可能都在TensorFlow上走。

但是顯然，谷歌是希望將TensorFlow的平台、谷歌雲的雲服務和TPU的運算能力打包給更多企業的。這樣近乎於整個AI應用產業的命脈都在谷歌手裡。

這種想法目前有些不現實，畢竟TPU的適應度還太狹窄，創業公司選擇GPU就夠了。而大公司怎麼可能把身家性命都交給谷歌？

所以說，人機大戰中谷歌賺足的「面子」，其實是由各種各樣的「裡子」撐起來的。

AlphaGo的裡子：半掩半遮的低耗高擬態演算法

那麼，到底什麼是撐著谷歌面子的、AlphaGo真正的「裡子」呢？

從邏輯上講，這個裡子就是能夠讓新版本的AlphaGo毫不留情的秒殺舊版本，輕鬆寫意戰勝人類的深層原因。

這幾天比賽中，有個概念突然火起來了，就是圍棋當中的「讓字」。非常詭異的是，大家彷彿都認為讓幾字對應著實力高出幾個等級。事實上，圍棋當中的「讓子勝」絕不是以數字來計算棋力的。

每多讓一子，被讓子者將會獲得巨大的優勢。一般來說最多能讓四子，而讓四子基本就是專業棋手跟入門棋手的教學賽了。這次出戰的AlphaGo能不能對人類選手讓子勝不得而知，但如果它能夠對舊版的AlphaGo讓三子，那說明棋力已經有了等級上的進化。

這個進化的核心實力來自什麼呢？顯然不是來自運算速度的加快和數據處理量的加大。根據Demis Hassabis的說明，「本次對弈的新版 AlphaGo計算量小了十倍，自我對弈能力更強，運行起來更簡單，更好，功耗也更小。」

而這個神秘效果或許來源於幾個能力。最核心的就是AlphaGo改良了蒙特卡洛樹搜索演算法。這種演算法的本質，是在完全信息博弈的情況下採用不斷窮舉極大值與極小值，在根據數據結果來匹配能達成玩家目標的搜索結果。順著搜索樹上升，最終達到最優結果。

這個演算法是AlphaGo初代時就開始採用的機器學習演算法。但這個演算法的缺點在於對於博弈目標需要的運算量會非常龐大，如果不加以限制，很可能出現暴力窮舉的運算方式。這對於圍棋顯然是不智的。

而解決運算量問題的方式就是通過卷積神經網路，使用策略網路與價值網路對舉的方式來確定運動方向，這樣就幾大減少了搜索樹的運算量與運算時間。據說，這一版本的AlphaGo策略網路/價值網路構成的精神網路由12層增加到了40層，這其中蘊含的也絕不僅僅是數量上的增加，而應該是更複雜的演算法邏輯在起作用。

初代AlphaGo對人類棋譜的大量學習完畢，也給版本進化提供了有力基礎。這一版本的AlphaGo更多採取自我對弈的方式來完成強化學習，輔助以少量人類棋譜。顯然會在優質數據搜索上更上一層樓，也更加無法被人類預判。

同時這次的AlphaGo雖然依舊是使用監督學習與增強學習結合的訓練手段，但應該已經達成了部分無監督學習。這很可能是master連勝60局時很多奇招和布局感的來源。

簡單來說吧，AlphaGo的「裡子」在於它使用了全面改進的演算法和優質數據源，雖然目前資料甚少，我們還無法窺探其究竟。但AlphaGo通過多種演算法邏輯、訓練邏輯與學習資源相結合，讓機器獲得了近乎於直覺和創造力的東西，恐怕才是它傳達出的最重要信息。

雖然這個信息包裹在層層商業目的和新聞噱頭的背後，但還是有必要把它找出來……因為……我也不知道因為什麼，但這裡似乎可以再引用一句《一代宗師》：功夫只有兩個字，一橫一豎，對的站著，錯的躺下。

——AI也是如此。

桃園 qq 地點貓咪桃園市 taoyuan xuan 根部尾巴有大桃園旅遊景點