Zi 字媒體

AlphaGo這麼厲害，你知道它是怎麼工作的嗎？

2021/12/25

天才棋手柯潔和AlphaGo連戰三局，柯潔三戰皆敗引發全球矚目。在23日首局戰敗后，AlphaGo之父Demis Hassabis於烏鎮發表演講。暢談人工智慧的未來潛能與人類之間的關係，以下為其演講精華摘要：

2010 年，DeepMind創立於英國倫敦，2014年加入Google，想要做的就是攻克人工智慧。對於DeepMind而言，希望全世界的機器學習科學家能夠結合計算能力，儘快解決人工智慧的問題。另外，DeepMind為了更好的進行研發，創新了組織方式。

Deep Mind的任務可以從分兩步走來看。第一步是要從根本上了解智慧是什麼，然後用人工方法去創造它。接下來就是要通過這種智慧去嘗試解決其他所有問題。我們認為，AI會是人類歷史上最重要的技術發明之一。

在DeepMind，我們常會提到要建立通用型學習系統。最核心的概念就是「學習」，我們開發的所有系統都有學習相關的內核，這種學習系統從實踐經驗和數據中學習，而不需要預先輸入程序化的解決方案。

第二步是要解決AI的通用性問題。單一系統或者演算法組合併不能直接解決各種問題，更不用說以前沒遇到過的問題。這種系統最好的例子就是人腦，我們從某一任務中學習，並相關經驗應用於其他未遇到過的問題，即所謂的舉一反三。

而機器在這方面是有很大問題的，DeepMind就是想賦予機器這種能力。打造這種通用型學習系統涉及到幾項關鍵技術。首先是深度學習，即層迭的神經網路，這個大家都很熟悉了；然後是強化學習，即讓機器自己學習，以達到最大化的收益。

我們將這種具有通用目標的學習系統稱為通用型人工智慧，這與目前所謂的人工智慧是不一樣的，因為目前的人工智慧主要還是預先寫入的程序而已。實際上，打造通用型學習系統，最重要的是要學習。所有演算法都會自動學習，更多的數據和更多的體驗不依賴於預設。

通用型的強人工智慧與弱人工智慧不一樣。最好的例子就是，在90年代末IBM開發的「深藍」(DeepBlue)系統，擊敗了當時頂尖的國際象棋高手卡Garry Kasparov—這在當時是很大的成就。

但深藍終究是一套預先寫入程序的系統，相當於一位頂級程序員在和Kasparov夫對弈，這位程序員嘗試揣摩Kasparov腦子裡在想什麼，並把相應的對策全部編寫到程序里。它不能解答人工智慧之路在哪，只是在執行預先寫入的命令，而不是自己來學習、決策。

然而，人類的大腦學到新的知識后卻可以舉一反三，我們可以用習得的現有經驗解決新的問題，這是機器所不擅長的。所以與之前的相比，我們想要的是能夠自我學習的系統，而這種系統需要在強化學習的框架下來開發。有必要先稍微解釋一下到底什麼是所謂的強化學習。

在人工智慧系統中，有一個我們稱之為Agent的主體，Agent發現它身處某種環境下，並需要完成某些任務。如果周圍的環境是真實世界，Agent可能會是一個機器人；但如果周圍環境是諸如遊戲這類虛擬環境，Agent就可能是一個虛擬形象(Avatar)。

要完成某個任務，Agent會通過兩種方式與環境互動。首先是感測器，DeepMind更多會使用視覺感測器讓機器與環境互動，當然，如果你願意，也可以使用語音、觸覺等方式。

這類Agent通常通過自己的觀察來對環境建模。但是這裡有個問題，真是環境通常是充滿雜訊、干擾、不完整的，所以需要Agent盡最大努力去預測周圍到底是什麼樣的。

一旦這個環境模型建立，就要開始第二步了：如何在這個環境中做出最好的行為決策。當然，行為與環境間的互動可能是成功的，也可能是失敗的，這寫結果都會被實時納入Agent的觀察過程，這也就是強化學習的過程。

這兩年來，AlphaGo團隊專註於圍棋項目。與象棋相比，圍棋更加複雜。對於象棋來說，寫一個評價函數是非常簡單的。另外，圍棋更需要直覺，偉大的旗手往往難以解釋他們為什麼下了這一步棋，象棋選手則可以給一個明確的答案，有時也許不盡如人意，但是起碼選手心中是有清晰的計劃。

相比象棋，圍棋是因為沒有物質性的概念，每一個棋子是等值的，而象棋有由估值的高低的。第二，圍棋是建設性的，需要棋手預測未來進行布局，而象棋往往講究當下的時局。一個棋子怎麼走，一步輸步步輸，一發全身。

那麼我們怎麼寫出這個方程式呢？我們曾經在《Nature》上發布了相關的論文，論文幫助一些國家和公司打造了他們自己版本的AlphaGo。

接下來，我們用比賽來測試更新的系統，比如上一次的李世石與這次柯潔，這兩次比賽都引起了很大的關注。在和李世石的比賽中，AlphaGo贏了。但其實，勝利是很難的，也是很了不起，在AI領域更是這樣，十年磨一劍是常事。

最重要的是我們激發了更多的靈感，AlphaGo打出了好局，和李的比賽中，第二局第37不起令人驚嘆。這是專業人員都難以想象的，已經觸及到下棋的直覺方面。

AlphaGo把圍棋看做客觀的藝術，每下一步棋子都會產生客觀影響，而且它還能下得非常有創意。李世石在比賽中也受到了啟發，他在第四局的第78著也很美妙，因此他贏了一局。

毫無疑問，AlphaGo對戰李世石的影響很大，全世界28億人在關注，3,5000多篇關於此的報導。西方世界開始更多地感受到圍棋這種東方遊戲的魅力，當時圍棋的銷量還漲了10倍。我們很樂意看到西方世界也學習這種遊戲。

而李世石也有新的發現，他在賽后表示，和AlphaGo比賽是其人生最美的體驗，AlphaGo也為創造了圍棋的新範式，李表示他對圍棋的興趣更大了，我開心他這麼說。

回到直覺和創意上。人們通過各種體驗獲得經驗，這是無法繼承，人們接受測試來檢驗他們直覺。AlphaGo已經能模仿直覺。而創造力上，它的一個定義是，整合新的知並創造新的點子或知識，阿狗顯然是有創造力，但這種創造力仍然僅局限於圍棋。

在過去一年中，DeepMind不斷打造AlphaGo，希望能解決科學問題並彌補它的知識空白，我們還將繼續完善它。之後，大師(Master)版本出現了，我們在今年1月進行上線測試，他取得了60連勝，還誕生了很好的點子，它的棋譜被全世界的棋手們研究。例如，AlphaGo打了右下角三三目，這種舉措在之前是不可想象的。

柯潔也說，人類3,000年圍棋歷史，至今沒有一人曾經接近過到圍棋真理的彼岸。但是，人和AI的結合可以解決這個問題。古力也說，人類和AI共同探索圍棋世界的腳步開始了。

我了解到了圍棋大師吳清源的故事，可能AlphaGo也能帶來圍棋的新篇章，就像吳當年為圍棋貢獻的革命性力量一樣。象棋的下法都是策略性的，而AlphaGo能想出非常有戰略性的點子，也給棋手們帶來新點子。

Garry Kasparov出過一本書，描述了他的一個觀點：深藍的時代已經結束了，AlphaGo的時代才剛開始。沒錯，AlphaGo是通用人工智慧，未來我們能看到人機結合的願景，人類是如此有創意的生物，我們可以能在AI的幫助下變得更強大。

AlphaGo是人類的新工具。就像天文學家利用哈勃望遠鏡觀察宇宙一樣，通過AlphaGo，棋手們可以去探索圍棋的未知世界和奧秘。我們發明AlphaGo，也希望能夠推動人類文明進步，更好地了解這個世界。

我們的願景是最優化他，最完美他。就像圍棋3,000年以來都沒有答案，科學、技術、工程等領域也正面臨著同樣的瓶頸，但是，現在有了AI，我們迎來了新的探索機會。

圍棋比賽是我們測試人工智慧的有效平台，但最終目的是把這些演算法應用到更多的領域中。人工智慧(特別是強人工智慧)將是人們探索世界的終極工具。

當今世界面臨著很多挑戰，不少領域本身有著過量的信息和複雜的系統，例如醫療、氣候變化和經濟，即使是領域內的專家也無法應對這些問題。

我們需要解決不同領域的問題，人工智慧是解決這些問題的一個潛在方式，從發現新的材料到新藥物研製治癒疾病，人工智慧可以和各種領域進行排列組合。當然，人工智慧必須在人類道德基準範圍內被開發和利用。

我的理想就是讓AI科學成為可能。另外，我對人類的大腦運作非常感興趣，開發AI的同時，我也了解自己的大腦運作，例如大腦如何產生創意等，這個過程中我也更深入地了解了我自己。

更多智能資訊添加小明評測公眾號：xiaomingpccom

桃園 qq 地點貓咪桃園市 taoyuan xuan 根部尾巴有大桃園旅遊景點