search
尋找貓咪~QQ 地點 桃園市桃園區 Taoyuan , Taoyuan

AlphaGo這麼厲害,你知道它是怎麼工作的嗎?

天才棋手柯潔和AlphaGo連戰三局,柯潔三戰皆敗引發全球矚目。在23日首局戰敗后,AlphaGo之父Demis Hassabis於烏鎮發表演講。暢談人工智慧的未來潛能與人類之間的關係,以下為其演講精華摘要:

2010 年,DeepMind創立於英國倫敦,2014年加入Google,想要做的就是攻克人工智慧。對於DeepMind而言,希望全世界的機器學習科學家能夠結合計算能力,儘快解決人工智慧的問題。另外,DeepMind為了更好的進行研發,創新了組織方式。

Deep Mind的任務可以從分兩步走來看。第一步是要從根本上了解智慧是什麼,然後用人工方法去創造它。接下來就是要通過這種智慧去嘗試解決其他所有問題。我們認為,AI會是人類歷史上最重要的技術發明之一。

在DeepMind,我們常會提到要建立通用型學習系統。最核心的概念就是「學習」,我們開發的所有系統都有學習相關的內核,這種學習系統從實踐經驗和數據中學習,而不需要預先輸入程序化的解決方案。

第二步是要解決AI的通用性問題。單一系統或者演算法組合併不能直接解決各種問題,更不用說以前沒遇到過的問題。這種系統最好的例子就是人腦,我們從某一任務中學習,並相關經驗應用於其他未遇到過的問題,即所謂的舉一反三。

而機器在這方面是有很大問題的,DeepMind就是想賦予機器這種能力。打造這種通用型學習系統涉及到幾項關鍵技術。首先是深度學習,即層迭的神經網路,這個大家都很熟悉了;然後是強化學習,即讓機器自己學習,以達到最大化的收益。

我們將這種具有通用目標的學習系統稱為通用型人工智慧,這與目前所謂的人工智慧是不一樣的,因為目前的人工智慧主要還是預先寫入的程序而已。實際上,打造通用型學習系統,最重要的是要學習。所有演算法都會自動學習,更多的數據和更多的體驗不依賴於預設。

通用型的強人工智慧與弱人工智慧不一樣。最好的例子就是,在90年代末IBM開發的「深藍」(DeepBlue)系統,擊敗了當時頂尖的國際象棋高手卡Garry Kasparov—這在當時是很大的成就。

但深藍終究是一套預先寫入程序的系統,相當於一位頂級程序員在和Kasparov夫對弈,這位程序員嘗試揣摩Kasparov腦子裡在想什麼,並把相應的對策全部編寫到程序里。它不能解答人工智慧之路在哪,只是在執行預先寫入的命令,而不是自己來學習、決策。

然而,人類的大腦學到新的知識后卻可以舉一反三,我們可以用習得的現有經驗解決新的問題,這是機器所不擅長的。所以與之前的相比,我們想要的是能夠自我學習的系統,而這種系統需要在強化學習的框架下來開發。有必要先稍微解釋一下到底什麼是所謂的強化學習。

在人工智慧系統中,有一個我們稱之為Agent的主體,Agent發現它身處某種環境下,並需要完成某些任務。如果周圍的環境是真實世界,Agent可能會是一個機器人;但如果周圍環境是諸如遊戲這類虛擬環境,Agent就可能是一個虛擬形象(Avatar)。

要完成某個任務,Agent會通過兩種方式與環境互動。首先是感測器,DeepMind更多會使用視覺感測器讓機器與環境互動,當然,如果你願意,也可以使用語音、觸覺等方式。

這類Agent通常通過自己的觀察來對環境建模。但是這裡有個問題,真是環境通常是充滿雜訊、干擾、不完整的,所以需要Agent盡最大努力去預測周圍到底是什麼樣的。

一旦這個環境模型建立,就要開始第二步了:如何在這個環境中做出最好的行為決策。當然,行為與環境間的互動可能是成功的,也可能是失敗的,這寫結果都會被實時納入Agent的觀察過程,這也就是強化學習的過程。

這兩年來,AlphaGo團隊專註於圍棋項目。與象棋相比,圍棋更加複雜。對於象棋來說,寫一個評價函數是非常簡單的。另外,圍棋更需要直覺,偉大的旗手往往難以解釋他們為什麼下了這一步棋,象棋選手則可以給一個明確的答案,有時也許不盡如人意,但是起碼選手心中是有清晰的計劃。

相比象棋,圍棋是因為沒有物質性的概念,每一個棋子是等值的,而象棋有由估值的高低的。第二,圍棋是建設性的,需要棋手預測未來進行布局,而象棋往往講究當下的時局。一個棋子怎麼走,一步輸步步輸,一發全身。

那麼我們怎麼寫出這個方程式呢?我們曾經在《Nature》上發布了相關的論文,論文幫助一些國家和公司打造了他們自己版本的AlphaGo。

接下來,我們用比賽來測試更新的系統,比如上一次的李世石與這次柯潔,這兩次比賽都引起了很大的關注。在和李世石的比賽中,AlphaGo贏了。但其實,勝利是很難的,也是很了不起,在AI領域更是這樣,十年磨一劍是常事。

最重要的是我們激發了更多的靈感,AlphaGo打出了好局,和李的比賽中,第二局第37不起令人驚嘆。這是專業人員都難以想象的,已經觸及到下棋的直覺方面。

AlphaGo把圍棋看做客觀的藝術,每下一步棋子都會產生客觀影響,而且它還能下得非常有創意。李世石在比賽中也受到了啟發,他在第四局的第78著也很美妙,因此他贏了一局。

毫無疑問,AlphaGo對戰李世石的影響很大,全世界28億人在關注,3,5000多篇關於此的報導。西方世界開始更多地感受到圍棋這種東方遊戲的魅力,當時圍棋的銷量還漲了10倍。我們很樂意看到西方世界也學習這種遊戲。

而李世石也有新的發現,他在賽后表示,和AlphaGo比賽是其人生最美的體驗,AlphaGo也為創造了圍棋的新範式,李表示他對圍棋的興趣更大了,我開心他這麼說。

回到直覺和創意上。人們通過各種體驗獲得經驗,這是無法繼承,人們接受測試來檢驗他們直覺。AlphaGo已經能模仿直覺。而創造力上,它的一個定義是,整合新的知並創造新的點子或知識,阿狗顯然是有創造力,但這種創造力仍然僅局限於圍棋。

在過去一年中,DeepMind不斷打造AlphaGo,希望能解決科學問題並彌補它的知識空白,我們還將繼續完善它。之後,大師(Master)版本出現了,我們在今年1月進行上線測試,他取得了60連勝,還誕生了很好的點子,它的棋譜被全世界的棋手們研究。例如,AlphaGo打了右下角三三目,這種舉措在之前是不可想象的。

柯潔也說,人類3,000年圍棋歷史,至今沒有一人曾經接近過到圍棋真理的彼岸。但是,人和AI的結合可以解決這個問題。古力也說,人類和AI共同探索圍棋世界的腳步開始了。

我了解到了圍棋大師吳清源的故事,可能AlphaGo也能帶來圍棋的新篇章,就像吳當年為圍棋貢獻的革命性力量一樣。象棋的下法都是策略性的,而AlphaGo能想出非常有戰略性的點子,也給棋手們帶來新點子。

Garry Kasparov出過一本書,描述了他的一個觀點:深藍的時代已經結束了,AlphaGo的時代才剛開始。沒錯,AlphaGo是通用人工智慧,未來我們能看到人機結合的願景,人類是如此有創意的生物,我們可以能在AI的幫助下變得更強大。

AlphaGo是人類的新工具。就像天文學家利用哈勃望遠鏡觀察宇宙一樣,通過AlphaGo,棋手們可以去探索圍棋的未知世界和奧秘。我們發明AlphaGo,也希望能夠推動人類文明進步,更好地了解這個世界。

我們的願景是最優化他,最完美他。就像圍棋3,000年以來都沒有答案,科學、技術、工程等領域也正面臨著同樣的瓶頸,但是,現在有了AI,我們迎來了新的探索機會。

圍棋比賽是我們測試人工智慧的有效平台,但最終目的是把這些演算法應用到更多的領域中。人工智慧(特別是強人工智慧)將是人們探索世界的終極工具。

當今世界面臨著很多挑戰,不少領域本身有著過量的信息和複雜的系統,例如醫療、氣候變化和經濟,即使是領域內的專家也無法應對這些問題。

我們需要解決不同領域的問題,人工智慧是解決這些問題的一個潛在方式,從發現新的材料到新藥物研製治癒疾病,人工智慧可以和各種領域進行排列組合。當然,人工智慧必須在人類道德基準範圍內被開發和利用。

我的理想就是讓AI科學成為可能。另外,我對人類的大腦運作非常感興趣,開發AI的同時,我也了解自己的大腦運作,例如大腦如何產生創意等,這個過程中我也更深入地了解了我自己。

更多智能資訊添加小明評測公眾號:xiaomingpccom



熱門推薦

本文由 yidianzixun 提供 原文連結

寵物協尋 相信 終究能找到回家的路
寫了7763篇文章,獲得2次喜歡
留言回覆
回覆
精彩推薦