Zi 字媒體

比AlphaGo更神秘，解讀谷歌自學習機器人項目

2021/12/25

編輯：元琛

有這樣一個場景：兩個機器人面對兩扇關著的門，他們向前伸出「手」，但卻完全沒有抓住門把手。於是他們重新開始，這一次他們正面觸到了門把手，還敲響了門框。他們又試一次，又試一次，不斷嘗試。經過幾個小時的試驗和錯誤，最後，他們可以輕鬆地抓住門把手，把門打開。

一直以來，雖然有很多類型的機器人都可以做到這件事，但上面描述的這兩個機器人明顯有所不同：它們由谷歌研發，具備自我學習的能力，是依靠自己學會了「開門」。依靠一種稱為「強化學習」的技術，他們訓練自己執行一個特定的任務，一遍又一遍地重複它，仔細記錄這個過程。大名鼎鼎的圍棋人工智慧AlphaGo正是基於相同的技術原理。現在，它將機器人技術推向了一個全新的領域。

除了幾個視頻和兩篇博客文章外，谷歌拒絕對外透露這項研究。目前已知的是該研究由加利福尼亞大學伯克利分校的機器人學家謝爾蓋·萊文主導。當然，該項目仍處於早期階段。但對於機器行業來說，它顯然代表了一個更寬廣的可能性——機器可以自己學習做事，而不用嚴格遵守工程師預先設計的程序辦事。

人們都希望，強化學習和相關方法可以促進自動機器人的發展。畢竟。這些方法已經成功地促進了純數字領域中許多技術的進步。而隨著上述技術的不斷進步，機器人硬體也在迅速演變。在那些谷歌發布的網路視頻中，機器人的這一改變也被強調提出。諷刺的是，這樣的技術研究完全無視了川普政府要給美國工業帶來更多的工作機會的誓言——美國企業已經用機器人取代了大量的人類工作，而現在研究人員正在研發的自主學習機器無疑將能夠替代更多的人類工作。

Ronnie Vuine與哈佛認知科學家Joscha Bach一起創立了機器人公司Micropsi。「我們感興趣的是能夠與人類互動的機器人，」他說，「想象一下，機器人完成一部分工作后把它交還給人類手中，或者從人類手中領取一部分工作。今天，這樣的設想還未能實現。」

1.試驗和錯誤

強化學習並不是一項全新技術。兩年前，當Google收購倫敦人工智慧實驗室DeepMind並使用這項技術構建以超人力方式玩經典「雅達利」遊戲的系統時，強化學習就已經出現了。這個遊戲需要用一個槳和一個彈跳球來擊倒一堵磚牆，經過訓練學習，DeepMind的AI最終可以令人難以置信地輕鬆通關。

然後，實驗室對人工智慧下圍棋運用了相同的技術，提前計劃十年突破了這項歷史悠久的遊戲。 DeepMind創始人Demis Hassabis和他的團隊將大約3000萬局圍棋記錄植入到機器的深層神經網路 ——這是一種模式識別系統，它能夠通過分析大量的數據來完成學習任務。一旦系統學習了某項遊戲，它就會通過和自己不斷的「對戰」，來達到更高競技水平。

強化學習特別適合遊戲。該技術由「獎勵功能」驅動，系統會自動追蹤哪些動作能夠帶來獎勵，哪些不帶獎勵。在遊戲中，獎勵是顯而易見的：更多的積分。但是在現實生活中，獎勵功能有時不太明顯，有時則會更多。比如，對於谷歌的機器人來說，獎勵就是成功打開門。

2.廣闊新天地

當然，打開門只是進入新世界的一小步。要實現更遠大的目標，對於研究項目來說正變得極為複雜、需要極速更新，更不用說也是極為昂貴的。這就解釋了一大疑問：為什麼許多研究人員在將強化學習應用到現實世界，以改進機器人的遊戲能力之前，要使用數字模擬來進行探索。

比如OpenAI，它是由埃隆·馬斯克投入十億美元創建的人工智慧實驗室。它構建了一個名為Universe的掃描軟體平台，其中AI「代理」可以使用強化學習來掌握從遊戲到Web瀏覽器的各種計算機應用程序。在理論上，這可以幫助實現現實生活中的智能操作代理。如果你能教一個AI玩一個駕駛遊戲，同理，你可以教會它開車。

Prowler.io是英國劍橋的一家創業公司，它正沿著同樣的道路前進。今天，這個小團隊的研究人員正在建立可以學習指導大型多人遊戲《虛擬世界》的代理。但隨著時間的推移，他們計劃將這項工作擴展到現實世界中的機器人和無人駕駛汽車。

當今，真正的無人駕駛汽車不應該是具體的如何操作問題，不應是基於工程師編製的那一套龐大的規則做出決定。因為這並非是真正的自動駕駛，並非是真正的自主決策。 Prowler的創始人兼CEO Vishal Chatrath將他以前的AI公司賣給了蘋果公司，他認為強化學習和相關技術對於建設真正的無人駕駛汽車至關重要 ——汽車自己可以做一切人類駕駛者能做的事情。

在柏林，如同Google一樣，Micropsi已經將這些技術推廣到現實中。該公司成立於2014年，著眼於為製造業及其他工業目的來製造機器人。它首先建立了機器人模擬系統，通過強化學習進行訓練。公司網站上的視頻展示了這樣一個系統：一個虛擬機器人手臂正學慣用虛擬手指的指尖來使虛擬桿保持平衡。該系統模擬重力和機器人動作，並且獎勵功能自動追蹤該虛擬桿掉落與否。「為使虛擬桿不掉落，我們每秒鐘給機器人一個cookie，」Vuine說。「如果桿掉了，就懲罰它。」現在，公司正在將這些相同的技術應用到一個稱為通用機器人的現實機器上。

3.現實的問題

麻煩的是，現實世界也需要新技術。Vuine聲稱他的公司可以解決計算機模擬中出現的任何機器人問題，但模擬畢竟只是模擬，並非現實。「如果你在模擬中做到了，那麼在現實中也不一定可以做到，」他承認這一點，「現實情況很難完全模擬出來。」換句話說，你可以通過模擬來構建一個能夠保持虛擬桿平衡的機器人，但是要教它將插頭插入插座，則需要真正的插頭和插座。」

由於有一個明顯並簡單的獎勵機制，將插頭插入插座的任務無疑十分容易。然而，現實中的大多數行為更難以評價。當你將諸多任務串在一起時，這些獎勵系統會變得非常複雜。 Carnegie Mellon研究員Abhinav Gupta正在使用來自Google的資金探索類似技術，希望解決如何在短期內有效地使用強化學習的問題。

Chatrath認為，至少現在，要現實世界中真正應用AI，最好方法是先通過那些小而簡單的機器實現，比如說玩具。這一設想的原理很簡單：系統可以通過學習使用簡單的機器，將他們所學到的應用到更複雜的機器上。很明顯，機器人不只是有一種學習方式。他們的學習方法有很多。

機器們已經開始學習了。

桃園 qq 地點貓咪桃園市 taoyuan xuan 根部尾巴有大桃園旅遊景點