search
強化學習:2017年10大突破性技術之一

強化學習:2017年10大突破性技術之一

在一項簡單的計算機模擬中,一組無人駕駛汽車正在四車道的虛擬高速公路上,進行一場瘋狂的演習。這組汽車中有一半試圖從右側車道上移動到中間,與此同時,另一半的車輛也試圖從左側合併。這看似是一件很棘手的事情,但這些無人駕駛車輛卻精確地做到了。

這是去年12月,在巴塞羅那舉行的人工智慧大會上的駕駛模擬場景。最令人驚訝的是,從傳統意義上講,這個管理車輛行為的軟體並沒有進行編程。它「學會」了如何通過練習來熟練、安全且簡單地進行汽車合併。在訓練過程中,控制軟體一次次地進行操控,且每次嘗試都在一點點地改變指令。大多數時候,汽車合併的速度太慢,並且汽車之間會相互干擾。但當汽車順利合併時,該系統就會學習導向成功的相應行為。

這種方法叫「強化學習」。

阿爾法圍棋(AlphaGo)是第一個擊敗人類職業圍棋選手、第一個戰勝圍棋世界冠軍的人工智慧程序,由谷歌旗下DeepMind公司戴密斯·哈薩比斯(Demis Hassabis)領銜的團隊開發。在很大程度上,阿爾法圍棋(AlphaGo)的工作原理即強化學習

如今,強化學習可能很快將會被應用到除遊戲以外的其他領域中。除了用於改進無人駕駛汽車外,這項技術還可以讓機器人抓取它以前從未見過的物體,並能在數據中心找到該設備的最佳配置。

強化學習

突破性進展:

強化學習是一種人工智慧的方法,它能讓計算機像人一樣學習,整個學習過程卻無需人類的明確指令。

為什麼深度學習至關重要?

如果機器不能通過經驗學習和掌握技能,無人駕駛汽車和其他自動化領域的進步將明顯放緩。

涉及深度學習的核心公司:

  • Deepmind
  • 移動眼(Moblieye)
  • OpenAI
  • 谷歌(Google)
  • 優步(Uber)

可用期:

1-2年

來自劍橋大學(University of Cambridge)的大學生西爾弗(Silver)對人工智慧非常著迷,他解釋了為什麼最近強化學習變得如此強大。他說,關鍵在於,將強化學習與深度學習結合起來(深度學習技術是一種能夠利用非常大的模擬神經網路來識別數據模式的技術)。

強化學習之所以能起作用,是因為研究人員想出了如何讓計算機計算出應該分配到的價值。比如,一隻老鼠在走出迷宮的過程中,可能做出正確或錯誤的轉彎。每個值都被存儲下來,計算機在學習過程中會對所有這些值進行更新。對於大而複雜的任務,利用這種方式進行計算就會顯得不切實際。然而,近年來,事實證明,深度學習已經是用來識別數據中模式的一種非常有效的方式。

來自谷歌的研究人員與DeepMind合作,利用深度強化學習,使其數據中心更節能。人們很難弄清楚,數據中心的所有元素如何影響電量使用,但強化學習演算法能從排序數據和模擬實驗中學習,比如,如何以及何時運行冷卻系統。

你可能注意到,這個軟體中有一項非常人性化的行為設置應用於無人駕駛汽車。在涉及到與人類司機互動的複雜情況下(比如交通轉盤或四道站點),目前的無人駕駛汽車往往無法順利通行。如果我們希望無人駕駛汽車更加安全,就需要令它們獲得更多細緻入微的駕駛技能,比如在一群車輛中安全地爭奪車道。

移動眼公司(Mobileye)計劃將於今年下半年,在與寶馬和英特爾合作的車隊中測試該軟體。谷歌和優步均表示,他們也在測試無人駕駛汽車的強化學習技方法。

斯坦福大學(Stanford University)專門研究深度學習方法的助理教授艾瑪•布倫基爾(Emma Brunskill)表示,強化學習正被應用到越來越多的領域。她還表示,深度學習很適合應用在自動駕駛領域,因為它能「很好地做出決定」。如果程序員事先把所有這些決定編碼到汽車上,那麼進展就會慢得多。

但是,也有一些挑戰需要克服。科學家吳恩達(Andrew Ng)曾表示,這種方法需要應用大量數據,且其中許多成功都是在計算機在模擬中進行持續練習而出現的。

事實上,研究人員還在研究如何在複雜的情況下進行強化學習,其中這些複雜情況包含多個干擾目標。移動眼公司不得不調整其協議,只有這樣,善於避免事故的無人駕駛汽車才不容易為他人造成事故。今年下半年,也許在你附近的高速公路上,強化學習將會開展迄今為止最激動人心也最重要的測試。

熱門推薦

本文由 一點資訊 提供 原文連結

一點資訊
寫了5860316篇文章,獲得23261次喜歡
留言回覆
回覆
精彩推薦