search
尋找貓咪~QQ 地點 桃園市桃園區 Taoyuan , Taoyuan

【不依賴離線訓練】為什麼說持續學習才是AI的關鍵

1新智元推薦

【新智元導讀】隨著越來越多的公司開始在不同的環境中進行試驗和部署機器學習,展望一下未來的系統是極好的。

摘要:本文介紹了什麼是持續學習,詳細闡述了持續學習是人工智慧發展的關鍵,以下是譯文

隨著越來越多的公司開始在不同的環境中進行試驗和部署機器學習,展望一下未來的系統是極好的。今天,典型的序列是收集數據,學習一些底層的結構,通過部署一種演算法,系統地捕捉到你學過的東西。收集,準備,和豐富正確的數據 — 特別是訓練數據 —這是必不可少的,應該說收集反饋數據仍然是想要使用機器學習公司的一大瓶頸。

未來的人工智慧系統將依賴於持續學習,而不是離線訓練的演算法。人類以這種方式學習,人工智慧系統也將越來越有能力這樣做。想象一下第一次前往一間辦公室並且被障礙物絆倒。下一次你再去到那個地方 — 也許只是幾分鐘以後 — 你很可能就會知道要當心絆倒你的物體。

有許多應用和場景具有相似探索性質的學習。設想一個Agent與環境相互作用的同時,為了完成一些指定的任務,努力學習採取什麼樣的行動,以及要避免哪些行為。我們已經看到了強化學習(RL)近期的一些應用。在RL中,目標是學習如何將觀察和量度映射到一組動作上,同時試圖最大化一些長期回饋。(RL這個術語經常用來描述一類問題和一組演算法)雖然深度學習獲得了更多的媒體關注,但在大家熟知的AI圈子裡,有許多有趣的關於RL的新事態發展。研究人員最近將RL應用於遊戲,機器人,無人駕駛,對話系統,文本摘要,教育和培訓,以及能源利用。

圖1.強化學習包括學習將觀察和量度映射到行動上。來源:Ben Lorica

正如深度學習正在慢慢成為數據科學家工具集的一部分一樣,類似的情況也正在持續學習上發生。但是為了讓數據科學家參與進來,工具和演算法都需要變得更容易被接受。這將需要一套新的工具和演算法—不同於過去監督學習的工具和演算法。持續學習需要一組工具,這些工具可以運行和分析大量涉及複雜計算圖形的模擬模擬,理想情況下,應該有一個很低的延遲響應時間。

圖2.持續學習的典型工具集(或者「堆棧」)。來源:Ben Lorica.

加州大學伯克利分校RISE實驗室的一個團隊最近發布了一個開源的分散式計算框(Ray),它補充了強化學習所需的其他部分。在像自動駕駛汽車這種複雜的應用中,涉及多種感測器和測量,因此,能夠快速并行地探索和模擬運行將具有極大的優勢。Ray允許用戶運行帶有一個Python API的并行模擬,這對於數據科學家來說更易用(Ray本身主要是由C++語言寫的)。我在RL文章中寫關於Ray的內容,是因為它通常是針對Python用戶的容錯,分散式計算框架。Ray的創建者使其他人很容易使用Python在Ray上編寫和運行自己的演算法,包括常規的機器學習模型。

為什麼需要一個機器學習庫,什麼樣的演算法對持續學習重要?回想一下,在RL中,需要學習如何將觀察和量度映射到一組動作上,同時試圖最大化一些長期回饋。最近RL的成功案例主要使用基於梯度的深度學習,但是研究人員發現了其它的優化策略,比如推演可能會有所幫助。與監督學習不同,你是從訓練數據和客觀目標開始,在RL中僅有稀疏的反饋,因此像神經進化的技能,隨著經典的梯度學習下降而變得更有競爭力。還有其它相關的演算法,可能成為用於持續學習模型標準集合的一部分(例如,最近應用於撲克牌遊戲中最低限度減少悔牌的可能性)。Ray的創建者正在收集一個庫,這個庫實現一組共同的RL演算法,它通過一個簡單Python API的函數變的更容易使用。

大多數公司仍在學習如何使用和部署標準(離線)的機器學習,所以討論持續學習可能是不成熟的。開始這場討論的一個重要原因是,這些技術對於將AI帶入到你的組織是必不可少的。與其他任何新的技術和方法一樣,其出發點是確定用例,在這種情況下,持續學習可能比現有的離線方法更具有優勢。我提供了一些例子,這些例子已經部署了RL或者研究取得了可喜的成果,但是這些例子可能與你的組織運作相去甚遠。一組已經使用強盜演算法(推薦內容或評估產品)的公司可能很快會確認用例,並且成為早期的用戶。用於開發AI教學Agent的技術可能拓展到許多涉及擴張人力的應用領域(包括軟體工程)。

許多公司意識到,在大多數情況下,機器學習模型在部署到生產後不久就開始退化。好消息是許多AI初創公司正在他們的產品中構建持續學習。公司可能在不久的將來開始使用RL。



熱門推薦

本文由 yidianzixun 提供 原文連結

寵物協尋 相信 終究能找到回家的路
寫了7763篇文章,獲得2次喜歡
留言回覆
回覆
精彩推薦