Zi 字媒體

【不依賴離線訓練】為什麼說持續學習才是AI的關鍵

2021/12/25

1新智元推薦

【新智元導讀】隨著越來越多的公司開始在不同的環境中進行試驗和部署機器學習，展望一下未來的系統是極好的。

摘要：本文介紹了什麼是持續學習，詳細闡述了持續學習是人工智慧發展的關鍵，以下是譯文

隨著越來越多的公司開始在不同的環境中進行試驗和部署機器學習，展望一下未來的系統是極好的。今天，典型的序列是收集數據，學習一些底層的結構，通過部署一種演算法，系統地捕捉到你學過的東西。收集，準備，和豐富正確的數據 — 特別是訓練數據 —這是必不可少的，應該說收集反饋數據仍然是想要使用機器學習公司的一大瓶頸。

未來的人工智慧系統將依賴於持續學習，而不是離線訓練的演算法。人類以這種方式學習，人工智慧系統也將越來越有能力這樣做。想象一下第一次前往一間辦公室並且被障礙物絆倒。下一次你再去到那個地方 — 也許只是幾分鐘以後 — 你很可能就會知道要當心絆倒你的物體。

有許多應用和場景具有相似探索性質的學習。設想一個Agent與環境相互作用的同時，為了完成一些指定的任務，努力學習採取什麼樣的行動，以及要避免哪些行為。我們已經看到了強化學習（RL）近期的一些應用。在RL中，目標是學習如何將觀察和量度映射到一組動作上，同時試圖最大化一些長期回饋。（RL這個術語經常用來描述一類問題和一組演算法）雖然深度學習獲得了更多的媒體關注，但在大家熟知的AI圈子裡，有許多有趣的關於RL的新事態發展。研究人員最近將RL應用於遊戲，機器人，無人駕駛，對話系統，文本摘要，教育和培訓，以及能源利用。

圖1.強化學習包括學習將觀察和量度映射到行動上。來源：Ben Lorica

正如深度學習正在慢慢成為數據科學家工具集的一部分一樣，類似的情況也正在持續學習上發生。但是為了讓數據科學家參與進來，工具和演算法都需要變得更容易被接受。這將需要一套新的工具和演算法—不同於過去監督學習的工具和演算法。持續學習需要一組工具，這些工具可以運行和分析大量涉及複雜計算圖形的模擬模擬，理想情況下，應該有一個很低的延遲響應時間。

圖2.持續學習的典型工具集（或者「堆棧」）。來源：Ben Lorica.

加州大學伯克利分校RISE實驗室的一個團隊最近發布了一個開源的分散式計算框（Ray）,它補充了強化學習所需的其他部分。在像自動駕駛汽車這種複雜的應用中，涉及多種感測器和測量，因此，能夠快速并行地探索和模擬運行將具有極大的優勢。Ray允許用戶運行帶有一個Python API的并行模擬，這對於數據科學家來說更易用（Ray本身主要是由C++語言寫的）。我在RL文章中寫關於Ray的內容，是因為它通常是針對Python用戶的容錯，分散式計算框架。Ray的創建者使其他人很容易使用Python在Ray上編寫和運行自己的演算法，包括常規的機器學習模型。

為什麼需要一個機器學習庫，什麼樣的演算法對持續學習重要？回想一下，在RL中，需要學習如何將觀察和量度映射到一組動作上，同時試圖最大化一些長期回饋。最近RL的成功案例主要使用基於梯度的深度學習，但是研究人員發現了其它的優化策略，比如推演可能會有所幫助。與監督學習不同，你是從訓練數據和客觀目標開始，在RL中僅有稀疏的反饋，因此像神經進化的技能，隨著經典的梯度學習下降而變得更有競爭力。還有其它相關的演算法，可能成為用於持續學習模型標準集合的一部分（例如，最近應用於撲克牌遊戲中最低限度減少悔牌的可能性）。Ray的創建者正在收集一個庫，這個庫實現一組共同的RL演算法，它通過一個簡單Python API的函數變的更容易使用。

大多數公司仍在學習如何使用和部署標準（離線）的機器學習，所以討論持續學習可能是不成熟的。開始這場討論的一個重要原因是，這些技術對於將AI帶入到你的組織是必不可少的。與其他任何新的技術和方法一樣，其出發點是確定用例，在這種情況下，持續學習可能比現有的離線方法更具有優勢。我提供了一些例子，這些例子已經部署了RL或者研究取得了可喜的成果，但是這些例子可能與你的組織運作相去甚遠。一組已經使用強盜演算法（推薦內容或評估產品）的公司可能很快會確認用例，並且成為早期的用戶。用於開發AI教學Agent的技術可能拓展到許多涉及擴張人力的應用領域（包括軟體工程）。

許多公司意識到，在大多數情況下，機器學習模型在部署到生產後不久就開始退化。好消息是許多AI初創公司正在他們的產品中構建持續學習。公司可能在不久的將來開始使用RL。

桃園 qq 地點貓咪桃園市 taoyuan xuan 根部尾巴有大桃園旅遊景點