Zi 字媒體

【無監督學習】我們如何教人類嬰兒學習，也如何教AI

2021/12/25

yidianzixun

1 新智元編譯

【新智元導讀】這篇文章討論了在深度學習中為什麼高質量、有標籤的數據如此重要，從哪裡得到這些數據，以及如何有效使用它們。作者最後提出，解決訓練數據缺乏的方法可以是不去依賴它們，深度學習的未來可以朝著無監督學習的方向努力。

深度學習的一個主要組成部分是數據——用於訓練神經網路的圖像、視頻、電子郵件、駕駛模式、話語、對象等等。

令人驚訝的是，儘管我們的世界幾乎被數據淹沒——目前每天產生約2.5萬億位元組的數據，但大部分是沒有標記或非結構化的，這意味著對當前大部分監督學習形式來說，這些數據是不可用的。深度學習尤其依賴良好、結構化、且有標記的數據。

本文中，我們將討論為什麼高質量、有標記的數據如此重要，從哪裡得到這些數據，如何使用它們，以及在短期內機器學習可以期待什麼樣的解決方案。

數據被饋送給神經網路，這些網路能夠快速對數據進行分析，甚至提純。這個過程被稱為監督學習，因為提供給機器的大量數據是已經提前精心標記過的。例如，為了訓練一個能夠識別蘋果或橘子的圖像的神經網路，需要餵給它已經分別標記為蘋果或橘子的圖像。通過找到所有被標記為蘋果或橘子的圖像的共同特徵，機器能夠理解數據，從而使用從這些數據中發現的模式去識別新的圖像。它們得到的有標籤圖像越多，數據集越大、越多樣化，它們的預測準確性就越高。也就是說，熟能生巧。

這種方法在教機器有關視覺的任務方面十分有效，例如如何從圖像、視頻、圖形、手寫字體等數據中識別出任何東西。現在機器在一些任務中達到甚至超越人類水平已經非常常見，尤其是在圖像識別應用中。例如，Facebook的人臉識別系統準確率已經達到97%，而谷歌今年初發布一個用於在醫學圖像中發現惡性腫瘤的神經網路，其準確率比病理學家更高。

與監督學習相對的是無監督學習。無監督學習的想法是，讓機器潛入數據的海洋中，自己去發現和體驗，尋找模式和關聯，並得出結論，這個過程不需要人的指導。

這種技術長期以來不被一部分人工智慧科學家看好，但是，在2012年，谷歌展示了一個能從大量未標記圖像中識別出貓，臉，以及其他物體的深度神經網路。這一技術非常令人印象深刻，併產生了一些非常有趣或者有用的結果，但到目前為止，在許多任務中無監督學習的準確率和有效性仍不及監督學習。

將機器與人類嬰兒進行比較是有用的。我們知道，人類嬰兒即使沒有得到指導，他也會學習，但他學的不一定是我們希望他學的，他也不是以我們可以預測的方式學習。但實際上我們是通過指導來教嬰兒學習的，我們需要將嬰兒暴露在大量的物體和概念，以及無限的主題中。

我們需要教會嬰兒有關方向、動物和植物、重力和其他物理性質、閱讀和語言、食物的類型和元素，等等的知識——有關存在的一切概念。隨著嬰兒漸漸長大，所有這些概念都可以通過「指示——說明」的方式解釋，以及通過回答孩子們無窮無盡的問題教給他們。

這是十分艱巨的任務，但大多數父母，以及小孩們周圍的人每天都在這樣做。神經網路也有如同人類嬰兒的需求，但它的關注點通常較為狹窄，我們並不是真的與它交互，因此它要求的標籤要更加精確。

當前，AI研究者和科學家們通過多種方式獲取數據來訓練他們的機器。第一種方式是自己去收集數據，創建一個巨大的有標籤數據集。這是谷歌、亞馬遜、百度、蘋果、微軟、Facebook等大公司的做法，他們的共同點是擁有大量的業務，能夠產生驚人的數據量。

嘗試在這裡列舉所有內容是不現實的，試想一下上傳到這些公司的雲存儲空間的數以十億計的帶標籤或標記的圖像，以及所有文檔，搜索查詢（通過語音，文本，圖像和光學字元識別），位置數據和地圖，評級、喜好和共享內容，購物信息，發貨地址，電話號碼，地址簿，以及社會關係，等等。

傳統的實體企業，以及任何規模龐大的公司，通常在機器學習方面擁有獨特的優勢，因為它們擁有大量特定類型的數據（這些數據可能有價值，可能沒什麼價值，不過大多是有價值的）。

如果你的公司不是擁有海量數據的財富100強公司，那麼最好是使用共享數據。獲取大量多樣化的數據是AI研究的關鍵。幸運的是，現在公開分享的、可免費獲取的有標籤數據集已經涵蓋了大部分類別。

根據你的需求，從人臉表情、肢體語言到公眾人物面孔等等各種各樣的數據集都可以得到。你能夠找到數百萬有關人群、森林或者寵物（各種各樣的寵物）的圖片，也能夠篩選大量用戶或購買者的評價。也有數據集包含垃圾郵件、各種語言的推文，博客文章，以及法律案例報告。

感測器越來越普遍，例如醫學感測器，運動感測器，智能設備的陀螺儀，熱感測器等，它們產生了各種新類型的數據。此外，有無數照片有關人們拍的食物，葡萄酒標籤或標語路牌。換句話說，純粹形式的數據一點也不缺乏。

那麼問題哪裡？

儘管數據無處不在，但在實踐中，事實證明這些數據的集合併不全是有用的。它們要麼是規模太小，要麼是標註得不怎麼好或者只有部分有標籤，又或者它們只是不符合你的需求。例如，假如你希望教機器識別圖像中的星巴克商標，可能你找到的圖像數據集只有「飲料」或「咖啡」的標籤。缺乏正確的標籤，這些數據基本上就毫無用處。再比如，律師事務所或成立較久的公司的資料庫中可能擁有數以百萬計的合同或其他文件，但這些數據沒法用，因為它們可能是簡單的未標記的PDF格式。

另一個挑戰是確保所使用的訓練集規模大，而且要多樣化。為什麼呢？我們可以通過一個簡單的思考實驗來探索訓練數據的想法。想象一下，假如我們有一個小孩，我們給他取名 Ned，任務是讓他識別單詞卡片上的西班牙語單詞。Ned需要做的只是回答「是的，這是西班牙語」或「不，這不是西班牙語」。

Ned從來沒見過西班牙語，他被給到10張隨機的單詞卡，用來學習西班牙語單詞長什麼樣。其中5張卡片寫著西班牙語單詞：niño，rojo，comer，uno和enfermos，另外5張卡片寫著其他語言的單詞：cat，貓，céu，yötaivas和भभ。Ned被告知，如果他能從一套新的卡片中挑出所有西班牙語單詞的話，就能得到一大杯冰淇淋的獎勵。經過一個小時的學習，現在是測試的時候了。

在第一次測試中，Ned被展示一張西班牙語單詞卡片：azul。因為在之前的學習中，字母「a」只出現在非西班牙語卡片，因此Ned認為azul不是一個西班牙語單詞。第二張卡片是葡萄牙語的「母親」一詞：mãe，Ned立刻喊道：「西班牙語！」又錯了。這是由於他的訓練卡片中只有一張卡片上的單詞有波浪符號，而這個單詞恰好是西班牙語的。第三張卡片上寫著「volcano」，Ned注意到它以「o」結尾，於是自信滿滿地說「西班牙語！」第四張卡片上寫著「منزل」，它的形狀跟訓練時任何一類的卡片都不太一樣，眼看冰淇淋是拿不到了，Ned都快哭出來了！這是Ned的推理技巧有問題，還是訓練數據有問題？

一個問題是：數據集太小。Ned的所有精力都花在記憶10張卡片上。在訓練深度神經網路這樣的複雜模型時，使用的數據集過小可能導致過擬合，這是機器學習中的常見缺陷。

基本上，過擬合是訓練樣本具有大量可學習的參數帶來的結果。模型可能記住了整個訓練數據，而不是從數據中學習一般性的概念。

回到我們的識別「蘋果」和「橘子」的網路。假如用少量的蘋果圖像作為訓練數據去訓練一個大型神經網路，很可能會導致網路學會了訓練數據的具體細節——皮是紅色的，莖是棕色彎曲的——這些特徵只需要在訓練數據中進行準確的區分。這些太細的特徵可能對於描述訓練時的蘋果圖像表現很好，但在測試時面對新的、從沒見過的蘋果，這些特徵就可能是無關緊要的，甚至是不正確的。

另一個問題是，保持數據的多樣性是一個重要的原則。如果Ned在訓練時看到一個非西班牙語單詞也是以「o」結尾，或者看到更多樣化的西班牙語口音標記，那他的表現會更好一些。從統計學角度來看，你獲得的各種獨特的數據越是多，這些數據的特徵就越多樣化，範圍越大。在訓練識別「蘋果」和「橘子」的網路的情況下，我們希望這個網路更廣泛化，以便能夠識別出所有蘋果和橘子的圖像，無論這些圖像是否出現在訓練集中。畢竟，不是所有蘋果都是紅色的，如果我們僅用紅蘋果的圖像訓練我們的網路（哪怕我們有大量的這樣的圖像），這個網路也有在測試時不能識別出青蘋果的風險。因此，如果訓練期間使用的數據類型有偏差，並且不能代表在測試時預期的數據，那麼就可能出現問題。

在很多人工智慧中開始出現偏見的問題。用於訓練神經網路的數據集反映了收集這些數據的人或群體的偏見。例如，只用紅蘋果的圖像訓練識別蘋果和橘子的網路，我們的網路就學習了「蘋果只能是紅色」的偏見。青蘋果，黃蘋果和焦糖蘋果呢？在其他應用，例如人臉識別，數據偏見帶來的影響會更顯著。

如何獲取良好標記的數據？要麼招聘人手進行數據標記，但這樣做成本高昂，要麼世界上所有的公司都突然贊成開放他們的所有專有數據集，並且慷慨地讓全世界的科學家免費使用。不然，解決訓練數據缺乏的方法就只有不去依賴它了。沒錯，不是努力去製造儘可能多的訓練數據，深度學習的未來可以是朝著無監督學習的方向努力。試想一下我們是如何教會嬰兒有關世界的各種概念的。畢竟，雖然我們教給嬰兒的知識有很多，但我們作為人類所學會的大多數重要的事情是通過經驗獲取的，尤其是——無監督的經驗。

原文：https://techcrunch.com/2017/07/21/why-the-future-of-deep-learning-depends-on-finding-good-data/

桃園 qq 地點貓咪桃園市 taoyuan xuan 根部尾巴有大桃園旅遊景點