Zi 字媒體

演講 | Yann LeCun清華演講：深度學習與人工智慧的未來

2021/12/25

機器之心原創

作者：高靜宜

2017 年 3 月 22 日下午，Facebook 人工智慧研究院院長、紐約大學終身教授 Yann LeCun 在清華大學大禮堂為校內師生以及慕名而來的業內人士呈現了一場主題為《深度學習與人工智慧的未來（Deep Learning and the Future of AI）》的精彩公開課。

隨著 AlphaGo 事件的不斷發酵，神經網路成為時下人工智慧產學領域萬眾矚目的研究焦點，也成為普羅大眾的熱門話題。事實上，神經網路作為一種演算法模型，很早就已經被廣泛關注和研究，也曾長時間內陷入發展突破的低潮期。不過，在以 Geoffrey Hinton、Yann LeCun 和 Yoshua Bengio 為代表的眾多神經網路活躍研究者的堅持和努力下，人們對卷積神經網路的研究得到開拓性進展，深度學習進入大眾視野，神經網路終於在 2006 年迎來了復興。

Yann LeCun 作為深度學習運動的領軍人物，Facebook 人工智慧研究院院長兼紐約大學教授，其一舉一動都能引發業界的廣泛關注。這次，由清華大學經濟管理學院發起，清華 x-lab、Facebook 主辦的主題講座邀請了 Yann LeCun，作為《創新與創業：矽谷洞察》學分課程中的第一節公開課的講者，針對深度學習技術的歷史發展進程與人工智慧的未來趨勢進行了深入的解析，並分享了一些精彩觀點。

一開場，Yann LeCun 就通過回顧去年的 AlphaGo 事件引出今天講座的主題《深度學習與人工智慧的未來》，並向在場觀眾拋出了一個問題：人類可以利用大量的樣本去訓練機器，可是機器能夠識別出它從未見過的事物嗎？

帶著這個問題，Yann LeCun 講述了深度學習的發展過程以及他個人在領域內的探索歷程。

首先，Yann LeCun 回顧了 1957 年的感知器以及 50 年代末期的傳統模式識別模型，並對傳統模式識別、主流現代模式識別以及深度學習特徵提取方式進行了比對；隨後，他又對多層神經網路、反向傳播演算法、卷積神經網路結構（歸一化——濾波器組——非線性計算——池化）等演算法概念進行解析；並且展示了 1993 年完成的 LeNET1 Demo。

傳統的模式識別是固定的/人工設計的特徵提取器：數據→特徵提取器→可訓練的分類器
主流的現代模式識別使用了無監督的中級特徵：數據→特徵提取器→中級特徵→可訓練的分類器
深度學習方法則使用了訓練出來的分層的表徵：數據→低級特徵→中級特徵→高級特徵→可訓練的分類器

然而，當時業界仍對神經網路的未來仍存遲疑態度。Yann LeCun 舉了一件關於他在貝爾實驗室兩位同事 Jackel （Larry Jackle現任 NVIDIA 機器學習顧問，曾在加拿大多輪多的一場 NVIDIA 的分享會講過這個故事，並親自協助完成了機器之心技術分析師對那場分享會的報道，感興趣的讀者可點擊閱讀原文查看此文章。）和 Vapnik 的趣事。在 1995 年的一次晚餐中，Jackel 曾經跟 Vapnik 打賭說，在 2000 年 3 月 14 日之前，人們將會理解大型神經網路，並給出明確的限定，事實證明，Jackel 的想法錯了。而 Vapnik 打賭認為 2005 年 3 月 14 日後，沒有人將會使用類似於 1995 年的那些神經網路，事實證明，Vapnik 也錯了。

當事人 Larry Jackle 現任 NVIDIA 機器學習顧問，曾在加拿大多輪多的一場 NVIDIA 的分享會講過這個故事，並親自協助機器之心技術分析師對那場分享會的報道。

當卷積網路度過瓶頸期並得到人們的認可后，深度卷積網路開始用於解決各類計算機視覺問題，如目標識別；而隨著網路深度的不斷增加，產生了 VGG、GoogLeNet、ResNet 等深度卷積神經網路結構，它們可以用於圖像識別、語義分割、ADAS 等眾多場景。

這裡，Yann LeCun 特別提到了 Facebook 提出的通用目標分割框架 Mask R-CNN，並展示了它在 COCO 數據集上的結果。（詳情可見：學界 | Facebook 新論文提出通用目標分割框架 Mask R-CNN：更簡單更靈活表現更好）

在為在場觀眾帶來全新、深入的深度學習技術解析后，Yann LeCun 又探討了人工智慧領域存在的一個障礙和難點——怎樣使機器獲得「常識」呢？

人工智慧進步所面臨的障礙：

機器需要學習/理解世界的工作方式：它們需要具備一定程度的常識
機器需要學習非常大量的背景知識：通過觀察和行動
機器需要理解世界的狀態：從而做出準確的預測和規劃
機器學習更新和記憶對世界狀態的估計：關注重要事件、記憶相關事件
機器需要推理和規劃：預測哪些動作序列可以導致我們想要的世界狀態

在人工智慧領域，機器是如何跨越這種本質的障礙呢？Yann LeCun 給出了答案，即機器不僅需要學習、理解這個世界，學習大量的背景知識，還需要感知世界的狀態，更新、記憶並評估世界的狀態，而且還要有推理和計劃的能力。這也就是所謂的「智能&常識=感知+預測模型+記憶+推理和規劃」。

人們由於了解這個世界運作原理，所以會擁有常識，可是對於機器呢？它們能否具備所謂的「常識」呢？LeCun 舉了幾個例子進行說明。比如說「這個箱子裝不下獎盃，因為它太大/太小了」這句話，當我們說「太大」時，我們知道「它」是獎盃；而當我們說「太小」時，那「它」就是「箱子」了。

機器是無法憑空具備常識的，它需要一些已知的信息，比如根據空間信息推斷世界的狀態、從過去和現在推斷未來、從現在的狀態推斷過去的事件。那麼，這個過程就涉及預測學習（predictive learning）這一個概念，也就是從提供的任何信息預測過去、現在以及未來的任何一部分。不過，這是很多人對無監督學習（unsupervised learning）的定義。

由此看見，無監督學習和預測學習是十分必要的，也是未來幾年深度學習型領域的巨大挑戰。通常，需要拿來去訓練一個大型學習機器的樣本數量取決於我們要求機器所預測的信息量。你需要機器回答的問題越多，樣本數量就要越大。

「大腦有 10 的 14 次方個突觸，我們卻只能活大概 10 的 9 次方秒。因此我們的參數比我們所獲得的數據會多得多。這一事實激發了這一思想：既然感知輸入（包括生理上的本體感受）是我們每秒獲取 10^5 維度約束（10^5 dimensions of constraint）的唯一地方，那麼，就必須進行大量的無監督學習。」

預測人類提供的標籤，一個價值函數（value function）是不夠的。這裡，Yann LeCun 用一個生動的比喻解釋了不同機器學習演算法進行預測需要多少信息，並展示了 2016 年 VizDoom 競賽冠軍使用的來自強化學習的 Actor-Critic 演算法來生成序列的實例。

此處，Yann LeCun 提到了 Sutton 所提出的 Dyna 結構，這是一種集學習、規劃、反應於一身的集成架構，即可以完成「在行動之前實現對腦內設想的嘗試」。

之後，Yann LeCun 介紹了經典基於模型的最優化控制過程。即利用初始控制序列對世界進行模擬，調整控制序列利用梯度下降法對目標進行最優化，再進行反向傳播。

人工智慧系統的架構，包括感知器、代理、目標、環境。

用一個公式概括了人工智慧系統，即：預測+規劃=推理。

智能的本質是預測的能力，要提前進行規劃，我們需要模擬這個世界，然後採取行動以最小化預測損失。

最終得出結論：基於模型的強化學習正是我們需要的。

Yann LeCun 指出，機器能否學習出預測世界的模型是實現重大進展的關鍵。

然後，他也介紹了「根據文本推斷世界的狀態：實體 RNN」

儘管監督式卷積網路已經取得了重大的進展，我們仍需要記憶增強網路賦予機器進行推論的能力。LeCun 幫助我們理解記憶了堆棧增強循環神經網路。

使用記憶模塊增強神經網路

循環網路不能進行長期記憶

皮層記憶只能持續 20 秒

神經網路需要一個「海馬體」（一個單獨的記憶模塊）

長短期記憶（LSTM）[Hochreiter 1997]，寄存器
記憶網路 [Weston et 2014] (FAIR)，聯合存儲器
堆棧增強循環神經網路 [Joulin & Mikolov 2014] (FAIR)
神經圖靈機 [Graves 2014]
可微分神經計算機 [Graves 2016]

實體循環神經網路

維持一個對於當前世界狀態的估計
每一個網路都是一個帶有一個記憶的循環網路
每一個輸入事件都會導致記憶單元獲得一些更新

EntNet 是第一種解決了所有 20 中 bAbI 任務的模型

在 bAbI 任務上的端到端記憶網路

在這一部分，Yann LeCun 對基於能量的無監督學習演算法進行了比較詳細的解析。

學習一個能量函數（或稱對比函數），其在數據流形上取低值，在其它地方去高值。

壓低我們想要的輸出的能量，推高其它地方。但我們該怎麼選擇推高哪裡呢？

使用一個能量函數來獲取變數之間的依賴

學習能量函數

參數化能量函數：E(Y,W)

使其在樣本上的能量低
使其在其它地方的能量高
是能量在樣本上低很容易，但要讓其它地方它高起來該怎麼做呢？

塑造能量函數的 7 種策略

1. 建立低能量體量（the volume of low energy stuff）不變的機器

PCA、K-means、GMM、square ICA

2. 數據點能量的下推（push down），其他位置能量都提高（push up)

最大似然（需要易操作的配分函數）

3. 數據點能量的下推（push down），在選擇出的點上進行提高

contrastive divergence、Ratio Matching、Noise Contrastive Estimation、Minimum Probability Flow

4. 圍繞數據點最小化梯度，最大化曲率（curvature）

score matching

5. 訓練一個動態系統，以便於動態進入 manifold

降噪自編碼器

6. 使用正則化進行限制有低能量的空間體量

Sparse coding、sparse auto-encoder、PSD

7. 如果 E(Y) = ||Y - G(Y)||^2, 儘可能的使得 G(Y) 不變

Contracting auto-encoder, saturating auto-encoder

接下來，是關於對抗訓練的介紹，Yann LeCun 本人對對抗訓練給予高度肯定。對抗訓練（GAN）是改進機器預測能力的一種方式。GAN 包括一個生成器、一個判別器，它們可以同時進行學習。

它的難點在於在不確定性下進行預測。

不變的預測：訓練樣本只是整個可能輸出集的表示

對抗訓練：不確定情況下進行預測的關鍵

除了深度卷積對抗生成網路 (DCGAN)，他還介紹了基於能量的對抗生成網路（EBGAN）。（詳情可見：學界 | Yann LeCun 最新論文：基於能量的生成對抗網路（附論文））

在演講的最後，Yann LeCun 提到了語義分割的視頻預測技術，並展示了時間預測結果。

語義分割的時間預測

語音分割的暫時性預測：提前 9 幀（0.5 秒）進行預測；自回歸模型；

最後簡單總結一下，Yann 在演講中總結了去年人工智慧領域的進展，並介紹了監督學習的一些知識點。然後，Yann 聚焦於無監督學習。他認為無監督學習會成為未來的主流，能解決我們的學習系統難以處理的眾多問題。我們如今正在面臨無監督和預測性前向模型（predictive forward model）的建立，這也可能會是接下來幾年的挑戰。此外，對抗訓練在未來可能會逐漸扮演更重要的角色，而如今的難題是讓機器學習「常識」。

演講結束后，Yann LeCun 回答了現場觀眾的問題。他本人對近日騰訊圍棋 AI 絕藝奪冠一事表示興奮，並坦承看好人工智慧在 ADAS、醫療領域內的發展。

加入機器之心（全職記者/實習生）：[email protected]

投稿或尋求報道：[email protected]

廣告&商務合作：[email protected]

桃園 qq 地點貓咪桃園市 taoyuan xuan 根部尾巴有大桃園旅遊景點