Zi 字媒體

「深度學習很簡單，一個月就可以成專家了」

2021/12/25

yidianzixun

為什麼有些數學研究者會看不慣甚至鄙視深度學習（Deep Learning）？

田淵棟，卡耐基梅隆大學機器人系博士，Facebook人工智慧組研究員

DL 的難度取決於看問題的角度。數學系的話應該往理論方向看。

DL 用線性和非線性函數堆砌來構造函數，用隨機梯度下降就可以訓練，而且還有非常好的泛化能力，在我看來這樣的東西居然沒有原理這是完全不可想像的。但是 DL 很難，難到大家都不知道如何入手，用什麼數學工具都不知道，所以說什麼樣的理論文章都有，凝聚態物理的（spin-glass)，量子物理的（重整化群），ODE 的（動力系統），各種優化理論（這個例子太多），各種複雜度理論，但還沒看到真正提煉出本質的。數學這邊那麼多理論，但現在還沒有哪個能搬到 DL 上而且能嚴絲合縫的，至於能進行有效預測的就更沒有了。這就足夠說明問題的複雜性，DL 是沒那麼簡單的。

要深入 DL，各種基礎知識是不可少的。但是基礎知識並不是拿來炫耀的本錢，因為學了一大堆，可能一個都沒用。比如說 VC Dimension 或者 Rademacher Complexity 對 DL 有沒有用？它們本身都很漂亮，但可能假設太強得到的結論和現實差很遠，或者假設太寬泛得到的結論太弱，都不在 DL 的工作區間。所以做理論的人，不得不一個個學過來，想過了，試過了，然後放掉，下一個。解決問題是最終的目標，而不是學得比人多些，然後坐在原地不動誇耀自己厲害。耍弄十八般武藝，比不過高手一招制敵。至於這一招怎麼找到，或者從理論分析這邊入手，或者從實驗入手，都是一樣有價值，都是平等的，不存在誰鄙視誰的問題。鄙視就意味著有不合理的預設立場，忽視另一種思路的作用，對解決問題是不利的。

學數學的時候，我的感覺像是走進了琳琅滿目的藝術博物館，在整潔的環境中欣賞各種精巧的美。DL 相比之下就像是鍋爐房裡堆疊著一坨污七八糟的機器，工程師們東敲西打讓它工作，雖然髒亂，確實有效。大部分人可以沿著前人鋪好的錦繡路上再添磚加瓦，但是真正厲害的，是不顧髒亂跑到鍋爐房裡把機器拆開，化腐朽為神奇，找到最重要原理的那些人。開創比修補難，與其抱怨 DL 沒有高深數學做框架，不如自己試試看，能不能做些有趣的東西出來。現在那麼大的金礦放在那裡，大家應該好好合作使勁挖礦才是啊。小波是很美，但問題是它的基函數是固定形式的，不能適應具體問題，而且還需要數學家搞一輩子才能搞出來。與之相比，深度模型訓練幾天就能跑出來，而且針對具體問題（比如說圖像分類）效果還更好，你會選哪個？所以說現在思路要轉變，一個一個地研究模型太沒效率了，做一個對數據自動建模的模型，是不是在戰略上會更有趣一點呢？

我和我一個同學聊過，他現在是統計系的終身教授，列舉了幾個非常牛的數學家，問我 AI 再牛牛得過他們么？我沒有正面回答，我在想人類看螞蟻的時候會思考普通螞蟻和聰明一點的螞蟻之間的區別么？我這裡並沒有貶低數學家的意思，因為人類都是一樣的，我也是微不足道的普通螞蟻而已——相比耗能堪比一座小城市並且每幾個月就更新換代的集群，人腦僅僅幾十瓦的功率，神經元間慢達毫秒級的傳輸速度，敗下陣來只是時間問題。而現在的人腦處理大部分任務甚至還遠勝集群，可見人工智慧潛力之大。我有時候覺得我們看到幾顆星辰就以為是大突破了，其實我們還在漫漫長夜裡瞎摸，太陽還沒有露頭呢。

另外說一下門檻低的問題。幾百年前，微積分出來之後，一大類問題都可以用統一的方法解決，讓技術進步的門檻降低了，本來高高在上的各種技巧平民化了，馬上就帶動了相關領域的巨大進展。這個歷史進程和我們現在看到深度學習的進程一模一樣，開源了，大家都用了，對整個人類而言進步就快了。到了這個時候，單槍匹馬乾不了什麼事，人民群眾才是技術進步的原動力。

面對時代的洪流，相比嘲弄別人隨波逐流，思考應該如何順勢而為，或許是更有建設性的吧。

客官，這篇文章有意思嗎？

桃園 qq 地點貓咪桃園市 taoyuan xuan 根部尾巴有大桃園旅遊景點