search
尋找貓咪~QQ 地點 桃園市桃園區 Taoyuan , Taoyuan

自然語言處理領軍人劉兵:沒有終身學習,機器不可能智能 | 新智元專訪

新智元原創

作者:聞菲

【新智元導讀】在深度學習推動圖像、語音快速向前的今天,自然語言處理依然有很多問題。新智元日前對 ACM、AAAI & IEEE 三院會士(Fellow)、伊利諾伊大學計算機科學教授劉兵進行了專訪。劉兵認為當前的自然語言處理要取得突破,需要研究範式的改變,還需要將語言、圖像、視頻和語音等不同模式的數據相結合。劉兵現在研究的終身機器學習能將知識積累下來,他相信終身學習是 AI 和機器學習的一個必要步驟,沒有它,機器不太可能有真正的智能。

將一塊石子投向水中會發生什麼?

這個問題對人而言簡單,對計算機卻很難,因為答案有太多——可能是濺起水花,激起波紋,也可能驚動水中的魚,擊中池邊的花……還可能是上面所有這些乃至更多。因此,計算機無無法作答。

「語言是不精確的,字面意思背後還有太多太多。」美國伊利諾伊大學芝加哥分校的計算機科學教授劉兵說。這也是為什麼相較有著一對一表徵的圖像和語音,自然語言處理是一個如此艱巨的問題。

人類理解語言是將左邊的感受(sensation)轉化為右邊的行動(action),而中間有一個表徵。自然語言與圖像和語音不同的地方在於,中間表徵並非一一對應。換句話說,語言是不精確的。

要讓計算機理解人類的語言,現在一般有兩條路。一是從形式語言入手,將文本切割為單詞、標點這些沒有意義的 token,把知識「硬編碼」給計算機。研究者會把各種 token 組合起來手動地創造表徵(representation),然後為這些表徵賦予意義並使用它們構建模型。另一方面,也有人從神經網路或深度學習的角度入手,讓計算機「學習」文本。在這條路上,辭彙被表示為一個個的向量(word2vec),這些向量再進一步表示句子,然後回答問題。要走完這條路,研究人員必須開發演算法,讓計算機能像人一樣學習語言。

但是,劉兵認為光有這些還不夠,當前的自然語言處理要取得突破,需要研究範式的改變,還需要將語言、圖像、視頻和語音等不同模式的數據相結合。他很懷疑現在的深度學習——用不斷的函數逼近能得出真正的智能。

劉兵是 ACM、AAAI & IEEE 的會士(Fellow)。儘管對應用和研究都感興趣,但為了能自由創新,自 2002 年進入伊利諾伊大學芝加哥分校以來,劉兵一直留校任教至今。他最著名的是對情感分析(或叫觀點挖掘)和揭示虛假觀點的研究。劉兵在 Web 數據提取和數據挖掘方面卓有建樹,2013 年當選為 ACM 數據挖掘特別興趣組 SIGKDD 主席。他在 KDD-1998 和 KDD-2004 發表的兩篇論文分別在 2014 年和 2015 年獲得了 KDD 經典獎(Test-of-Time award)。

日前,來北京對北京大數據研究院自然語言處理與認知智能實驗室進行交流訪問的劉兵接受了新智元專訪,就深度學習、自然語言處理髮展以及如何做好原創性研究分享了他的看法。7 月 23 日,劉兵將作為特邀講者,出席計算機學會和中文信息學會共同主辦的第二屆「語言與智能高峰論壇」,發表演講《讓自然語言處理更上一層樓:終身機器學習》。

新智元:您認為接下來自然語言處理最大的突破可能來自哪裡?

劉兵:在應用方面的發展應該都不錯,比如機器翻譯、知識抽取、觀點分析、人機對話……都可能會有很大的進展。但是,要做到理解那一步,還差得很遠。因為自然語言與計算機視覺和語音不同,視覺和語音還是一對一的映射,這是什麼,我講的是什麼,說那幾個字找出來就好。自然語言不止是字面上的幾個字,後面還有很多東西,你可以對一句話產生很多聯想。

我曾經舉過例子,我丟一塊石頭到水裡,那有波浪、有濺起的浪花、水什麼顏色、池塘的風貌、有沒有魚在水中跳……你可以想象很多東西,而自然語言就那麼一句話——「我丟了一塊石頭到水裡」。你問計算機的話,計算機怎麼回答?現在的自然語言對機器而言就是硬猜,通過字的多少,通過統計規律等等來反推,就像「中文房間」那樣。所以,我認為自然語言要突破,用現在的方法還早,我認為需要範式上的改變。

新智元:您能舉一個自然語言最近範式轉變的例子嗎,因為這一技術或方法的出現,領域得到重大進展?

劉兵:我認為 Word to Vector 起了很大的作用,把表徵轉換為相關性。深度學習對自然語言的效果沒有圖像、語音好,這有很多原因,但 Word2Vect 的出現讓領域有了明顯的進步。

Word2vec 2013 年由 Tomas Mikolov 在谷歌率領團隊提出(Mikolov 在 2014 年去了 Facebook),是一種對單詞的向量表徵進行運算的方法,能將文本轉換為深度神經網路能夠理解的數值形式。Word2vec 接收文本語料做輸入,輸出則是一組向量,這種向量通常有幾百個維度,構成一個向量空間。在這個空間里,每個詞都有一個對應的向量。其中,語義相近的詞會在分佈上彼此靠近,形成一個個「詞簇」(word cluster)。Word2vec 使用分散式的數值形式對詞向量進行表徵。分散式表徵這一概念最早由 Hinton 在 1986 年提出,其基本思想是通過訓練,將每個詞映射為 K 維實數向量(K 為模型中的超參數),通過詞之間的距離判斷其在語義上的相似度。使用這種方法,就能捕捉單詞之間在多個不同維度上的相似度。Word2vec 不需要標籤來創造有意義的表徵。這一點很關鍵,因為真實世界的數據也都沒有標籤。當訓練數據足夠多(常常高達幾十上百億單詞)時,Word2vec 能對詞的意義進行高度準確的預測,並且得出一些非常有趣的結果。一個著名的例子是「國王-男人+女人=女王」。這樣的預測結果可以用於建立一個詞與其他詞之間的聯繫,或者將文檔聚類並按主題分類。這些聚類結果是搜索、情感分析和推薦演算法的基礎,廣泛應用於科研、調查取證、電子商務、客戶關係管理等領域。Word2vec 的應用不止於解析自然語言,還可以用於基因組、代碼、社交媒體圖像等其他語言或符號序列,同樣能夠有效識別其中存在的模式。因為這些數據都處於與詞語相似的離散狀。

新智元:您怎麼看自然語言領域深度學習和語言學的對立?

劉兵:自然語言離不開語言學,不過,人學語言學跟機器學的還不一樣。人學習語言是從很小的單元學起來的,爸爸、媽媽……不是從一整句話或者一篇長文來學,有一個課程(curriculum)一樣的東西,從簡單到複雜。現在機器學習的辦法就是輸入整個對話、整篇文章,然後讓計算機自己猜去。

自然語言處理,我倒不認為一定需要做語義的人來做,我自己有過一些經驗,做純語言學的人,他們做的東西還是讓人去理解,所以對機器來說,他們的幫助很小,他們的發現無法「運算化」(operationalize)。

新智元:有一個笑話說,做機器翻譯,每開除一個語言學家,正確率就上升百分之幾。

劉兵:這可能有點過分(笑)。不過,語言學家對計算機的幫助確實不是特別大。這個問題可能需要重新考慮,因為人的語言學跟機器的語言學是不一樣的。而且,人類的語言學講的,歸類呀分析啊,是假設你懂這門語言。但是現在的計算語言學就是從計算機的角度,以機器為中心來考慮語言學。

而且,光是語言學還不夠——語言學還是講語義,而語義是有很多東西在後面的。比如說人,你看不見、聽不見,只能觸摸的話,能知道多少?人活在世界上,隨時都在看在聽,在同時接收多種信息並且得到反饋,所以能夠學到很多東西。計算機也需要這樣反饋的系統。

新智元:結合圖像、語音等不同模式的數據對自然語言處理會帶來什麼好處呢?

劉兵:自然語言處理的不純粹是語言的問題。語言可能還要與視覺、聽覺這些連在一起,讓機器能夠了解世界,至少有一個場景在裡面,imagining something happened。語言沒辦法形容世界的所有,我們描述事情的時候,都有一個焦點(focus)。好比開車,我開車時並不需要知道世界的所有,盯住前面的紅燈或看旁邊有沒有人就行了。但是,當我轉換焦點,我就能描述其他事物,比如開車時路過的商店,我當時沒注意。這樣,就能給出一個比較全面的 representation,同時也能保證 focus。

還有,在現實生活中,我們溝通時往往只需要很少的信息,有大量的內容都是不會說出來的。你看電影台詞,演員的對話,文字是很簡潔乃至很單調,但配合上語氣、演員的表情和背景音樂,我們立馬就能感受到不同。要讓機器學會與人交流,是不是也該將機器置於與人類類似的環境里?未來自然語言處理也需要融合圖像、語音、視頻等不同模式的數據。

新智元:現在學術頂會企業的參與越來越多。一個原因是很多研究都需要用到大的計算力,往往只有企業才能提供。您認為不在企業如何做好深度學習研究?

劉兵:企業參與多的現象一直有。這有兩方面的原因,除了計算力,還有數據。人工智慧不是簡單的演算法,還是需要大量的數據,人類學習也是這樣,要整天看,整天讀,整天聽。沒有大數據,智能是不可能的。這在工業界就有很大的優勢。當然,計算力也一樣。我目前還沒有作需要那麼大運算量的研究,但拘束仍然很明顯——現在寫文章需要早早做準備,[模型]一算就是好幾天,不知道結果,發現不對還得重新修改。計算是個很大的問題。不過,像谷歌這樣的公司還是支持很多研究的,他們也不是完全為了應用。因此,和工業界合作是一個好的辦法。尤其是數據,學術界很難產生真實的數據,所以需要和工業界合作。

另一方面,你可以往前想,不一定要用現在的方法[解決現在的問題],還有更好、更新的方法。學術界本來就以前瞻、創新著稱。舉個例子,我現在正在做的終身機器學習,就不需要那麼大的數據。終身機器學習的概念是,每次遇到的東西,不同領域的不同任務,學到的都可以慢慢地積累。這樣,再遇到新的情況,就不需要那麼多新的數據。好比人認識手機,不需要看一萬個,看兩三個就知道「手機」是什麼了,因為我們以前見過手機的大部分功能和形狀。這是一個解決辦法。

新智元:您能具體介紹一下終身學習嗎?

劉兵:現在,神經網路也好,其他演算法也罷,實際上任何東西都記不住事情,都是在孤立地學習。現在的遷移學習也還不是連續的。現在的模型還無法積累信息,每當遇到一個新的問題都需要重頭開始學習。我們想做的是像人類那樣,讓機器可以一直不停地學習。這個學習機制與現在的不同:一是要學,要記,還得能適應(adapt)——在新的情況下怎麼利用你的知識;在新的情況下,不光是要用你學到的知識,還要發現新的問題,因為在真實世界你遇到的就是曾經學過的問題,這是不太可能的。

具體說,我們希望建立模型,這個模型能夠識別自己該乾的事情,而且還能知道那些事情是它沒有見過的。如果做到了這一點,那麼遇到新的東西,我們就能夠接著學習。舉個簡單的例子,假設我要建一個機器人,在旅館門口迎賓「say Hello」,它必須知道已經住在旅館里的人,還要會分辨新來的人,遇見新來的人就主動問詢,還可以拍照和學習……這樣下次再見到,就能跟這個人說上次如何如何。

通用智能就是要發現世界,而且在工作中還可以學。例如,建立一個模型,我要發現這個模型有的地方能用,有的地方不能用,不是說世界全是這個模型 cover 了;還有,在使用的過程中發現有沒有地方能提升,好比老師教了你數學,你懂了,你在做題的時候仍然是在學著的。

我相信終身學習是人工智慧和機器學習的一個必要步驟。沒有它,機器不太可能有真正的智能。我的博士生和我 2016 年年底寫了一本書叫《終身機器學習》。如果你有興趣,可以看一看 (https://www.cs.uic.edu/~liub/lifelong-machine-learning-draft.pdf)。

新智元相關報道:【首屆北美計算機華人學者年會】伊利諾伊大學劉兵:終身機器學習(45PPT)

新智元:您認為深度學習將如何影響自然語言處理?

劉兵:深度學習是否代表了一種演算法,將智能包含在了裡面,我現在還不敢肯定。我傾向於認為不是。深度學習還是一種函數逼近(function approximation)和映射(mapping),基本上通過一些例子,這些例子間有些關係,我來做一下近似。我現在更關心的終身機器學習還有「適應」相關的內容,[針對]遇上了沒有見過的東西我該怎麼辦。但深度學習自己也在發展,熱度也很高,大家都在關注,我現在還不敢肯定它將來的走向。我感覺「intelligence」還不是這樣的演算法,[深度學習]裡面有太多的參數,但怎麼將知識真正充實在演算法里,將來稍微做小的變化就[能解決新的問題],我不知道深度學習能不能做到這一點,我現在感覺目前的深度學習似乎還沒有做到。能夠積累地學習,在不忘記過去的東西的同時學習新的東西,而且要用過去學到的知識幫我學得更快更好,這就是我現在想做的研究。

Attention!Think Big,Think Abstract

新智元:您說過相比工業界,您更喜歡做研究?

劉兵:是的。在工業界有任務,要賺錢,出產品,沒有那麼多自由的空間,去想象,做自己的研究。這並不是說我對實際應用沒興趣——我對人工智慧的應用和研究都有興趣,只是我認為不管做什麼都需要有原創性思考,提出新的、有創意的想法。如果只是純粹的應用,比如把某個演算法做成某種功能,我就沒什麼興趣了。當然,如果有創意,那麼研究和應用我都感興趣。

新智元:最近 Attention 這個機制在自然語言處理中得到了很多關注。

劉兵:實際上 Attention 這個概念很早就有了,只是現在用了「注意力」這個名字更好地抓住了人的想象力。取名字這件事比你想的更重要。我舉個例子,常說現在微信很厲害,能幹這個能幹那個能幹很多很多……但是,沒有一個抽象的概念把它形容起來是沒有意義的。Joseph Nye 提出了「soft power」這個詞,一下子就把這個概念概括住了。要取一個精準形象的名字,把握事情的精髓,讓大家一聽「啊!」非常重要,也是一個很大的貢獻。我做研究所的時候,我的老師說——這麼多年,我唯一記住他這句話——你需要 Abstract。不能說我能幹這個干那個干這個……要能抽象、代表、概括,abstract。

新智元:作為ACM、AAAI、IEEE 會士以及多篇經典論文的作者,您對研究者做出好的研究有什麼建議?

劉兵:最主要的是創新。做什麼事情膽子要大,做研究一定要膽子大——又不是跳懸崖。不要怕什麼東西難,不要自己覺得不行。不要跟風跟得太厲害,不要為了寫下一篇文章而寫文章。要弄清楚 what is the big idea you want to push,那樣自然就會有文章。如果整天看別人的文章,然後看到一個地方覺得「呀,這個地方我可以改進」就去改進一下——改進是可以的,但是要有大的改進。我接觸一些國內非常聰明的學生,感覺膽子還是小。有時不是說好多東西沒有想到,而是有想到但不敢去做,他覺得「哇,這個東西別人沒做是不是太難還是沒意義」。另外,不要覺得創新就那麼難,如果別人往西走, 你就不去。你使勁想、仔細想,一定能想出些不同來。計算機科學完全是個想象的空間,一定要敢想,想與別人不同。也不要只想不同一點點,最起碼要有個方向,伸出一個樹枝來——種樹不容易,但伸出一個新枝,這樣的追求是要有的。

還有,做事情要有一個 abstract concept。人是很注重實用的民族,不像西方理論性那麼強。特別是做研究,不要隨時想著純粹的應用,要想著 abstract idea,要有概括升華,提出概念,讓人一聽即懂,要形成知識。

最後,我希望年輕學者們能夠多做原創、理論和基礎性的貢獻。

* 新智元原創報道

點擊閱讀原文查看新智元招聘信息



熱門推薦

本文由 yidianzixun 提供 原文連結

寵物協尋 相信 終究能找到回家的路
寫了7763篇文章,獲得2次喜歡
留言回覆
回覆
精彩推薦