search
尋找貓咪~QQ 地點 桃園市桃園區 Taoyuan , Taoyuan

哈工大劉挺教授:自然語言處理的十個發展趨勢

本文經授權轉載自人工智慧頭條

近日,在人工智慧學會、阿里巴巴集團 & 螞蟻金服主辦,CSDN、科學院自動化研究所承辦的第三屆人工智慧大會(CCAI 2017)上,哈爾濱工業大學劉挺教授對自然語言處理的發展趨勢做了一次精彩的歸納,分為了以下十個方面。與大家分享~

哈爾濱工業大學教授劉挺

趨勢1

語義表示——從符號表示到分佈表示

自然語言處理一直以來都是比較抽象的,都是直接用辭彙和符號來表達概念。但是使用符號存在一個問題,比如兩個詞,它們的詞性相近但詞形不匹配,計算機內部就會認為它們是兩個詞。舉個例子,荷蘭和蘇格蘭這兩個國家名,如果我們在一個語義的空間里,用辭彙與辭彙組合的方法,把它表示為連續、低維、稠密的向量的話,就可以計算不同層次的語言單元之間的相似度。這種方法同時也可以被神經網路直接使用,是這個領域的一個重要的變化。

從辭彙間的組合,到短語、句子,一直到篇章,現在有很多人在做這個事,這和以前的思路是完全不一樣的。

有了這種方法之後,再用深度學習,就帶來了一個很大的轉變。原來我們認為自然語言處理要分成幾個層次,但是就句法分析來說,它是人為定義的層次,那它是不是一定必要的?這裡應該打一個問號。

實際工作中,我們面臨著一個課題——信息抽取。我之前和一個單位合作,初衷是我做句法分析,然後他們在我的基礎上做信息抽取,相互配合,後來他們發表了一篇論文,與初衷是相悖的,它證明了沒有句法分析,也可以直接做端到端的直接的實體關係抽取。

這很震撼,不是說現在句法分析沒用了,而是我們認為句法分析是人為定義的層次,在端到端的數據量非常充分,可以直接進行信息抽取的時候,那麼不用句法分析,也能達到類似的效果。當端到端的數據不充分時,才需要人為劃分層次。

趨勢2

學習模式——從淺層學習到深度學習

淺層到深層的學習模式中,淺層是分步驟走,可能每一步都用了深度學習的方法,實際上各個步驟是串接起來的。直接的深度學習是一步到位的端到端,在這個過程中,我們確實可以看到一些人為貢獻的知識,包括該分幾層,每層的表示形式,一些規則等,但我們所謂的知識在深度學習里所佔的比重確實減小了,主要體現在對深度學習網路結構的調整。

趨勢3

NLP平台化——從封閉走向開放

以前我們搞研究的,都不是很願意分享自己的成果,像程序或是數據,現在這些資料徹底開放了,無論是學校還是大企業,都更多地提供平台。NLP領域提供的開放平台越來越多,它的門檻也越來越降低。

語音和語言其實有很大的差別,我認識的好幾位國內外的進入NLP的學者,他們發現NLP很複雜,因為像語音識別和語音合成等只有有限的問題,而且這些問題定義非常清晰。但到了自然語言,要處理的問題變得紛繁複雜,尤其是NLP和其他的領域還會有所結合,所以問題非常瑣碎。

趨勢4

語言知識——從人工構建到自動構建

AlphaGo告訴我們,沒有圍棋高手介入他的開發過程,到AlphaGo最後的版本,它已經不怎麼需要看棋譜了。所以AlphaGo在學習和使用過程中都有可能會超出人的想像,因為它並不是簡單地跟人學習。

美國有一家文藝復興公司,它做金融領域的預測,但是這個公司不招金融領域的人,只是招計算機、物理、數學領域的人。這就給了我們一個啟發,計算機不是跟人的頂級高手學,而是用自己已有的演算法,去直接解決問題。

但是在自然語言處理領域,還是要有大量的顯性知識的,但是構造知識的方式也在產生變化。比如,現在我們開始用自動的方法,自動地去發現辭彙與辭彙之間的關係,像毛細血管一樣滲透到各個方面。

趨勢5

對話機器人——從通用到場景化

最近出現了各種圖靈測試的翻版,就是做知識搶答賽來驗證人工智慧,從產學研應用上來講就是對話機器人,非常有趣味性和實用價值。

這塊的趨勢在哪裡?我們知道,從Siri剛出來,國內就開始做語音助手了,後來語音助手很快下了馬,因為它可以聽得到但是聽不懂,導致後面的服務跟不上。後來國內把難度降低成了聊天,你不是調戲Siri嗎,我就做小冰就跟你聊。但是難度降低了,實用性卻跟不上來,所以在用戶的留存率上,還是要打個問號。

現在更多的做法和場景結合,降低難度,然後做任務執行,即希望做特定場景時的有用的人機對話。在做人機對話的過程中,大家熱情一輪比一輪高漲,但是隨後大家發現,很多問題是由於自然語言的理解沒有到位,才難以產生真正的突破。

趨勢6

文本理解與推理——從淺層分析向深度理解邁進

Google等都已經推出了這樣的測試機——以閱讀理解作為一個深入探索自然語言理解的平台。就是說,給計算機一篇文章,讓它去理解,然後人問計算機各種問題,看計算機是否能回答,這樣做是很有難度的,因為答案就在這文章裡面,人會很刁鑽地問計算機。所以說閱讀理解是現在競爭的一個很重要的點。

趨勢7

文本情感分析——從事實性文本到情感文本

多年以前,很多人都在做新聞領域的事實性文本,而如今,搞情感文本分析的似乎更受群眾歡迎,這一塊這在商業和政府輿情上也都有很好地應用。

相應的,在社會媒體處理上,從傳統媒體到社交媒體的過渡,情感的影響是一方面,大家還會用社交媒體做電影票房的預測,做股票的預測等等。

但是從長遠的角度看,社會、人文等的學科與計算機學科的結合是歷史性的。比如,在文學、歷史學等學科中,有相當一部分新銳學者對本門學科的計算機的大數據非常關心,這兩者在碰撞,未來的前景是無限的,而自然語言處理是其中重要的、基礎性的技術。

趨勢9

文本生成——從規範文本到自由文本

文本生成這兩年很火,從生成古詩詞到生成新聞報道到再到寫作文。這方面的研究價值是很大的,它的趨勢是從生成規範性的文本到生成自由文本。比如,我們可以從資料庫裡面生成一個可以模板化的體育報道,這個模板是很規範的。然後我們可以再向自由文本過渡,比如寫作文。

最後是談與企業的合作。現在像銀行、電器、醫藥、司法、教育、金融等的各個領域對NLP的需求都非常多。

我預測NLP首先是會在信息準備的充分的,並且服務方式本身就是知識和信息的領域產生突破。還比如司法領域,它的服務本身也有信息,它就會首先使用NLP。NLP最主要將會用在以下四個領域:醫療、金融、教育和司法。

-END-

歡迎加入將門技術社群!

已涵蓋CV、機器人、NLP、ML、IoT等多個當下火熱的技術話題。我們每周邀請來自產學研的優秀技術人進行線上分享,目前群里已匯聚數千位上述領域的技術從業者。

將門創投

讓創新獲得認可!

[email protected]



熱門推薦

本文由 yidianzixun 提供 原文連結

寵物協尋 相信 終究能找到回家的路
寫了7763篇文章,獲得2次喜歡
留言回覆
回覆
精彩推薦