search
CCAI 2017 演講實錄丨劉挺:自然語言處理的十個發展趨勢

CCAI 2017 演講實錄丨劉挺:自然語言處理的十個發展趨勢

7 月 22 - 23 日,在科學技術協會、科學院的指導下,由人工智慧學會、阿里巴巴集團 & 螞蟻金服主辦,CSDN、科學院自動化研究所承辦的 2017 人工智慧大會(CCAI 2017)在杭州國際會議中心盛大召開。

記者 | CSDN 蘇靖芝 整理

哈爾濱工業大學教授、社會計算與信息檢索研究中心主任劉挺

本次大會的第一場分論壇討論是關於語言智能領域的八大問題。討論期間,哈工大的劉挺教授對自然語言處理的發展趨勢做了一次精彩的歸納,他把這裡的趨勢分成了十個方面:

趨勢1:語義表示——從符號表示到分佈表示

自然語言處理一直以來都是比較抽象的,都是直接用辭彙和符號來表達概念。但是使用符號存在一個問題,比如兩個詞,它們的詞性相近但詞形不匹配,計算機內部就會認為它們是兩個詞。舉個例子,荷蘭和蘇格蘭這兩個國家名,如果我們在一個語義的空間里,用辭彙與辭彙組合的方法,把它表示為連續、低維、稠密的向量的話,就可以計算不同層次的語言單元之間的相似度。這種方法同時也可以被神經網路直接使用,是這個領域的一個重要的變化。

從辭彙間的組合,到短語、句子,一直到篇章,現在有很多人在做這個事,這和以前的思路是完全不一樣的。

有了這種方法之後,再用深度學習,就帶來了一個很大的轉變。原來我們認為自然語言處理要分成幾個層次,但是就句法分析來說,它是人為定義的層次,那它是不是一定必要的?這裡應該打一個問號。

實際工作中,我們面臨著一個課題——信息抽取。我之前和一個單位合作,初衷是我做句法分析,然後他們在我的基礎上做信息抽取,相互配合,後來他們發表了一篇論文,與初衷是相悖的,它證明了沒有句法分析,也可以直接做端到端的直接的實體關係抽取,

這很震撼,不是說現在句法分析沒用了,而是我們認為句法分析是人為定義的層次,在端到端的數據量非常充分,可以直接進行信息抽取的時候,那麼不用句法分析,也能達到類似的效果。當端到端的數據不充分時,才需要人為劃分層次。

趨勢2:學習模式——從淺層學習到深度學習

淺層到深層的學習模式中,淺層是分步驟走,可能每一步都用了深度學習的方法,實際上各個步驟是串接起來的。直接的深度學習是一步到位的端到端,在這個過程中,我們確實可以看到一些人為貢獻的知識,包括該分幾層,每層的表示形式,一些規則等,但我們所謂的知識在深度學習里所佔的比重確實減小了,主要體現在對深度學習網路結構的調整。

趨勢3:NLP平台化——從封閉走向開放

以前我們搞研究的,都不是很願意分享自己的成果,像程序或是數據,現在這些資料徹底開放了,無論是學校還是大企業,都更多地提供平台。NLP領域提供的開放平台越來越多,它的門檻也越來越降低。

語音和語言其實有很大的差別,我認識的好幾位國內外的進入NLP的學者,他們發現NLP很複雜,因為像語音識別和語音合成等只有有限的問題,而且這些問題定義非常清晰。但到了自然語言,要處理的問題變得紛繁複雜,尤其是NLP和其他的領域還會有所結合,所以問題非常瑣碎。

趨勢4:語言知識——從人工構建到自動構建

AlphaGo告訴我們,沒有圍棋高手介入他的開發過程,到AlphaGo最後的版本,它已經不怎麼需要看棋譜了。所以AlphaGo在學習和使用過程中都有可能會超出人的想像,因為它並不是簡單地跟人學習。

美國有一家文藝復興公司,它做金融領域的預測,但是這個公司不招金融領域的人,只是招計算機、物理、數學領域的人。這就給了我們一個啟發,計算機不是跟人的頂級高手學,而是用自己已有的演算法,去直接解決問題。

但是在自然語言處理領域,還是要有大量的顯性知識的,但是構造知識的方式也在產生變化。比如,現在我們開始用自動的方法,自動地去發現辭彙與辭彙之間的關係,像毛細血管一樣滲透到各個方面。

趨勢5:對話機器人——從通用到場景化

最近出現了各種圖靈測試的翻版,就是做知識搶答賽來驗證人工智慧,從產學研應用上來講就是對話機器人,非常有趣味性和實用價值。

這塊的趨勢在哪裡?我們知道,從Siri剛出來,國內就開始做語音助手了,後來語音助手很快下了馬,因為它可以聽得到但是聽不懂,導致後面的服務跟不上。後來國內把難度降低成了聊天,你不是調戲Siri嗎,我就做小冰就跟你聊。但是難度降低了,實用性卻跟不上來,所以在用戶的留存率上,還是要打個問號。

現在更多的做法和場景結合,降低難度,然後做任務執行,即希望做特定場景時的有用的人機對話。在做人機對話的過程中,大家熱情一輪比一輪高漲,但是隨後大家發現,很多問題是由於自然語言的理解沒有到位,才難以產生真正的突破。

趨勢6:文本理解與推理——從淺層分析向深度理解邁進

Google等都已經推出了這樣的測試機——以閱讀理解作為一個深入探索自然語言理解的平台。就是說,給計算機一篇文章,讓它去理解,然後人問計算機各種問題,看計算機是否能回答,這樣做是很有難度的,因為答案就在這文章裡面,人會很刁鑽地問計算機。所以說閱讀理解是現在競爭的一個很重要的點。

趨勢7:文本情感分析——從事實性文本到情感文本

多年以前,很多人都在做新聞領域的事實性文本,而如今,搞情感文本分析的似乎更受群眾歡迎,這一塊這在商業和政府輿情上也都有很好地應用。

趨勢8:社會媒體處理——從傳統媒體到社交媒體

相應的,在社會媒體處理上,從傳統媒體到社交媒體的過渡,情感的影響是一方面,大家還會用社交媒體做電影票房的預測,做股票的預測等等。

但是從長遠的角度看,社會、人文等的學科與計算機學科的結合是歷史性的。比如,在文學、歷史學等學科中,有相當一部分新銳學者對本門學科的計算機的大數據非常關心,這兩者在碰撞,未來的前景是無限的,而自然語言處理是其中重要的、基礎性的技術。

趨勢9:文本生成——從規範文本到自由文本

文本生成這兩年很火,從生成古詩詞到生成新聞報道到再到寫作文。這方面的研究價值是很大的,它的趨勢是從生成規範性的文本到生成自由文本。比如,我們可以從資料庫裡面生成一個可以模板化的體育報道,這個模板是很規範的。然後我們可以再向自由文本過渡,比如寫作文。

趨勢10:NLP+行業——與領域深度結合,為行業創造價值

最後是談與企業的合作。現在像銀行、電器、醫藥、司法、教育、金融等的各個領域對NLP的需求都非常多。

我預測NLP首先是會在信息準備的充分的,並且服務方式本身就是知識和信息的領域產生突破。還比如司法領域,它的服務本身也有信息,它就會首先使用NLP。NLP最主要將會用在以下四個領域,醫療、金融、教育和司法。

CAAI原創 丨 作者劉挺

CCAI 2017更多精彩內容,歡迎點擊閱讀原文,一次掌握「現場微信群」、「圖文報道」、「視頻直播」、「PPT下載」以及「大會期刊」所有入口!

熱門推薦

本文由 一點資訊 提供 原文連結

一點資訊
寫了5860316篇文章,獲得23301次喜歡
留言回覆
回覆
精彩推薦