search
尋找貓咪~QQ 地點 桃園市桃園區 Taoyuan , Taoyuan

專訪光明日報、三角獸和碼隆科技,看中央機關報如何利用 AI 完成升級

雷鋒網按:前段時間,光明日報客戶端上線「小明AI兩會」功能,首次將人工智慧技術應用於兩會報道中。用戶通過手機拍一張全國兩會代表委員或光明日報刊載的照片,小明就能識別出照片中的人物或刊載的照片,並展示這名代表委員在履職期間關注的主要領域,同時以人物圖譜的形式,展示與其關注同樣領域的其他代表委員。

小明AI兩會功能,最直接的體現是改變傳統的交互模式,主要以照片、語音形式進行交互,同時也提供了文字輸入方式。

雷鋒網了解到,「小明AI兩會」的後台技術主要由三角獸科技以及碼隆科技提供。

據悉,為快速識別代表委員,AI小明項目組抓取了數萬張照片對小明進行模型訓練;與此同時,三角獸科技為了讓「小明」了解代表委員的履職情況,分析了 40 多萬篇有關媒體報道和官方報告對其進行訓練,從 29 萬個辭彙中挖掘出近 5000 個與兩會相關的關鍵詞,並據此整理出針對每一位代表委員的個性化報道。

光明日報為何要嘗試人工智慧?

小明AI兩會功能是光明日報小明在人臉識別、圖像識別、大數據方面的一次探索與自身技能的完善,小明還具備語音溝通、天氣查詢、機票預訂等功能。小明是光明日報在 2016 年 11 月推出的國內首款人工智慧新聞信息服務平台,項目開始之初,無論是人員還是資源投入都非常之多。大力招收相關人才,同時廣泛聯繫人工智慧領域公司展開合作。

「AI 與媒體相結合的產品以什麼樣的形式呈現給讀者和用戶會比較好?」這個棘手的問題擺在了光明網面前。

媒體的首要任務是提供信息服務,即便是推出新興的 AI 產品,也一定不能離開媒體的信息服務本身。光明網認為,不管產品與多少新技術結合,其核心功能仍舊是提供新聞,AI 只是一種輔助手段幫助他們獲得更好的新聞閱讀體驗和交互方式。

如果把新聞資訊集成在聊天機器人裡面,用戶不僅可通過小明直接查看新聞,同時也可與機器人聊天,豐富與用戶溝通。

在經過一段時間開發后,於 2016 年光明小明問世。

當用戶用文本或語音的形式對小明說「我要看時政新聞」,它便會提供當天的時政要聞。此外,「光明小明」還能為用戶提供查天氣、訂機票、搜電影等生活信息服務,也可以完成閑聊形式的陪聊。

去年年底,光明網開始同三角獸進行「小明AI兩會」功能的對接,三角獸CTO亓超說,第一次與光明網碰面時,他們對兩會功能提出了自己的想法。三角獸根據 AI 技術的現狀和兩會話題,對提出的需求做出一定修剪。

2 月 6 號開始,AI小明項目組開始著手開發「小明AI兩會」功能。

通過輸入自然語言或圖像識別的方式跳轉到代表和委員的詳細頁面。

下圖為兩會委員和代表的頁面,主要技術均由三角獸提供,這裡以雷軍為例:

亓超介紹到,人物圖譜是把人物屬性比較相近的群體進行計算,通過語料和個人資料來計算他們之間的關係。除了雷軍的關係圖之外,也有其他人之間的關係網路。

下圖則為通過演算法挖掘的雷軍關注領域的關鍵詞。

第三部分是相關新聞和熱點新聞。該功能背後的本質新聞搜索,根據人物關鍵詞和自己所關注的領域挖掘人物跟兩會相關的報道。

兩會熱點通過對熱點詞和相關報告進行挖掘,除了今年兩會的報道外,還包括往年所有兩會的上百萬篇報道和百科資料以及政府網站報告。總共挖掘的詞有幾十萬,通過數據清洗和迭代把有用的數據保存。

在談到「光明AI兩會」功能的最大難點在哪裡時,亓超主要提到兩點:準確和有力,尤其是兩會相關的報道一定要匹配準確,容不得半點差錯。在「有力」層面,AI 抓取的內容盡量做到要和人為采編有所不同,發揮機器的優勢。

而背後幾十萬篇報道的篩選,這內部涉及到一個排序問題。排序方式與根據傳統搜素中的「焦點」、「關鍵詞」、「位置」、「權重」、「時間」、「來源」類似,同時內容必須緊扣兩會主題。整個過程純粹靠機器來完成,然後靠人力來抽查。當然,在面對大量數據時也不可避免地會遇到格式錯誤和抓取失敗等問題。經過大量的技術研究和溝通,對面臨的問題進行了解決。

光明日報與碼隆科技

光明網產生對於光明日報刊載圖片識別的需求后,找到了在圖像識別領域有著深厚積累的碼隆科技。

碼隆科技 CEO 黃鼎隆向雷鋒網透露:碼隆和三角獸都是微軟創投加速器孵化的企業,彼此前期就有所了解,因此三角獸向《光明日報》推薦了我們,合力開發這個功能。

在問到這個功能「小明AI兩會」功能如何時,黃鼎隆說到:

我對它最滿意的地方是易用性。因為整個酷炫識別功能的實現,是光明網的同事自己在我們的人工智慧平台上搭建起來的,並不需要我們進行過多定製化的開發。其實人工智慧技術要想落地、商業化,很重要的是要使普通人,也就是不一定懂得高深科技的人也能輕鬆使用。我們創造 ProductAI 這個平台的初衷就是希望把領先的深度學習和計算機視覺技術,通過搭建這個雲端平台,使開發者們不需要懂得很複雜的技術原理,只需要進行很簡單的對接,就可以把最先進的人工智慧技術植入到他們的產品中。小明AI兩會的案例就充分說明了這一點。

在面對中央機關報擁抱 AI 這件事上,黃鼎隆也不禁感慨到 AI 的影響力已經開始滲透到傳統企業當中,而且此次兩會政府也把「人工智慧」寫進工作報告當中,可見 AI 已不僅僅是一個純粹的科技話題了。包括很多傳統領域的大機構、大企業,比如說紡織信息中心、《光明日報》都是非常積極地擁抱和嘗試最新技術。

「我覺得這是整個能力和觀念的提升。首先是我們對高科技的概念不再陌生,其次是我們也有這樣的能力參與到革新中來,我們從以前的追隨者,變成了引領者。雖然 AI 技術在向傳統機構推廣時難度挺大,但 AI 公司更應該主動去挖掘某一傳統領域的標杆機構的自身需求,這類需求有可能連這些機構本身也沒發覺,但作為 AI 公司,我們應該擁有這種主動去調查和分析的意識,引導他們來試用人工智慧技術。」

小明AI兩會功能成功推出后,多家媒體找到了碼隆科技,也想體驗這樣的圖像識別服務。根據黃鼎隆介紹,此次合作,從開發到提供服務,只花了一個周末,這在以往如果是客戶方自己開發相關功能,成本非常高昂,而現在以 API 的形式接入服務,顯然要划算很多。

小明的未來

光明網方面表示:小明 AI 兩會功能,是光明網在推出小明機器人後的進一步探索,也是對小明技能、本領的進一步完善,接下來還將不斷優化,持續發現類似的新功能。

亓超在採訪過程中提出:傳統機構對人工智慧了解程度可能不夠深入,但這完全不妨礙他們提出一些非常妥當的落地功能和場景。同時也會同光明網展開更多的合作,其中包括內容體系和對話系統的升級。

內容分發形式的升級

當下不少媒體面臨內容再消化問題,文章發出后的時效性往往較短。光明網希望藉助 AI 的能力不斷把過往的經典內容再次挖掘出來,並在合適的場景中重現。其中小明 AI 兩會就是一個讓過往兩會內容再消化的典型案例。

其次針對不同類型的文章如科技、軍事、時政等板塊進行深度挖掘,從而完成可定製的、個性化的內容分發。分發的內容不僅僅局限於文本,還包括圖像、音頻、視頻等形式。

對話系統的升級

三角獸也將會對光明日報小明的對話系統進行再升級。

在對話系統方面,由於當下聊天機器人給用戶回復的話語內容並不是非常嚴謹和正統,且機器回復內容過於零散,因此三角獸接下來需要做的事情就是把機器給人回復的每一句話都進行更嚴格篩選和訓練。

亓超說到,這裡面臨最大的挑戰是,在接下來的項目中,對話機器人給用戶回答的所有話語均來自專業的媒體報道和官方報告,而非傳統的對話語料庫。這其中涉及到純文本理解。

新聞和報告是一種純文本的、非結構化數據,這類嚴肅的報道中沒有「某人問一個問題,另外一個人回復」這樣現成的問答數據。

這種情況下需要給機器喂一些文章,讓它去自動消化,然後把它轉化成對話式數據。

我們知道,一篇新聞里由很多句話組成,每句話周圍的文本信息,其實都是用來表述這句話使用的背景。因此在線上對話時,第一步都需要用線上對話的文本跟新聞中這句話周圍的文本去做計算,把它應用在適合它的場景中。

第二步是將每句輸出的話都和上下文做計算,計算出回復這樣一句話是否合適。

舉個例子,以純聊天為例,當對方回答「謝謝」兩字,我們一定要回復與謝謝相等或約等的對話如:謝謝、非常感謝、謝謝你。傳統對話中,我們通過抓取人為語料庫中的對話數據來實現,在面對「謝謝你」時可能反應的是不用謝、不客氣。這時候就會把謝謝你和不用謝、不客氣做一個計算,看兩者可否做一個語義一致性的回復。

回到從新聞中抓取信息然後應用在對話系統中的應用,每句話周圍的話代表問題,周圍那句話是否合適,需要經過上述兩個步驟進行計算。

以小孩子學習舉例,小孩學習語言是通過兩個渠道完成的:在他不認字的初始階段,需要靠聽父母以及別人之間的對話來進行學習。長大以後他通過閱讀的方式去消化內容,從而把閱讀中獲取的內容轉化成自己的一種表達。

通過周圍環境中人物的對話進行學習,可以理解為傳統的聊天機器人做法:去拿一問一答的數據,然後應用在對話系統中。

而通過閱讀的方式來學習,其實就屬於剛才提到的新聞消化和周邊語句計算。

亓超對說到:目前市場上很少有這樣的對話系統,雖然極具挑戰,但非常有意思。

就在採訪結束后,光明日報客戶端又解決了「深度鏈接」的問題,不得不再次感慨這家機關報對新技術的接受度遠高於同類機構。



熱門推薦

本文由 yidianzixun 提供 原文連結

寵物協尋 相信 終究能找到回家的路
寫了7763篇文章,獲得2次喜歡
留言回覆
回覆
精彩推薦