search
尋找貓咪~QQ 地點 桃園市桃園區 Taoyuan , Taoyuan

【震后25秒寫540字!】 全面解讀:機器人寫新聞

引語:

四川省阿壩州九寨溝發生7級地震,當相關信息播報發出時,地震剛剛過去25秒!

是的,這播報是機器人寫的,這條由「地震信息播報機器人」自動編髮的稿件,共540字配發4張圖片,包括速報參數、震中地形、熱力人口、周邊村鎮、周邊縣區、歷史地震、震中簡介、震中天氣等十幾項內容。

「地震信息播報機器人」到底是怎樣的機器,它的效率這麼高,人類「手寫」新聞的時代會不會被終結,如果會,那麼最快會在什麼時候,新聞系的學生如果不懂計算機怎麼辦,目前新聞業就業情況怎樣?等等問題也隨即而來。

本文將對上述問題,做一個簡單的總結性回答:

一、機器人寫新聞背後的技術以及原理:

所謂「新聞機器人」,實際上是一套軟體或演算法語言(algorithm),它自動採集數據,然後撰寫成人類可讀的內容。「演算法」指包含一系列非常複雜的數學規則、能通過預先設定的步驟解決特定問題的計算機程序。

機器人(演算法)是如何生產新聞的?這個過程如一個「黑箱」,公眾很難對之進行評判和監督。機器人新聞演算法源代碼的專利為谷歌專有,同時已被授權給包括「敘事科學」(Narrative Science)、「自動洞見」(Automated Insights)、「耶索」(Yseop)、「CBS互動」以及「未來幻象記者」(Fantasy Journalists)等公司使用。這些公司將谷歌的基礎演算法投入到具體應用中,因此對公眾而言該技術的神秘性也逐漸降低。

為了增加公眾對機器人(演算法)生產新聞流程的理解,哥倫比亞大學新聞學院Tow數字新聞中心曾以「敘事科學」公司的機器人(演算法)新聞為例,對其進行「解剖」。

這個流程主要包括個5步驟:

1.讀入大量結構化和標準化數據;

2.測量數據中的「新聞性」;

3.找出合適的報道角度,如果有多個角度,則按照重要性排序;

4.將報道角度與數據中的具體事實(storypoints)相匹配;

5.生成報道文本。

我們在此將以上五步詳細解讀如下:

第一步,所有機器人新聞演算法都需要先讀入大量數據。因此,凡是數據豐富而「乾淨」(結構化和標準化)的領域(如天氣和地震預報等)往往最容易開發出具有實用價值的自然語言自動生成系統。在財經報道和體育報道領域,由於數據較為「乾淨」,因此也是機器人新聞蓬勃興起的領域。如今,隨著感測器嵌入的遍在化,大量「乾淨」數據出現,因而催生了所謂「感測器新聞」(sensorjournalism)?而感測器新聞可以被視為機器人(演算法)新聞的初級版本。這也說明,機器人新聞是否可行,同時取決於數據的數量和質量。

第二步,數據讀入完成後,演算法就開始測量數據的「新聞性」(newsworthiness)。一般而言,演算法會挑出數據中最「反常」的方面,例如NBA賽事中的數據種類包括:得分總數、投籃命中率、三分命中率、罰籃命中率、籃板數、助攻數、搶斷數、蓋帽數、失誤數、上場時間數、參賽場次數等等。演算法會監測和比對歷史數據,一旦發現「反常」,例如以上各數據種類中出現的「最高紀錄」或「最低紀錄」,或者在財經新聞中,股價或匯率變化高於或低於預期(無論這一預期是演算法自己計算得出的,還是外部人員提供的),那麼演算法就認為此數據具有「新聞性」。

第三步,在確定「新聞性」后,演算法接下來就會找出報道該新聞的「角度」(angles)。這些角度實際上是人類記者事先已經確定好的報道框架,供演算法選擇。例如,對體育賽事報道的典型框架包括:「旗鼓相當的拉鋸戰」、「震撼全場的個人英雄主義」、「同仇敵愾的團隊合作」和「後來居上的反擊戰」等等。演算法在選擇具體框架時,往往會參照前一步的「新聞性」特徵。如果存在多個角度(框架),演算法會結合「新聞性」給各個框架打分(1~10分),然後選擇使用得分最高的框架。

第四步,報道角度(框架)確定后,演算法接著從數據中選擇相關部分,即所謂「故事點」(storypoints),如球員名字、得分等,以支持該框架。演算法還可以結合比賽場地、球員背景等信息,按照「接近性」原則優先或重點報道相關球員的表現,包括自動從資料庫中檢索該球員的照片並自動嵌入報道等等。

第五步,對自動生成的新聞稿件從自然語言角度進行潤色。這是技術含量最高的一步。「敘事科學」公司的演算法會不斷地回顧審讀其所使用的框架以及相關的支撐性「故事點」,並將句子與人類自然語句相比對和替代。這一步的主要目的就是讓演算法生成的枯燥文字變得更加可讀。有的演算法(如「自動洞見」公司的演算法)還會在報道文本的生成過程中加入隨機因素,並且可以選擇多種複雜的敘事語氣(如「冷漠的」、「自信的」、「悲觀的」和「充滿激情的」等等)以讓文本顯得更多樣。還有的演算法(如「耶索」公司的)則能結合元數據(metadata),使得基礎故事模板能夠更加靈活,玩出花樣,例如演算法能根據主語的單複數而配套使用相應的動詞形式,或者變換使用同義詞,從而使文本讀來不那麼枯燥。

數據經由以上複雜的演算法處理后產出的財經和體育類新聞報道,大多數讀者都無法將其與人類記者生產的新聞區別開來。這說明,儘管機器人新聞也許會讓很多人從感情上難以接受,但只要這些新聞能滿足我們的信息需求,糾纏「作者是機器還是人」這個問題也許意義不大了。

——以上內容來自機器人網

二、機器人會不會讓記者、編輯們丟掉飯碗?

寫新聞的機器人有其很強的優越性,同樣也有很多局限性,短期內不會完全取代記者和編輯人員,理由如下:

1.受到題材的限制:

目前寫新聞機器人僅僅局限於地震播報、體育賽事、財經信息等行業,功能更多局限在數據發布上,對於更深度的報道,機器人還無法完成。

2.質量:

機器人寫新聞,句法相對簡單,更加複雜甚至帶有情感的句子,機器人完成這些難度比較大。整體上,對於變化內容,以及感情色彩運用沒有人類靈活,因此質量上還沒有到達一個高度。

三、新聞專業就業情況:

新聞學專業就業薪酬統計

專業薪資區間佔比

通過52份新聞學專業就業狀況分析,新聞學專業平均薪酬水平為5390元。

新聞學專業工資按工作經驗和工齡統計,其中0-2年工資¥5250,應屆畢業生工資¥5250。

你認為上面關於新聞學專業的就業薪酬統計準確嗎?和你理想中的薪酬有多大差距呢?

新聞學專業就業排名統計

新聞學專業就業前景怎麼樣?根據75075份就業數據分析出:

新聞學專業在1099個專業中,就業排名第39

新聞學專業在文學79個專業中,就業排名第5

新聞學專業在新聞傳播學類7個專業中,就業排名第2

新聞學專業就業區域和方向統計

新聞學專業就業方向有哪些?哪個地區需求量比較大?

根據75075份就業數據分析出:

新聞學專業專業需求量第一的地區是「北京」,佔22%

新聞學專業專業需求量第一的行業是「互聯網/電子商務」,佔30%

除了上述就業地區和方向外,新聞學專業在下面地區和方向中也特別受歡迎:

新聞學專業就業方向分佈以及新聞學專業就業地區分佈

地址:海淀區蘇州街18號長遠天地大廈B1座3A06(4層)

聯繫電話:010-82629862

感謝大家關注云天聯考!



熱門推薦

本文由 yidianzixun 提供 原文連結

寵物協尋 相信 終究能找到回家的路
寫了7763篇文章,獲得2次喜歡
留言回覆
回覆
精彩推薦