Zi 字媒體

小明來了，有了新聞機器人，聽說記者就可以被替代了？

2021/12/25

原題：今日頭條機器人Xiaomingbot，是如何進行新聞創作的？

作者：李宇傑（作者系Xiaomingbot產品經理）

北京時間8月11日07:30時，奧運會乒乓球女子單打銅牌賽在里約會議中心-3號館展開，世界排名第50的朝鮮選手金宋依對陣世界排名第8的日本選手福原愛，雙方你來我往展開了激烈的較量。最後，耗時49分鐘，金宋依以4:1拿下比賽。雙方各局比分為: 11:7、11:7、11:5、12:14、11:5。

上面這則報道奧運會乒乓球比賽的新聞由今日頭條AI機器人Xiaomingbot撰寫，閱讀量超過5W。

奧運會16天中，Xiaomingbot以與電視直播幾乎同時的速度發布稿件，共完成逾450篇新聞稿，閱讀數總計超過百萬。其報道涵蓋了新聞的基本要素，包括比賽時間、比賽名稱、體育館名稱、比賽規則、比賽持續時間、運動員姓名、運動員世界排名、比賽大比分、比賽小比分及運動員國籍和年齡等。

此外，Xiaomingbot還可以給新聞人物添加配圖。據統計，其文章閱讀率與同期職業體育記者撰寫的新聞相同。

不過，Xiaomingbot並不是第一個自動寫新聞的機器人。40年前，耶魯大學就曾開發出一套可將數據轉移成新聞故事的系統。後來這套演算法被改進為不同的自動化寫作服務Narrative Science和Automated Insights。

Automated Insights這個名字聽起來或許有點陌生，不過後來就是它們的產品——Wordsmith Platform在幫助世界最大的通訊社——美聯社自動生成財經新聞，報道每季度上市公司發布的財報數據。

除此之外，美國最具影響力的兩家報紙《華盛頓郵報》和《紐約時報》都嘗試了對機器人寫新聞的探索。《紐約時報》數字部門開發了機器人編輯Blossombot，在財報季、體育賽季進行自動新聞創作。《華盛頓郵報》也在今年奧運期間採用寫稿軟體 Heliograf自動生成並在 Twitter上發布新聞。

國內也有很多寫稿機器人的例子。近些年，媒體領域出現越來越多的自動寫作新聞機器人，主要緣於人工智慧技術已經達到了一定的成熟度，並且這種成熟度可以和新聞通訊報道的要求匹配在一起。

但與其他新聞創作機器人相比，Xiaomingbot的報道領域不止局限於比較簡單的簡訊，它還可以生成描述、總結比賽類的長文章。

目前，Xiaomingbot在結合了最新的自然語言處理、機器學習方法后，可以通過三種文本生成技術產出新聞：

一是針對結構化數據和知識庫生成自然語言的比賽結果報道；

二是通過總結網路直播中的文字和評論提煉出賽況描述；

三是通過文本摘要技術在既有文章基礎上概括精鍊的文章概要。

資料庫對接、信息搜集、文本生成、潤色完成報道，最後發布、推送到手機客戶端，這一系列的行為都是由AI在2秒之內自動完成。而此前，其大部分步驟是通過人工實現的。

事實上，人工智慧系統在進行新聞創作時需要解決非常多的技術難題，包括自然語言處理中的語言模型、自動摘要、句子選取、語義改寫、知識發現等，甚至包含複雜的技巧如邏輯推理和比喻排比反問等句式的運用。

簡單來說，就是機器首先需要理解新聞事件各個要素之間的關係，然後通過生成演算法寫出合乎邏輯條理清楚的文章。這對機器來說是一項極具挑戰性的任務。

目前來看，Xiaomingbot完成得還不錯。它甚至能夠根據比賽選手的排名、賽前預測與實際賽果的差異、比分懸殊程度，自動調整生成新聞的語氣，並使用感情色彩的詞語，如「實力不俗」、「笑到了最後」等等，根據不同的新聞內容表現出不同的語言風格。

奧運會結束后，Xiaomingbot仍在繼續著它的新聞報道，目前報道內容包括歐洲頂級足球聯賽、NBA賽況與每日球賽總結、CBA比賽播報、中超比賽播報，以及今日頭條科技、教育、財經等12個頻道的每日熱點回顧。

是不是有了Xiaomingbot，記者就可以被替代了？

我個人並不這樣看。儘管它可以自動完成新聞創作，但Xiaomingbot還不能替代記者。新聞寫作機器人更大程度上是作為記者的助手出現，我們希望它可以幫助記者提高效率，將他們從簡訊中解脫出來，去專註於那些需要進行深度思考和報道的內容。

另一方面，Xiaomingbot非常重要的意義在於，面對奧運會這樣同時舉行上百場比賽的綜合賽事，記者很難關注到每一場比賽，而機器人可以顧及每一場比賽，無論比賽多麼冷門和不重要。傳統新聞理論並不認為這些冷門比賽或者熱門比賽（比如乒乓球）的前幾輪小組賽有新聞價值，但通過近日頭條平台的測試，發現讀者對冷門場次的報道仍然有可觀的閱讀量，新聞寫作機器人就可以彌補對這種長尾的新聞需求。

不止是新聞寫作機器人，我們人工智慧實驗室還研發了CFO問答系統，可以回答一些簡單的知識類問題。比如哈利波特在哪裡上學？機器不僅會回答你霍格沃茨中學，甚至還可以告訴你一直被忽略的國小的名字。

這個問題系統可以採用結構化的方式對知識進行表示來讓計算機理解。在由Facebook做的公開數據集上，CFO問答系統的準確率達到了75.7%，超過了之前Facebook做出的62.9% 準確率的最好結果。這項研究將有希望應用於今日頭條去年推出的頭條問答產品中，自動回答用戶提出的一些簡單問題。

基於機器學習技術，人工智慧機器人可以寫作、可以問答問題，但這並不意味著他們已經接近無所不能，甚至短期內也與真正人類的智能有很大差距。

Xiaomingbot對體育類新聞的生成是比較好的，但是如果把它推廣到所有品類做成非常通用的文本生成機器人還是有很長的路要走。而且目前自動創作機器人所能生成的新聞都是陳述性的，如果需要撰寫分析性的文稿（即分析事件之間的因果關係，歸納一些事件之間的規律）就比較困難。雖然也有一些演算法可以生成詩歌，但通過通用方法創作即使是短篇小說也幾乎不可能。

另外，從與機器人對話就可以很容易發現，機器人並不能真正像人類一樣理解每個問題的意圖。即使問答機器人在知識類問題的回答能達到75.7%的準確率，但它仍然不能處理更通用的問題。比如原理性、步驟性以及深度解釋類的問題。假如你問他人生的意義是什麼，機器人很難回答你。

而機器學習也並不是解決一切人工智慧問題或者說實現人工智慧的萬能鑰匙。

首先，深度學習或者機器學習在解決有監督學習的問題上是非常有效的，但是同時它也帶來局限。這種有效建立在目前大量的數據累積和複雜的模型基礎上，但恰恰是因為需要大量的數據，尤其是需要非常大量標註好的數據，給深度學習帶來了局限性，因為通常標註或者獲取這些數據所需要的代價是非常大的。

其次，局限還存在於通用性或者可擴展性上。問答機器人可以回答知識類問題，但很難再去回答其它的問題，這就是通用性和可擴展性的局限。

今日頭條實驗室科學家李磊博士就曾簡單提出過目前人工智慧領域一些值得研究的問題，也是他正在關注的問題。

一是機器學習模型的可解釋性。深度學習模型在很多問題上做得非常好，可是有時候人們只知道模型做得好，但其實並不知道它為什麼做得好。或者模型犯錯了，但研究人員並不知道它為什麼犯錯，這就是可解釋性的問題。機器學習還需要更多地去研究一些模型一些方法，讓它能夠對自己的行為做一些預測和分析、解釋，當它做得不好的時候，它知道自己為什麼做得不好，就像人一樣，能夠分析自己的錯誤。這是第一點。

二是推理能力。應該能夠更多地跟周圍環境當中的物體去交互去推理，機器學習目前做的離推理稍微有點遠，還只能做非常簡單的判別，比如說判別一個類別。但更複雜的推理實際上還是比較難的，所以未來還需要在這方面做更多的突破。

三是很多人之前可能忽略的問題。目前的研究更多的在關注模型、性能和準確率，但是很少有人在意這些超過人類的智能，比如達到比專業棋手水平還高的圍棋機器人Master，實際上需要消耗非常非常多的計算資源。未來更好的演算法是能夠在最少能耗情況下去達到更高的智能水平。對人工智慧行業來說，儘管現在的機器人已經可以很好地進行一部分新聞的創作，但如何去實現通用人工智慧未來還有很多問題需要人工智慧學者、機器學習專家去研究和解決。

有情懷的新媒體，有深度的閱讀，有角度的觀察，有態度的互動。部分文章來源網路，標註來源作者，只為分享價值，與商業利益無關。如有異議，請聯繫：[email protected]。

桃園 qq 地點貓咪桃園市 taoyuan xuan 根部尾巴有大桃園旅遊景點