【精品】大數據文本挖掘在廣播電視中的應用與探索

本文由《廣播與電視技術》雜誌獨家授權。本文刊發於2017年第4期。

本文在提出一種基於多種人工智慧技術的媒體創新平台，詳細討論了廣電大數據文本挖掘在傳統廣播電視領域中的應用與探索。提出了業界首個基於五大模塊（依據工作流的處理方向，依次為互聯網數據檢測與收集模塊、數據篩選與預處理模塊、數據分析與特徵提取模塊、數據統計與分析模塊、以及數據可視化模塊）的廣電大數據分析平台，並給出了技術框架設計與各模塊的實現框圖，給出了最終平台實現的數據可視化界面。

近年來，隨著信息技術與廣播電視行業的不斷融合，作為傳統意義上評判廣電節目好壞唯一指標的收視率，已不能滿足對新媒體內容價值評估的需求。傳統的收視率數據反映的只是用戶收視行為，即誰在看，看什麼，看了多久。然而該指標無法反映出觀眾對節目的評價與感受；也無法知道人們關注的熱點是什麼；更做不到實時反饋。很顯然，傳統收視率指標已遠遠不能滿足新媒體環境下，對廣電節目全方位的，快速的價值評估的需求。

因此，在大數據時代，廣播電視行業如何順應當今媒體發展的潮流，更準確、實時地了解受眾的感想和需求，是擺在廣電人面前不可迴避的課題。據2016年1月12日，路透社向全球發布的《2016年新聞、媒體、技術預測》報告[1] 顯示，英國廣播公司BBC、英國《金融時報》等許多大出版商和媒體都在投入力量以更好地分析用戶數據，提高用戶黏性。76%的受訪者認為，媒體要提高分析用戶數據的能力。45%的媒體和出版商使用自己開發的平台了解內容的傳播情況。可見，媒體人在當今激烈的競爭中，對了解用戶需求的重視。

在此背景下，本文要推出的課題就是怎樣把大數據挖掘應用於廣播電視，用文本挖掘和大數據分析的結果，打造一個可以實時洞悉受眾的心聲，掌握收視情況和競爭的態勢的全新平台。該系統將是業界首次將大數據文本挖掘和人工智慧信息處理技術引入到廣播電視領域的嘗試。在技術上，將多種機器學習演算法與分散式計算技術，包括網路爬蟲、分散式消息隊列、分散式哈希表、樸素貝葉斯網路、POS分詞、詞向量模型、神經網路、PCA主元分析、SVM支持向量機、K-means無監督分類、回歸分析等，成功融合到同一個系統中。從而也為相關技術與系統在廣電領域內的應用與推廣提供了可行的技術依據。在有益成果上，廣電文本大數據系統通過對受眾需求進行充分的分析，使廣電部門能夠科學系統、有針對性和前瞻性的規劃和設置欄目，在保證其收視率的同時，為地區社會生活提供正確的輿論導向，提升廣播電視影響力。同時，廣電文本挖掘也能為各級領導解決發展思路和方向、定位問題；解決戰略布局和發展措施問題，全面統籌規劃提供決策依據。

1 廣電大數據分析介紹

本章節將從對傳統廣播電視數據分析方法的討論開始，分析其存在的問題。從而針對這些問題，提出一種基於網路文本大數據的新型廣電大數據分析方法。

1.1 傳統的廣電數據分析方法

目前採用的收視率數據採集[2]方法有三種，即日記法、電話訪問法和人員測量儀法。日記法是指通過由樣本戶中所有4歲及以上家庭成員填寫日記卡來收集收視信息的方法。電話法是通過打電話的方法搜集信息。測量儀器法就是在樣本戶家中放置測量儀，利用「人員測量儀」來收集電視收視信息並傳送到總部。通過這幾種方式進行廣電數據採集存在以下幾大問題：1. 樣本有限，統計信息不夠全面；2. 信息無法做到實時；3. 統計信息準確度不夠；4. 需要定期投入較大的人力成本；5. 忽略了目前用戶活躍度極高的微博、公共微信朋友圈、本地論壇等網路信息來源。而事實上，現在用戶會越來越多地通過這些互聯網的渠道表達他們的看法，並探討熱點話題。

1.2 廣電文本大數據挖掘概述

在此背景下，我們提出了一種自動化的廣電文本大數據挖掘系統。該系統不僅對由傳統渠道中人工錄入的結構化數據進行分析，還能夠從網路上海量的非結構化文本中提取出觀眾關注的熱點問題，了解觀眾對節目的評論，再把熱點去和結構化數據做關聯分析，並生成可視化的相應分析結果（如收視率變化，節目關注度，熱門話題分析等）。

本章節採用自頂向下的設計方法，詳細討論了系統的總體技術架構框架，系統在實現層面的五個模塊，以及各模塊的內部實現。

2.1 廣電大數據系統技術框架設計

本系統的技術框架設計如圖1所示，主要分為分散式消息隊列、計算集群、資料庫與文件存儲、以及前端網頁伺服器。具體來說，由於此類大數據系統都具有信息輸入量大，處理計算量大，存儲內容多等特點，我們需要分散式的系統框架來滿足系統的實時性和高吞吐量。首先，我們採用基於Apache Spark[3]的高性能計算集群進行大數據的爬取、收集和處理。具體處理邏輯通過調用Spark Python編程語言介面即pySpark實現。這些集群由Zookeeper[4]進行監控和管理，以保證計算集群的穩定性和健壯性。由於我們將在同一組集群上部署多種不同的任務，且各模塊任務特性的不同，處理速度可能各不相同。因此模塊間的通信採用基於Kafka 的分散式消息隊列[5]，實現非同步無阻塞的消息傳輸，從而提升整個系統的實時性和處理速度。我們採用Cassandra[6]作為分散式NoSQL資料庫用來存儲處理得到的大量分析數據，並將自動生成的相關報告文件存儲到分散式文件系統HDFS[7]中，這兩個存儲框架的高效的讀寫性能能夠保證海量數據寫入與讀取的實時性。最後，我們的網頁伺服器前後端均採用基於Javascript的框架，即後端的NodeJS[8]和前端的AngularJS[9]，來保證整個項目的高效快速開發。

圖1 廣電文本大數據系統技術框架設計

所有上述技術選型均採用當前的較為成熟技術框架，這些框架均被谷歌、臉書、阿里、百度等大型互聯網企業，成功應用於多種不同的大數據系統中。

2.2 廣電大數據系統工作流設計

如圖2所示，基於上一節闡述的技術框架，廣電文本大數據系統的設計實現工作流，可以分為五大模塊。依據工作流的處理方向，依次為互聯網數據檢測與收集模塊，數據篩選與預處理模塊，數據分析與特徵提取模塊，數據統計與分析模塊，以及數據可視化模塊。模塊間遵循「高內聚，低耦合」的設計原則，各模塊均有明確定義的輸入輸出，且前一模塊的輸出即后一模塊的輸入。

圖2 廣電文本大數據系統工作流模塊框圖

圖3總體給出了各模塊內部的詳細設計框圖，本章的剩餘章節將針對這些設計給出具體描述。

圖3 互聯網數據監測與收集模塊實現框圖

2.3 網路數據監測與收集模塊實現

該模塊負責實時將網路上的相關內容全部下載，並以HTML的格式輸出。具體來說，如圖3 左上所示，該模塊只需要人工輸入若干個種子URL地址（如節目/ 電視台微博公眾號、本地論壇首頁、百度關鍵字搜索頁面等）。通過對這些種子地址中含有的鏈接進行進一步抽取，即可得到一個數量龐大的URL地址隊列。將每個URL地址進行DNS解析並採用HTTP GET命令即可得到HTML格式的網頁內容。該模塊可由多個分散式節點組成，各節點協同工作分別負責一部分地址的抽取。這樣，即可高效實時地不斷獲取最新的網頁，並作為整個系統的持續不斷的海量數據源。

2.4 數據篩選與預處理模塊實現

該模塊以海量相關HTML網頁內容為輸入，以篩選后的結構化內容為輸出。由於輸入數據源全部都是從互聯網上通過網路爬蟲獲取，不可避免的包含大量雜訊信息。因此，該模塊負責對這些內容進行多次篩選，從而保證獲得有效高質量的分析信息。

如圖3右上所示，該模塊的實現基於兩次內容篩選，一次結構化操作和一次詞性分析。具體來說，首先，所有的網頁文件會通過一個關鍵字篩選模塊，將不含有相關關鍵字的網頁內容去除。然後，系統對初步篩選后的內容進行結構化規範，去除HTML 標籤，並提取出格式化內容( 如用戶名，發表時間，評論/ 話題內容等)。進一步的，我們對結構化后的文本內容進行POS 詞性分析，並將助詞(如「的」，「了」，「得」等)、代詞( 如「你」，「我」，「他」等)、語氣詞( 如「吧」，「啊」，「哦」等) 等信息含量較小的單詞去除。基於篩選后的單詞，我們使用樸素貝葉斯分類器進行二次篩選，從而能夠有效地去除廣告內容，垃圾內容等，進一步保證了挖掘到的內容的高質量。經過這兩次篩選之後的結構化內容即作為該模塊的輸出，進入下一模塊。

2.5 數據分類與特徵提取模塊實現

該模塊以篩選后的結構化數據為輸入，對這些數據進行文本分析后，輸出歸類后的用戶評論數據以及相關分析結果。如圖3左下所示，該模塊採用基於詞向量的語義分析方法，配合機器學習的分類演算法，對文本產生分析結果（例如文本正面/ 負面情緒分析，政治敏感度指標分析等）。具體來說，首先，分詞並篩選后的文本內容會通過詞向量模型，轉換成高維空間中的向量組。該詞向量模型本質上是一個輸入為n-gram語料庫的神經網路模型，其可由公開的中文語料庫（如中文維基百科）附加預先抓取到的廣電特定文本（如節目內容介紹，官方節目評論等）作為輸入，以最大似然估計作為目標函數值訓練得到。由於這些輸出的向量組維度相對較高（在默認配置下，谷歌word2vec[10]工具生成的向量維度為每個片語500維），對後期處理造成比較大的負載。因此我們進一步通過PCA主元分析對特徵進行選擇並進行降維。經過降維操作后，我們將詞向量的維數降低到100維左右，即得到最重要的100個維度特徵。我們將一部分此類文本進行人工預標記（例如哪些文本是表達的負面情緒，哪些文本的政治敏感度較高），並將這些文本的詞向量組作為輸入，採用SVM支持向量機進行訓練。訓練后得到的文本分類器模型即可用於對未知文本進行分析判斷，從而得到其對應的標籤。最後，這些帶標籤的結構化數據成為本模塊的輸出數據，進入下一個模塊。

2.6 數據統計與分析模塊實現

該模塊以語義分析后的結構化數據為輸入，經過統計、聚類、計算后，將數據全部匯聚到文檔性分散式資料庫中，供下個模塊的數據可視化操作使用。由於各種不同的統計操作之間相對獨立，相互間沒有依賴，因此我們採用分散式并行計算框架來提高本模塊的處理和讀寫效率。

如圖3右下所示，該模塊針對同一類數據的不同方面，進行全方位多角度的分析，並將分析結果寫入到資料庫中。具體來說，這些統計與分析方法包括但不限於：

1. 以節目為單位，對單個節目的熱度統計，以及在此基礎上對節目熱度的排序，平均值計算，最優/ 最差節目統計等，從而準確掌握對各個節目的走勢分析；

2. 對各個節目進行討論的觀眾群體分析（如平均年齡、男女比例、地域劃分等），從而得到對節目受眾群體的準確認識；

3. 對熱門話題的詞雲分析，找出出現頻率較高的熱點單詞，從而能夠實時搜集關注熱點，並對熱點問題進行回答或進行正確的輿論引導；

4. 採用k-means演算法對同一節目的觀眾以話題或相似指標進行觀眾聚類，從而能夠根據不同觀眾群體的不同關注度來精確投放廣告，以獲得最大效益；

5. 採用回歸分析的方法，將節目與觀眾特質的內在聯繫用數學函數的形式表現出來，從而理解不同的節目設置與其對所收看的觀眾群體的影響。

2.7 數據可視化界面實現

數據可視化模塊是本系統的最後一步，負責將數據以用戶友好的方式呈現給廣電系統的相關管理人員。如圖4所示，其具體表現為一個直觀的網頁形式。其中前端頁面以HTTP請求的方式通過Rest API介面與服務後端交互，從而取得分散式資料庫中的相關數據。根據這些分析統計得到的數據，在頁面以多種圖形的方式，實時顯示分析結果。這些結果包括但不僅限於：

1. 節目關注度及排行；

2. 特定節目關注度走勢與所有節目平均走勢；

3. 實時熱點話題分類；

4. 觀眾年齡、性別、地域分析；

5. 實時熱點話題詞雲分析；

6. 每個節目的實時熱點用戶評論更新；

7. 觀眾評論的實時情緒分析；

8. 觀眾評論的實時政治敏感度分析。

圖 4 數據可視化界面與最終平台實現

在具體試點系統實施中，我們使用2台伺服器構建一個小型集群，每台物理伺服器配有2TB 硬碟，64GB內存，Intel Xeon E5系列4核2.9GHz主頻CPU。操作系統使用Ubuntu 16.04 server 版，並在每台伺服器上使用安裝腳本自動安裝並配置Spark、HDFS、Kafka、Cassandra 以及開發環境（包括Java、Python、Vim、NodeJS 等）。物理機之間通過千兆網線連接，並通過一個萬兆路由器連接公有網路。為保證廣電內部網路的安全，我們也在路由器上設置了數據的單向性，即只允許HTTP數據請求由我們的伺服器發出，從而屏蔽所有來自外部的數據請求。在試點期間，我們平均每日從新浪微博、本地論壇、百度貼吧、優酷評論等數據源，通過分散式網路爬蟲腳本抓取超過50 萬條源記錄，並進行處理。

按照第三章所述的工作流程設計，我們最終將分析結果通過數據可視化界面模塊，以圖4 所示的直觀的方式呈現在廣電系統的管理與策劃人員的面前。目前系統涵蓋小新說事、嘉興新聞等5項嘉興廣電集團的具體欄目，分析內容包括節目關注度、熱點話題分類、政治敏感度分析、觀眾分類、熱點話題關鍵字雲等。當然，這是一個可以不斷升級和完善的系統，根據實際需求對界面進行修改，對內容進行增減。

4 廣電大數據挖掘的效益分析

如圖5所示，本系統的實現將能為傳統廣播電視行業的內容價值評估帶來全方位的提升。概括來說，首先，系統所能收集到的觀眾反饋數據更多樣化，覆蓋更全面。其次，通過領先的人工智慧與機器學習技術，能夠對海量數據進行更完整更全面的分析與統計。最後，通過這些統計數據，我們能得到更多的可視化圖形，並在此基礎上得到對廣播電視節目更多的啟發。因此，本章將從觀眾反饋數據覆蓋度、大數據處理的創新性、以及分析結果的全面性，三方面對廣電本文大數據挖掘系統進行效益分析。

圖5 廣電大數據系統效益示意圖

4.1 觀眾反饋數據的覆蓋度與實時性

從數據輸入的層面來說，首先，廣電大數據系統擴大了觀眾反饋數據的分析範圍。傳統方法只是基於進行抽樣調查，而通過我們的廣電大數據分析系統也能夠對觀眾在互聯網上發表的各類海量文本內容進行分析。從有限的樣本擴大到海量樣本，從而獲得更準確、全面、實時的信息。在用戶越來越多地使用網路平台發表自己聲音，探討熱點話題的時代，只有對大範圍的多源數據進行匯總分析，才能真正更加了解觀眾的心聲。

其次，廣電大數據系統也豐富了對觀眾數據分析的手段。傳統方法下，廣電數據分析方法只對觀眾的人數、性別、年齡進行簡單統計。而本系統可以分析觀眾的所思所想所關注，實時搜集關注熱點，並對熱點問題進行回答或進行正確的輿論引導，從而提供全方位的測評標準。

最後，系統也同時提升了分析的效率，由傳統的人工參與、人工統計與計算、人工書寫報告，改進成為計算機收集信息，自動分析，與自動生成報告，從而節省了大量的人力物力。

4.2 廣電大數據處理的創新性

在廣播電視海量觀眾文本數據的信息處理方面，本系統是廣播電視行業中首次將人工智慧、機器學習、與語義分析等領域的諸多技術，成功整合到一個完整系統的積極嘗試。

從技術實現的層面上來說，廣電文本大數據挖掘系統涉及到多個科學技術領域，包括資料庫、信息檢索、信息提取、信息分類、自然語言處理、分散式計算、統計分析、組合優化等。這些技術領域的實現，每一個都具有自己獨特的創新性。而我們更是在此基礎上，將這些技術領域內包括網路爬蟲、分散式消息隊列、分散式哈希表、樸素貝葉斯網路、POS分詞、詞向量模型、神經網路、PCA 主元分析、SVM 支持向量機、K-means 無監督分類、回歸分析等具體技術完整實現並有機地協調起來，最終用於實現廣電大數據的整套工作流，則是將技術實現的創新性更提升到一個新的層次。

從系統應用的層面上說，在如今的大數據時代，傳統廣電行業面臨互聯網等新媒體的激烈挑戰，如何實現廣播電視行業與新媒體的雙贏局面，是當前廣電所面臨的一大難題。而本系統的目標，則正是致力於解決這一難題。系統的實現流程和技術應用方法，為在廣電領域內的大規模應用與進一步推廣提供了可行的技術依據。

4.3 廣電大數據分析結果的全面性

基於更全面的觀眾數據收集與更先進的信息處理方式，本系統能夠將分散、零碎堆積的海量數據內容進行有效地整合，並將分析結果以最有意義、最直觀的方式呈現在廣電系統的管理與策劃人員的面前。具體來說，透過這些分析，播出的節目可以得到更科學、更準確、更全面的評價，從而為節目的改善改進提供有力的依據。我們的記者可以根據所檢測到的實時熱點話題與熱點評論，對突發事件、熱點時間進行快速追蹤，從而得到第一手全方位的報導。節目策劃人員也可根據實時觀眾反饋數據和熱門評論，打造出熱門的跨媒體的實時互動節目，創造具有廣泛關注性的節目內容，創作出更能滿足觀眾的需求、更具網路傳播特性的節目。廣電節目的廣告投放商則可根據不同節目的不同觀眾群體和其行為，為節目精準設計並投放廣告，從而提高經濟效益，並同時提升觀眾滿意度。廣電系統的領導更可以根據數據分析的結果，快速、有效地調整節目安排策略，和相應的人員配置調整，從而做出更科學、更有前瞻性的決策。

以用戶為中心並不是一個新鮮的議題，但互聯網時代賦予了用戶更多的權利與意義。對媒體而言，必須時刻清楚自身用戶是什麼人、用戶的需求是什麼、如何滿足需求等。據報道，臉書（Facebook）正在計劃推出多樣的情緒按鍵，並已在西班牙和愛爾蘭測試。臉書CEO馬克扎克伯格(Mark Zuckerberg) 說：「人們有時想表達同情或同感，並不是所有的內容都可以『贊』」。我們的文本挖掘，正是有著無數情緒按鈕的系統，不但可以知道有多少個贊，還是一種可以了解人們的具體想法和真實情感的新手段，是一個受眾深度洞察的工具。

通過文本挖掘我們可以看到《鋼鐵俠》里的情景將變為現實：計算機像幫助鋼鐵俠那樣幫助記者，自動提供最新的信息，告訴記者哪有突發的事件，哪發生了什麼大眾感興趣的事。通過文本挖掘掌握了大量的信息后，我們的記者就把某個事件看得更加清楚與全面，事件複雜的演進過程以及這個過程中的各個方面，都能描述得直觀且有趣 [11]。未來真正高效強悍的全能記者，應該是那些善於藉助「機器人」的人。

據美林公司(Merrill Lynch) 和高德納公司(Gartner) 聯合進行的一項調查表明，85% 的企業數據或多或少是以無序的方式收集儲存的。廣播電視是一個每天都產生大量的信息的領域，用文本挖掘的方法，搭建起一個媒體研究的創新平台，通過這個平台，我們可以從大量無序的信息中提取有用的內容，經過對文本信息的抓取、過濾、挖掘及分析，能夠高效且有效地挖掘文本數據背後的資源，完成對媒體現狀和我們所關注問題最全面的分析報告。助力媒體騰飛。

廣電媒體要深刻認識自身所處的發展階段，直面新媒體帶來的挑戰，抓住時代帶給我們的機遇。通過利用技術手段來達到受眾面增加不僅是一種創新，更能順應發展的需要，可以毫不誇張地說，將文本挖掘用於廣播電視領域將是是一種全新的嘗試，在此基礎上建立起來的這個系統將成為提高媒體競爭力的一項重要手段。

參考文獻

[1] Newman, Nic. Journalism, media and technology predictions 2016 [ J]. Reuters Institute for the study ofjournalism, Oxford University Press, 2016(4).

[2] 李宇. 數字時代收視率調查的挑戰與變革——以美國尼爾森公司為例[J]. 廣播電視學刊 2014(3).

[4] Apache ZooKeeper [ Online] https://zookeeper.apache.org/doc/r3.4.9/ 2016-04-09.

[5] Apache Kafka, A Distributed Streaming Platform [ Online].https://kafka.apache.org/ 2016.

[7] Apache Hadoop, Hadoop Distributed File System ( HDFS)[Online]. https://hadoop.apache.org/docs/stable/hadoop-projectdist/hadoop-hdfs/HdfsUserGuide.html 2016-01-26.

[8 NodeJS.[Online] https://nodejs.org/en/ 2016.

[9] AngularJS. Superheroic JavaScript MVW Framework [ Online].https://angularjs.org/ 2016.

[10] Mikolov, Tomas, Ilya Sutskever, Kai Chen, Greg S. Corrado,and Jeff Dean. Distributed representations of words and phrases and their compositionality [J]. In Advances in neural information processing systems, 2013:3111-3119.

[11] 陳力丹，李熠祺，娜佳. 大數據與新聞報道[J]，新聞記者，2015(2).

作者簡介

俞冶，女，1959 年出生，高級工程師，就職於浙江省嘉興市廣播電視集團總工辦。近年在《第二十屆國際廣播電視技術討論（ISBT2015）論文集》發表了「利用BloomFioter 優化廣電雲內容路由」一文，在《廣播與電視技術》上發表了「雲媒體融合電視的解決方案的研究與實現」一文。