search
尋找貓咪~QQ 地點 桃園市桃園區 Taoyuan , Taoyuan

鵝廠分享會 | 你的興趣,微信都知道!

背景

隨著公眾平台和朋友圈的誕生,每天數以萬計新增公眾號以及百萬數量的圖文消息內容產生,朋友圈和公眾號已成為了微信兩個非常大的流量入口。在大數據時代,如此龐大的業務數據,無論是對微信商業化還是公司大數據戰略布局來說,其價值可見一斑。要想充分利用這些數據,我們需要對這些數據內容進行分析挖掘、發現其價值所在。

每天有超過5億的活躍用戶,而且這個數據仍然在增長,可見每天會產生多少圖文消息的點擊閱讀、分享轉發、評論點贊等用戶行為記錄數據。而這些公眾號是什麼類型或者內容性質?其下發的圖文消息都是關於哪些方面資訊內容?用戶喜歡閱讀、分享哪些類型的文章?或者說用戶閱讀興趣在哪?要想解決這些問題,首先我們需要對公眾號及其下發資訊文章內容進行深入分析和挖掘,建立一套完整分類體系。有了分類體系,就可以對用戶的閱讀興趣進行定性和量化,為微信用戶擴展畫像提供重要特徵數據來源;同時,其應用場景也非常廣泛,尤其在移動廣告、搜索、推薦等業務應用中發揮著重要作用。

分類體系

本文主要從公眾號及其下發圖文消息內容進行分析挖掘。微信公眾號是一個自媒體平台,一般來說,每個公眾號屬於一個領域或行業範疇,其下發的圖文消息內容大部分也是關於某個領域或者行業的信息資訊。因此,相似公眾號下發內容具有相似性;反過來也類似,發表相似內容的公眾號一般屬於相同領域或者行業,這也是我們構建分類體系的前提基礎和依據。

目前,微信公眾號數量已超過千萬,每天以數萬新公眾號速度增長,而且每天新增的圖文消息文章數也超過百萬數量,基本上覆蓋了絕大部分主流行業和領域。通過對最近三個月公眾號下發的圖文消息內容進行聚類分析,並對聚類結果進行人工校驗和整理合併,對分類體系進行多層級設計和規劃。目前分類體系包括一級類別46個和二級類別(子類)170個。其部分類別層次體系如圖1所示。

圖1 閱讀興趣層次類別體系

技術方法

為了構建分類體系,我們拉取了三個月公眾號圖文消息文章數據,對其進行了過濾、分詞(SEG)、詞性標註(POS)、實體識別(NER)等預處理後進行內容聚類分析;然後人工校驗和整理合併形成分類體系;接著,根據這些分類體系進行模型訓練和資訊文章分類;最後,結合用戶的閱讀點擊行為記錄,計算用戶的閱讀興趣分佈。具體的構建方法實現如下:

公眾號內容聚類

為了構建用戶興趣分類體系,我們首先需要對用戶閱讀的公眾號資訊文章內容進行聚類分析。不同於微博或其他社交自媒體平台,微信公眾號開放平台主張和力推原創及高質量內容,其下發的圖文消息中絕大部分文章內容都有質量保證,而且文章標題基本上概括並表達了文章中心內容。因此,採用資訊文章標題作為聚類內容,為了避免數據稀疏性,擴大時間窗口,採用近期三個月文章標題數據進行聚類,由於數據量巨大,單機基本無法完成計算,因此,我們實現並採用了并行化主題Topic(PLSA)聚類以及并行化Paragraph2Vec + AP聚類(Affinity Propagation Clustering)演算法。Topic聚類對粗粒度的一級類別效果比較明顯;對於二級細粒度類別,我們主要利用Paragraph2Vec提取特徵,生成特徵向量矩陣作為AP聚類演算法的輸入。AP聚類最主要的優點就是可以不用事先指定聚類個數,演算法自動確定聚類個數;同時,該演算法與K-means演算法不同之處還在於聚類中心是實際存在的點,對於公眾號下發的圖文消息聚類來說,可以直接定位到具體的資訊文章標題內容,方便人工評估和效果驗證,如圖2中的綠色虛線框部分。

圖2 分類體系構建技術方法

我們選取了具有一定數量冬粉數,且最近三個月有下發圖文消息的活躍公眾號,對其下發的文章標題內容進行聚類,最終聚類的結果數約五千個左右,然後經過人工篩選、合併后,最終形成包括一級類別46個(除了心靈雞湯、時事政治兩個類別外,實際類別44個),二級類別170個的公眾號資訊文章多層類別體系。

訓練語料獲取

有了分類體系后,我們就可以進行有監督的分類模型訓練,而訓練語料的獲取是分類模型訓練的前提和基礎,訓練語料的規模及質量直接影響著分類模型效果。

對於分類體系中一級類別來說,由於其類別間區分度較大,而且類別粒度比較粗,訓練語料的選取相對簡單,我們使用主題分佈得分以及規則方法直接選取各個一級類別的訓練語料。而獲取二級子類訓練語料相對比較複雜,主要原因是二級各個類別數量分佈差異較大,部分子類語料數量較少;另外,同一個類別中的各個子類別之間的內容有交叉重疊。針對上述問題,我們採用并行化Co-Training和PU-Learning演算法進行二級子類訓練語料的獲取。其中,Co-Training主要作用是選取種子語料;有了種子訓練語料后,結合PU-Learning方法進行語料正負樣例擴充,然後Sampling輸出到分類器進行訓練,以保證分類模型效果,如圖2中紫色虛線框部分。

分類特徵提取

特徵選取的好壞直接影響了分類效果及模型穩定性。本文只要主要採用了三大類特徵:Bayes分類特徵、Topic主題特徵、Paragraph向量特徵。Bayes分類特徵由貝葉斯分類器模型提供,這部分特徵包括216維向量,每維向量都是一個0到1之間的實數;Topic主題特徵主要是通過并行化的PLSA聚類結果產生,其有效特徵維數為504,每維向量都是該topic的概率值;最後一類特徵為段落向量特徵,這部分特徵主要來自公眾號圖文消息Paragraph2Vec生成結果,即每個公眾號由400維實數向量組成。通過實驗發現,這三大類特徵都是強特徵,每類獨立特徵對分類效果都有很大的幫助,其綜合特徵更是大大的提高了整體的分類效果。

分類模型訓練

解決分類問題的方法有很多,包括單一分類法和組合分類法。常見的單一分類法主要有貝葉斯(Bayes)、決策樹(Decision Tree)、人工神經網路(Artificial Neural Network,ANN)、最大熵(Maximum Entropy)、支持向量機(Support Vector Machine,SVM)等;組合分類法比如Bagging、Boosting等。沒有最好的分類器,只有最合適的分類演算法。針對不同的數據和規模,選取的方法及效果都會有差異。我們採用了自上而下的訓練方法,即先從一級分類模型訓練開始,採用基於語言模型結合貝葉斯分類的方法,進行一級分類模型的訓練,形成一級類別分類器,並將一級分類器結果輸出特徵化後作為二級分類的特徵輸入。如前所述,二級分類較一級分類複雜,而且子類與之類之間的相關性較大,因此,為了更好的學習有效特徵,我們採用基於GPU并行多層深度神經網路演算法進行二級分類模型訓練學習,如圖2中橙色虛線框部分,其中實箭頭線表示訓練過程,虛箭頭線表示測試過程。

一級分類模型主要採用的二分類方法,二級分類模型採用的是多分類,主要原因:首先,一級分類粒度相對比較粗,類別之間的區分度較大,同一篇文章往往可能同時屬於多個類別,比如旅遊類和美食類有可能同時皆有,所以需要對每個類別設定閾值;而二級分類粒度較細,類別之間的有重疊和交叉,分類難度大,需要有一個橫向得分對比值進行結果排序;其次,二分類調試和優化相對簡單些,可以針對單個類別進行,而多分類每次調試比較複雜,只要其中一個類別效果不好,所有類別都需要重新參與訓練,優化成本高;最後,我們的類別體系是自上而下進行模型訓練,可以通過一級分類結果有效監督指導二級分類,採用二分類加多分類的方法可以有效提高分類效果,同時,可以減少模型開發周期,實現模型快速迭代。

模型效果評估

評估模型效果的方法有很多,不同演算法有不同的評估方法和指標。對於文本分類模型來說,常見的評估方法包括精確度Precision、召回率Recall、F1值、ROC(Receiver Operating Characteristic Curve)曲線以及AUC(Area under the Curve of ROC)等,其中F1值= (2 * Precision * Recall)/(Precision + Recall)。本文主要採用F1值作為分類模型評估方法,經實驗結果評測,一級分類F1平均值88%,二級分類F1平均值為83%,基本上達到了實用效果。

閱讀興趣計算

有了分類體系和分類模型后,我們可以通過微信用戶閱讀點擊分享記錄行為數據,無論用戶是通過公眾號訂閱、會話群聊分享、還是朋友圈發表等點擊閱讀行為,都可以看作是用戶閱讀行為。對於用戶的閱讀興趣計算來說,需要通過一個較長時間的行為積累才有意義,即設定一個時間窗口(比如一個季度),對該時間段內所有公眾號下發圖文消息文章內容進行分類標籤,然後結合用戶在該時間段內的閱讀點擊分享行為數據,以及每個分類類別發文量的一個先驗分佈,通過設定閾值的規則方法對每個用戶的閱讀行為進行加權計算並對結果進行歸一化處理即可得到用戶的閱讀興趣排序,示例如圖3所示。

圖3 閱讀興趣分佈示例

應用

微信用戶閱讀興趣標籤用途比較廣泛,除了能擴展豐富用戶畫像本身標籤功能外,還可以用在廣告、搜索、推薦等業務中,尤其是在廣告業務中用戶定向投放、個性化推薦等場景中發揮出了重要作用。經過近期微信朋友圈品牌廣告用戶定向投放實驗及驗證,主要從PV點擊率、互動UV點擊率、曝光關注轉化率、分享轉化率等指標進行對比評估實驗,結果表明各項指標都有較明顯提升,使用閱讀興趣擴展畫像標籤較普通定向用戶總體轉化率大幅度提升。

總結

本文主要是從微信用戶擴展興趣出發,結合用戶閱讀興趣行為,闡述了分類體系構建技術方法,包括公眾號內容聚類、訓練語料的獲取方法、分類模型的訓練及效果評估等內容。目前,多層分類體系主要包括一級和二級類別,不同粒度的分類模型可以供不同業務需要方便使用,而且已經做到數據定期自動計算和更新。後續為了提高分類效果,我們可以嘗試更多的分類特徵進行實驗;同時,隨著公眾號平台內容的發展和完善,分類體系內容也會隨之擴展和優化。

溫馨提醒:

您可以微信關注「騰訊課堂」(微信號:tencent-class)開始學習



熱門推薦

本文由 yidianzixun 提供 原文連結

寵物協尋 相信 終究能找到回家的路
寫了7763篇文章,獲得2次喜歡
留言回覆
回覆
精彩推薦