Zi 字媒體

淺析內容推薦體系如何構建

2021/12/25

yidianzixun

所謂的「內容推薦」，把主語謂語賓語補充完整之後就是「系統把內容推薦給用戶」，那推薦系統如何構建，說白了就是要解決「什麼樣的內容推薦給什麼樣的用戶」的問題以及「如何推」的問題。

針對引文中的兩個問題，可以總結為以下三個點

我們推什麼樣的內容——what
我們推給什麼樣的用戶——who
內容如何推薦給用戶——how

一、內容篇

說到內容，先不著急解決「推什麼」的問題，在這之前，我們首先要分析我們擁有什麼內容，這些內容是如何產生的。

目前互聯網內容信息的載體主要分為以下幾種：文字、圖片、音頻、視頻。而生產這些內容的用戶大體又可分為兩種，一種是專業從事內容生產的PGC用戶，一個PGC用戶的背後往往由一個專業的團隊組成，他們分工明確，撰寫、拍攝、錄製、後期、包括後期的市場宣傳都有專門的人員從事，此類用戶的生產的內容質量往往比較高。另一種是普通的UGC生產用戶，此類用戶無固定生產內容的習慣，往往是三天打魚兩天晒網，其生產的內容質量也較低。

根據平台定位不同，其擁有的內容資源也不同，生產內容的用戶構成也不盡相同。根據上述列出的幾種內容類型和生產用戶類型，可以組合出「圖片+PGC」、「文字、圖片+PGC」、「視頻+PGC」、「視頻+UGC」….等多種組合類型。結合自身平台業務線，找出內容數量靠前的幾種組合，也就是我們所擁有的內容優勢所在。

當我們分析出我們擁有什麼以後，接下來所要解決的問題就是如何篩選優質內容，以及如何進行內容信息識別和聚類，對於優質內容我們要在推薦策略里基於更多展現曝光

關於優質內容的篩選，主要分為「機器篩選」和「人工篩選」兩種方式，而實際操作中，往往是二者的結合，因為單純機器篩選其客觀性太強，部分優質內容機器無法識別（對於上述四種內容信息的載體，其展現形式的表現力：文本<圖片=音頻<視頻，其機器對內容識別難易度恰好相反：文本>圖片=音頻>視頻）而純人工篩選又會受審美差異等主觀因素的影響難易做到公平公正。

「人工篩選」的方式無需多說，而對於機器篩選優質內容，在篩選之前要做好充分的數據收集及上報，只有數據維度足夠充分，才能為篩選做保證。拿音樂app軟體舉例「如何評判一首普通歌曲的質量好壞」如下圖所示：

除了歌曲本身作為內容的形式之外，更是鏈接「內容生產者」和「內容消費者」之間的紐帶，所以數據的收集除了歌曲本身的屬性之外（例如：音頻長度、kpbs、格式、文件大小….等等）之外，也要從生產者的用戶屬性（PGC/UGC，年齡，地域，性別，個人愛好….等等）、發布行為（上傳歌曲的時間、上傳歌曲的頻次….等等）和消費者的用戶屬性（性別、年齡、職業、地域、註冊時間….等等）、瀏覽行為（點擊、播放、重複播放次數）等多維度評價一首歌曲的質量。不同app對於內容的質量評估數據指標不同，需結合實際情況具體分析，此處不再一一詳細列舉各個數據指標。對於歌曲而言，最終要的幾個指標無非是：曝光點擊比、播放完整度、評論、分享、收藏率…等等等等等等

此處對內容質量的動態評級，還可以利用對生產者評級和消費者評級的方式來判斷，各個等級之間有著嚴格的標準劃分（此處不詳述分級的方法，具體情況具體制定），用戶的評級隨自身行為動態調整（等級正反饋、負反饋機制）。不同等級的用戶生產和消費行為，對內容評級的影響不同，越優質的用戶其行為對內容質量的影響越大。

說完內容質量的評級，之後就是對內容的聚類。還拿音樂舉例，音樂本身並無任何分類，對於一首歌曲而言無非是多個音符的連續演奏。我們憑藉自己的生活經驗和認知對歌曲進行分門別類：歐美音樂/港台音樂/內地音樂…、搖滾/流行/藍調…、抒情/狂歡/悲傷….、鋼琴曲/小提琴/吉他曲。此處對內容聚類的方法應遵循「相互獨立、完全窮盡」的原則即不同劃分維度之間要相互獨立，互無交叉，而每個維度里劃分又要儘可能細化到最小的顆粒度。

除了內容聚類的方法，內容的聚類的流程，同樣的，可以採取人工和機器結合的方式，其大體流程如下圖所示：

內容生產者，在上傳內容時，對內容進行分類、設定內容標籤。其內容進入後台首先按照用戶上傳時的分類進行篩選，之後由審核人員對其標籤進行走查，將無分類的內容進行分類，同時對錯誤分類進行修正（此時所有審核人員的操作結果，系統都應該給生產者發送信息提示其內容被修改，優化上傳流程）。所有人工審核后的內容庫里的內容作為最終對外分發的結果，在前端對外分發。

至此，我們已經完成了對優質內容的篩選和對內容的聚類。那誰來消費我們的內容呢，誰來為我們的內容買單，我們的用戶群是誰，他們來自哪？是男是女？年紀多大？他們是高、是矮，是胖，是瘦？從事什麼工作？有什麼愛好？他們收入如何？

二、用戶篇（who）

承接上文，說到用戶，繞不開的一個話題就是用戶畫像。要建立推薦系統的用戶畫像，我首先會問自己兩個問題：「我們的用戶是誰？」「他們都喜歡什麼？」如果說用戶畫像是對一個人描述，那麼第一個問題更像是描述一個人的外在，第二個問題更像是描述一個人的內在。外在對應用戶屬性，內在則對應用戶行為，行為連接內容，從而分析用戶喜好傾向，如下圖所示：

此處數據統計的維度和準確性的重要性不再贅述，左側是用戶屬性，右側是相關的用戶操作行為，所有的操作行為最終都能落地到具體一個內容上（我們在「內容篇」已經講過如何對內容進行分類標識）我們通過看內容分類標識，從而分析用戶的喜好傾向。

這種方法就好比我們寫日記，記流水賬，只要我們把足夠多的信息記錄下來，我們就能足以分析數這個人詳細用戶畫像

例如：2017年5月12日，家住北京，24歲，清華大學畢業的姑娘小倩穿上她的adidas的衣服，開著她的賓士車，去王府井的一家人均價位在100/位的火鍋店吃火鍋….）,只要我們記錄的信息足夠多，足夠精確，對用戶畫像的描述也就越清晰。

在推薦系統里，我們通過用戶畫像需要解決的是用戶喜好傾向的問題，但用戶的喜好傾向不是一成不變的，除了要做到數據的持續收集，在判定用戶興趣時，用戶的短期興趣傾向和長期興趣傾向需要做策略的融合。持續對兩種維度的權重調權，從而得到最優解。

舉例：我是一個喜歡搖滾音樂的用戶，不經意間聽了幾首純音樂，我們並不能一刀切的認為用戶的喜歡傾向由搖滾轉為輕音樂，而是應該記錄下這種行為，在策略里不斷試探嘗試用戶興趣，持續推薦不同內容，從而判定用戶真正興趣。

三、推薦篇（how）

解決了物的問題，又解決了人的問題，現在接下來的最後一步就是，我們如何把物交付到人的手中。

在做推薦之前，我們需要做的一件事就是：數據的收集、上報。不同於上述內容質量和用戶畫像的數據統計維度，應用於推薦的數據統計維度更多，是兩者的超集，除此以外，一些操作系統、app版本、網路環境、用戶操作訪問路徑的分析，漏斗的模型的轉化….等等都與推薦行為息息相關。此處關於數據上報的維度需要針對不同平台，不同推薦業務，不同場景做具體問題具體分析。

關於一心想求推薦系統演算法公式的同學，可以去抱演算法工程師大腿了，此處不做詳細羅列，只來聊聊我所理解的推薦的一些原理，畢竟產品經理的數學和演算法工程師比起來，基本30分到40分水平….

我把每個用戶想象成一個獨立的點，每個用戶背後都帶有各種各樣的用戶屬性，我們把具有相同屬性的用戶之間建立一條連線，眾多的用戶其彼此間的連線也錯綜複雜，由此形成了一個獨立的用戶面。同樣的原理，把每條內容也想成一個獨立的點，每條內容背後也都帶有各種各樣的內容聚類標識，我們把具有相同類別的內容之間建立一條連線，眾多的內容間的連線也錯綜複雜，由此形成了一個獨立的內容面。

有了「用戶面」和「內容面」的概念以後，我們的每一個用戶之間都彼此產生著聯繫，每個內容之間也都彼此產生著聯繫，那如何把我們的「用戶面」和「內容面」打通，其實就是所謂的用戶行為。我把用戶行為比做「通道」通道用於連接「用戶面」和「內容面」，每一次用戶行為，都是兩個面之間一次數據的傳輸交流。至此，兩個面之間互相打通，形成了一個三維模型。這個三維模型建立在數據之上，每時每刻任意兩點之間都在進行著數據傳輸，因為彼此間相互聯繫，一個用戶的行為可能最終影響周圍多個用戶的結果，類似蝴蝶效應。

說完推薦，還有一點不得不提的就是「a/btest」和「關於a/btest，適中要遵循一個原則，明確目的，保持變數唯一。所有的推薦都是持續的過程，不同的推薦演算法需要時間學習矯正，a/btest就是很好的輔助工具和方法，關於如何構建a/btest系統，此處不做詳細說明，只闡述其重要性。

文章純屬個人觀點，只闡述了部分方法論，而沒具體到落地可執行的層面，老鳥可自行略過。

作者：黑白鍵，1歲產品經理

本文由 @黑白鍵原創發佈於人人都是產品經理。未經許可，禁止轉載。

桃園 qq 地點貓咪桃園市 taoyuan xuan 根部尾巴有大桃園旅遊景點