search
尋找貓咪~QQ 地點 桃園市桃園區 Taoyuan , Taoyuan

淺析內容推薦體系如何構建

所謂的「內容推薦」,把主語謂語賓語補充完整之後就是「系統把內容推薦給用戶」,那推薦系統如何構建,說白了就是要解決「什麼樣的內容推薦給什麼樣的用戶」的問題以及「如何推」的問題。

針對引文中的兩個問題,可以總結為以下三個點

  • 我們推什麼樣的內容——what
  • 我們推給什麼樣的用戶——who
  • 內容如何推薦給用戶——how

一、內容篇

說到內容,先不著急解決「推什麼」的問題,在這之前,我們首先要分析我們擁有什麼內容,這些內容是如何產生的。

目前互聯網內容信息的載體主要分為以下幾種:文字、圖片、音頻、視頻。而生產這些內容的用戶大體又可分為兩種,一種是專業從事內容生產的PGC用戶,一個PGC用戶的背後往往由一個專業的團隊組成,他們分工明確,撰寫、拍攝、錄製、後期、包括後期的市場宣傳都有專門的人員從事,此類用戶的生產的內容質量往往比較高。另一種是普通的UGC生產用戶,此類用戶無固定生產內容的習慣,往往是三天打魚兩天晒網,其生產的內容質量也較低。

根據平台定位不同,其擁有的內容資源也不同,生產內容的用戶構成也不盡相同。根據上述列出的幾種內容類型和生產用戶類型,可以組合出「圖片+PGC」、「文字、圖片+PGC」、「視頻+PGC」、「視頻+UGC」….等多種組合類型。結合自身平台業務線,找出內容數量靠前的幾種組合,也就是我們所擁有的內容優勢所在。

當我們分析出我們擁有什麼以後,接下來所要解決的問題就是如何篩選優質內容,以及如何進行內容信息識別和聚類,對於優質內容我們要在推薦策略里基於更多展現曝光

關於優質內容的篩選,主要分為「機器篩選」和「人工篩選」兩種方式,而實際操作中,往往是二者的結合,因為單純機器篩選其客觀性太強,部分優質內容機器無法識別(對於上述四種內容信息的載體,其展現形式的表現力:文本<圖片=音頻<視頻,其機器對內容識別難易度恰好相反:文本>圖片=音頻>視頻)而純人工篩選又會受審美差異等主觀因素的影響難易做到公平公正。

「人工篩選」的方式無需多說,而對於機器篩選優質內容,在篩選之前要做好充分的數據收集及上報,只有數據維度足夠充分,才能為篩選做保證。拿音樂app軟體舉例「如何評判一首普通歌曲的質量好壞」如下圖所示:

除了歌曲本身作為內容的形式之外,更是鏈接「內容生產者」和「內容消費者」之間的紐帶,所以數據的收集除了歌曲本身的屬性之外(例如:音頻長度、kpbs、格式、文件大小….等等)之外,也要從生產者的用戶屬性(PGC/UGC,年齡,地域,性別,個人愛好….等等)、發布行為(上傳歌曲的時間、上傳歌曲的頻次….等等)和消費者的用戶屬性(性別、年齡、職業、地域、註冊時間….等等)、瀏覽行為(點擊、播放、重複播放次數)等多維度評價一首歌曲的質量。不同app對於內容的質量評估數據指標不同,需結合實際情況具體分析,此處不再一一詳細列舉各個數據指標。對於歌曲而言,最終要的幾個指標無非是:曝光點擊比、播放完整度、評論、分享、收藏率…等等等等等等

此處對內容質量的動態評級,還可以利用對生產者評級和消費者評級的方式來判斷,各個等級之間有著嚴格的標準劃分(此處不詳述分級的方法,具體情況具體制定),用戶的評級隨自身行為動態調整(等級正反饋、負反饋機制)。不同等級的用戶生產和消費行為,對內容評級的影響不同,越優質的用戶其行為對內容質量的影響越大。

說完內容質量的評級,之後就是對內容的聚類。還拿音樂舉例,音樂本身並無任何分類,對於一首歌曲而言無非是多個音符的連續演奏。我們憑藉自己的生活經驗和認知對歌曲進行分門別類:歐美音樂/港台音樂/內地音樂…、搖滾/流行/藍調…、抒情/狂歡/悲傷….、鋼琴曲/小提琴/吉他曲。此處對內容聚類的方法應遵循「相互獨立、完全窮盡」的原則即不同劃分維度之間要相互獨立,互無交叉,而每個維度里劃分又要儘可能細化到最小的顆粒度。

除了內容聚類的方法,內容的聚類的流程,同樣的,可以採取人工和機器結合的方式,其大體流程如下圖所示:

內容生產者,在上傳內容時,對內容進行分類、設定內容標籤。其內容進入後台首先按照用戶上傳時的分類進行篩選,之後由審核人員對其標籤進行走查,將無分類的內容進行分類,同時對錯誤分類進行修正(此時所有審核人員的操作結果,系統都應該給生產者發送信息提示其內容被修改,優化上傳流程)。所有人工審核后的內容庫里的內容作為最終對外分發的結果,在前端對外分發。

至此,我們已經完成了對優質內容的篩選和對內容的聚類。那誰來消費我們的內容呢,誰來為我們的內容買單,我們的用戶群是誰,他們來自哪?是男是女?年紀多大?他們是高、是矮,是胖,是瘦?從事什麼工作?有什麼愛好?他們收入如何?

二、用戶篇(who)

承接上文,說到用戶,繞不開的一個話題就是用戶畫像。要建立推薦系統的用戶畫像,我首先會問自己兩個問題:「我們的用戶是誰?」「他們都喜歡什麼?」如果說用戶畫像是對一個人描述,那麼第一個問題更像是描述一個人的外在,第二個問題更像是描述一個人的內在。外在對應用戶屬性,內在則對應用戶行為,行為連接內容,從而分析用戶喜好傾向,如下圖所示:

此處數據統計的維度和準確性的重要性不再贅述,左側是用戶屬性,右側是相關的用戶操作行為,所有的操作行為最終都能落地到具體一個內容上(我們在「內容篇」已經講過如何對內容進行分類標識)我們通過看內容分類標識,從而分析用戶的喜好傾向。

這種方法就好比我們寫日記,記流水賬,只要我們把足夠多的信息記錄下來,我們就能足以分析數這個人詳細用戶畫像

例如:2017年5月12日,家住北京,24歲,清華大學畢業的姑娘小倩穿上她的adidas的衣服,開著她的賓士車,去王府井的一家人均價位在100/位的火鍋店吃火鍋….),只要我們記錄的信息足夠多,足夠精確,對用戶畫像的描述也就越清晰。

在推薦系統里,我們通過用戶畫像需要解決的是用戶喜好傾向的問題,但用戶的喜好傾向不是一成不變的,除了要做到數據的持續收集,在判定用戶興趣時,用戶的短期興趣傾向和長期興趣傾向需要做策略的融合。持續對兩種維度的權重調權,從而得到最優解。

舉例:我是一個喜歡搖滾音樂的用戶,不經意間聽了幾首純音樂,我們並不能一刀切的認為用戶的喜歡傾向由搖滾轉為輕音樂,而是應該記錄下這種行為,在策略里不斷試探嘗試用戶興趣,持續推薦不同內容,從而判定用戶真正興趣。

三、推薦篇(how)

解決了物的問題,又解決了人的問題,現在接下來的最後一步就是,我們如何把物交付到人的手中。

在做推薦之前,我們需要做的一件事就是:數據的收集、上報。不同於上述內容質量和用戶畫像的數據統計維度,應用於推薦的數據統計維度更多,是兩者的超集,除此以外,一些操作系統、app版本、網路環境、用戶操作訪問路徑的分析,漏斗的模型的轉化….等等都與推薦行為息息相關。此處關於數據上報的維度需要針對不同平台,不同推薦業務,不同場景做具體問題具體分析。

關於一心想求推薦系統演算法公式的同學,可以去抱演算法工程師大腿了,此處不做詳細羅列,只來聊聊我所理解的推薦的一些原理,畢竟產品經理的數學和演算法工程師比起來,基本30分到40分水平….

我把每個用戶想象成一個獨立的點,每個用戶背後都帶有各種各樣的用戶屬性,我們把具有相同屬性的用戶之間建立一條連線,眾多的用戶其彼此間的連線也錯綜複雜,由此形成了一個獨立的用戶面。同樣的原理,把每條內容也想成一個獨立的點,每條內容背後也都帶有各種各樣的內容聚類標識,我們把具有相同類別的內容之間建立一條連線,眾多的內容間的連線也錯綜複雜,由此形成了一個獨立的內容面。

有了「用戶面」和「內容面」的概念以後,我們的每一個用戶之間都彼此產生著聯繫,每個內容之間也都彼此產生著聯繫,那如何把我們的「用戶面」和「內容面」打通,其實就是所謂的用戶行為。我把用戶行為比做「通道」通道用於連接「用戶面」和「內容面」,每一次用戶行為,都是兩個面之間一次數據的傳輸交流。至此,兩個面之間互相打通,形成了一個三維模型。這個三維模型建立在數據之上,每時每刻任意兩點之間都在進行著數據傳輸,因為彼此間相互聯繫,一個用戶的行為可能最終影響周圍多個用戶的結果,類似蝴蝶效應。

說完推薦,還有一點不得不提的就是「a/btest」和「關於a/btest,適中要遵循一個原則,明確目的,保持變數唯一。所有的推薦都是持續的過程,不同的推薦演算法需要時間學習矯正,a/btest就是很好的輔助工具和方法,關於如何構建a/btest系統,此處不做詳細說明,只闡述其重要性。

文章純屬個人觀點,只闡述了部分方法論,而沒具體到落地可執行的層面,老鳥可自行略過。

作者:黑白鍵,1歲產品經理

本文由 @黑白鍵 原創發佈於人人都是產品經理。未經許可,禁止轉載。



熱門推薦

本文由 yidianzixun 提供 原文連結

寵物協尋 相信 終究能找到回家的路
寫了7763篇文章,獲得2次喜歡
留言回覆
回覆
精彩推薦