詳解：知乎如何使用機器學習，未來還有哪些想象空間

舒石假裝發自斯坦福

量子位報道 | 公眾號 QbitAI

機器學習，正在以及將要如何改變知乎？

回答這個問題的最佳人選，莫過於知乎合伙人、大數據團隊負責人李大海。這位曾經供職Google的工程師，最近就在斯坦福詳細解讀了知乎是什麼，知乎正在如何使用機器學習，以及未來機器學習能帶給知乎怎樣的想象空間。

對於知乎來說，使用機器學習技術，可以更加精細地對用戶和內容進行建模，促進內容生產和內容分發的效率。

李大海透露，知乎對機器學習的應用劃分為6大場景：用戶畫像、內容分析、排序、推薦、商業化和社區管理。更多詳細的介紹，在下文中展開。歸根結底一句話，就是將機器學習技術用於內容的生產和分發。

未來，知乎希望在機器學習的幫助下，不止是分發內容，還能更深入的理解內容。

理解內容涉及兩個方面：一方面是要從用戶生產的非結構化內容中抽取、組織各種知識和觀點，變成知乎知識庫的一部分；另一方面，要能把知識庫的內容轉變成用戶友好的產品。

以下就是李大海解讀知乎與機器學習的詳細內容，量子位編輯：

大家好，我是李大海，現在是知乎的合伙人，同時也是知乎大數據團隊的負責人。我在知乎的一個很重要的工作，就是推動機器學習技術的應用和落地。今天很榮幸能夠來到斯坦福，跟大家一起交流。

今天的話題是知乎與機器學習，這是我們首次站出來表達對機器學習的重視以及對機器學習高手的渴求。接下來，我會重點圍繞兩個方面的內容來展開：

首先，知乎是如何使用機器學習技術的，我們so far做了哪些工作，以及計劃做哪些事情？

第二，展望未來，機器學習技術給知乎提供的想像空間是什麼，能夠幫我們催生什麼樣的產品？

首先來看第一個問題。要說明「知乎是如何使用機器學習技術的」，需要先簡單描述一下「知乎是什麼」。

今年是知乎成立的第6年。6年前知乎剛上線的時候，是一個封閉的邀請式社區，在剛上線的一段時間內，用戶量並不大。當時社區里討論的話題大部分都集中在互聯網和創業領域，是一個看起來有些小眾的網站。

那麼6年後的今天呢？我們來看看，知乎上都有什麼。

大家可以看看左邊的圖，這是知乎上關注人數最多的一批內容的話題標籤雲。可以看到，現在知乎的討論已經變得非常多元化，從互聯網到心理學，從電影到文學，從專業的天文學、數據分析和人工智慧，到貼近生活的旅行、健身、時尚等話題，都有人在討論。

從數量上來看，截止到目前，知乎上已經有1500萬個問題，5500萬個回答，還有相當數量的專欄文章，這些內容呢，都會被關聯和綁定到25萬個話題上。所以，到了今天，知乎已經是一個討論面非常廣泛的知識社交平台。

看完了內容，我們再來看看用戶的情況。

知乎用戶6年來同樣也在飛速增長，並且越來越多元化。知乎上既有李開復、馬伯庸、張譯、賈揚清等一批現實生活中已經是「名人」的用戶；也有以前默默無聞，但通過在知乎辛勤耕耘，擁有了一定影響力的優質內容生產者；另外還有像「窮游錦囊」、「科技博覽」、「印鈔造幣」等等機構類用戶。

截止目前，我們擁有6900萬的註冊用戶，每天有超過2000萬獨立設備訪問和登錄知乎，每月有上百億的Page View。

上面的數據，給我們一個知乎規模的直觀認識。事實上，知乎已經成為世界上最大的中文知識社交平台，並且還在保持高速的增長。2016年，我們在沒有花一分錢做效果推廣的情況下，我們的註冊用戶量、DAU等核心指標大約翻了一番。

那麼，知乎為什麼能夠在這樣的體量下還保持高速增長呢？

我們曾經做過一些用戶調研，希望了解他們為什麼喜歡用知乎。有的人說他喜歡來知乎看熱點事件的評價，了解同一個事情的不同角度的觀點，相互碰撞；也有人喜歡來知乎看大家的經驗，幫助自己做消費決策：比如裝修怎麼做預算，職場第三年如何提升自己，等等。

有的用戶則是專門來知乎分享自己的知識。我們有個用戶是房產律師，叫徐斌，他常常在知乎上回答購房過程中遇到的法律問題，他曾在我們產品知乎Live開了一堂課，名字叫「怎樣租房不上當」，有8000名聽眾購票入場向他取經。

可以看到，用戶來知乎，無外乎做兩件事，生產內容，或者消費內容。他們有些人是內容的生產者，但絕大多數都是內容的消費者。

「內容生產」和「內容消費」一起，構成了知乎的生態閉環。更多更好的內容生產成就了知乎作為平台的粘性和吸引力，而吸引來的更多用戶也催生了更加多樣化的內容生產需求。生產內容的用戶也能從這個過程中受益，通過知識的分享和交流提升自我。

正是因為滿足了用戶的內容生產和消費的需求，才有了知乎的高速增長，有了知乎今天數千萬的用戶和內容。

所以說回來，知乎是什麼？知乎其實就是一個連接和匹配海量用戶的知識網路，是一個平台。我們的核心目標就是讓這個內容生產和消費的閉環順暢地運轉，然後為用戶提供一個認真、有效的討論環境。

要實現這個目標，在我們的規模比較小的時候，是比較容易的。在社區規模比較小的情況下，我們可以通過一些簡單的產品策略和運營策略，保證內容生產和分發的效率，也能夠通過人工的運營方式來維持良好的社區環境。比如我們的邀請回答機制和謝邀的文化。

但是，在社區規模達到今天的狀態時，我們面臨的運營壓力也在飛度的增長，產品設計也需要更加精細化。現在的知乎每天都有數千萬用戶在活躍，產生數十萬的新內容。這時再純粹依靠人力進行產品決策和社區運營，會面臨效率低下、人力資源難以為繼的困境。

機器學習6大場景

因此，回到第一個問題，知乎正在使用機器學習技術做哪些事情？我們認為，使用機器學習技術，可以更加精細地對用戶和內容進行建模，促進內容生產和內容分發的效率。

具體說來，我們可以把知乎對機器學習的應用劃分為6大場景，也就是用戶畫像、內容分析、排序、推薦、商業化和社區管理。在過去一年多的時間裡，我們在這6個場景上都做了一些工作，也有一些工作正在進行或者馬上啟動。下面，我來詳細介紹一下這些工作。

用戶畫像

首先是用戶畫像。

可以說，準確有效的用戶畫像是進行一切個性化策略的基礎。我們現在已經初步建立了一套用戶畫像的體系，並且對一些重要標籤進行了挖掘，例如用戶的活躍度、People Rank，常用登錄地點；作為生產者在特定話題下的權威度；作為消費者對特定話題的興趣，等等。

這些用戶標籤被用在了個性化排序、推薦、問題路由等一系列任務中，取得了不錯的效果。接下來，我們還會對用戶的屬性進行更深入的挖掘，例如，我們希望對用戶進行社群分析，並且定位整個信息傳播網路中的關鍵節點，也就是所謂的Key Opinion Leader。

我們也希望用戶的興趣標籤變得更加「動態化」和「可預測」，例如，如果一個用戶最近對「懷孕期間的健康」這種話題比較感興趣，那麼我們可以推測，用戶在幾個月後，可能會對「育兒」這個話題產生興趣。

我們還希望能通過用戶的分享來重構他的經歷，也計劃進一步挖掘用戶的消費能力和消費意願，等等。總之，我們期望，在接下來的一段時間內，能夠對用戶進行全方位的了解和刻畫。

內容分析

說完了用戶畫像，我們再來看看內容分析。

知乎上每天都會產生大量的新內容，這些內容需要在第一時間被分析和處理，打上各種各樣的標籤。

因此，我們構建了一條內容分析的流水線，保證站內每條內容發生變化時，都會進入這條流水線進行自動分析，然後第一時間把分析結果同步給搜索、推薦、社區等各個業務場景，對每條內容而言，這個過程大概在10秒左右，這種實時性能夠滿足我們的業務要求。

目前，在這條流水線上，我們已經針對文本、圖像、音頻等數據進行了一些基礎分析，例如文本分類、命名實體識別，圖像色情、暴恐內容檢測，音頻降噪等等。

我們也會逐步往這條流水線上添加更多的組件，例如最近一個重要的工作，是從不同維度刻畫內容質量，這些維度包括內容的時效性、專業性、嚴肅性、準確性，等等。

我們還計劃對內容進行語義分析，例如自動摘要，讓用戶在 Feed 流這樣信息密集場景中，不用點開卡片就能初步判定內容的大概情況，從而提升篩選內容的效率。

排序

用戶畫像和內容分析是基礎工作，很大程度上來講，不是用戶直接可見的。下面我們來介紹更上層的業務場景。

首先說一下Ranking，Ranking是內容分發場景中非常重要的一環，好的 Ranking策略可以讓合適的內容第一時間內觸達用戶，降低用戶篩選的成本，提升分發效率。目前，我們我們主要使用Learning to Rank技術來改進各種業務場景下的排序，包括：

首頁信息流的排序：

首頁是用戶進入知乎的第一入口，首頁的內容質量會影響用戶對知乎調性的認知，以及用戶粘性、內容消費量、用戶停留時長等一系列關鍵指標的變化。

搜索結果排序：

這裡需要解決好的，主要是不同分類的內容如何混排的問題；

問題下的答案的排序：

知乎上比較熱門的問題，都會有很多的回答，有的問題下甚至會有幾千個答案，如何對這些答案進行排序，也是一個很重要的課題。除了考慮用戶投票的反饋特徵之外，還需要考慮各種內容相關特徵，例如內容格式、內容質量、答案和提問的相關性，等等。

同時，我們還會考慮作者和投票的用戶在這個問題領域的專業性，比如一個機器學習領域的從業者在機器學習問題的回答權重就會比非專業的更高，確保「好答案」不會埋沒。

Learning to Rank技術在這些場景下的應用帶來了很好的收益。舉個例子，原來我們的首頁排序演算法採取的是類似EdgeRank的排序策略，在經過大概兩年的優化后，各種指標都只能保持平穩，很難有大的提升了。

但我們使用了Learning to Rank技術來進行排序優化，三個月內，點擊率上升了 40%，用戶在線時長上升了 20%，留存也有小幅的提升。

當然，我們覺得，僅僅是這樣，還是不夠的。目前我們也在探索Learning to Rank技術的更深入優化。一些可能的方向：

一是多目標的業務場景下Ranking的帕累托優化。

大家知道，我們的很多業務場景都是需要進行多目標優化的，僅僅看「點擊率」或者「相關性」等指標，很容易陷入到指標上升，但實際收益下降的怪圈中去。

仍然以Feed Ranking舉例，在我們使用Pointwise/Pairwise的Learning to Rank技術進行了幾輪改進之後，我們就陷入到了一種困境中：新上一個模型，往往是一個指標上去了，其他的指標下降了。

例如，在著重優化點擊率之後，新模型的點擊率有所上升，但同時放出了大量的低質量內容，比如「抖機靈」、「吵架糾紛」、「標題黨」等內容，這些內容非常抓人眼球，吸引了大量點擊，但其實用戶價值不大，對知乎的產品形象也會帶來負面影響。

在這種情況下，我們需要把機器學習中的帕累托優化等思想引入到Learning to Rank的場景中來，促進各種指標的協同提升。

二是用好一些實時特徵，讓模型除了能反映用戶的穩定偏好之外，還能考慮到當前的實時狀態，及時做出調整。

例如，如果一個用戶是巴薩的球迷，很喜歡看站上各種巴薩的討論，但昨天巴薩輸球了，所以很不高興，不想看到任何相關的內容，我們就應該要從他的實時行為裡面儘快看出端倪。

招聘

量子位正在招募編輯記者、運營、產品等崗位，工作地點在北京中關村。相關細節，請在公眾號對話界面，回復：「招聘」。

One More Thing…

今天AI界還有哪些事值得關注？在量子位（QbitAI）公眾號對話界面回復「今天」，看我們全網搜羅的AI行業和研究動態。筆芯~

另外，，如果你研究或者從事AI領域，小助手會把你帶入量子位的交流群里。

△ 掃碼強行關注『量子位』

詳解：知乎如何使用機器學習，未來還有哪些想象空間

舒石 假裝發自 斯坦福量子位 報道 | 公眾號 QbitAI

招聘

One More Thing…

舒石假裝發自斯坦福

量子位報道 | 公眾號 QbitAI