search
尋找貓咪~QQ 地點 桃園市桃園區 Taoyuan , Taoyuan

詳解:知乎如何使用機器學習,未來還有哪些想象空間

舒石 假裝發自 斯坦福

量子位 報道 | 公眾號 QbitAI

機器學習,正在以及將要如何改變知乎?

回答這個問題的最佳人選,莫過於知乎合伙人、大數據團隊負責人李大海。這位曾經供職Google的工程師,最近就在斯坦福詳細解讀了知乎是什麼,知乎正在如何使用機器學習,以及未來機器學習能帶給知乎怎樣的想象空間。

對於知乎來說,使用機器學習技術,可以更加精細地對用戶和內容進行建模,促進內容生產和內容分發的效率。

李大海透露,知乎對機器學習的應用劃分為6大場景:用戶畫像、內容分析、排序、推薦、商業化和社區管理。更多詳細的介紹,在下文中展開。歸根結底一句話,就是將機器學習技術用於內容的生產和分發。

未來,知乎希望在機器學習的幫助下,不止是分發內容,還能更深入的理解內容。

理解內容涉及兩個方面:一方面是要從用戶生產的非結構化內容中抽取、組織各種知識和觀點,變成知乎知識庫的一部分;另一方面,要能把知識庫的內容轉變成用戶友好的產品。

以下就是李大海解讀知乎與機器學習的詳細內容,量子位編輯:

大家好,我是李大海,現在是知乎的合伙人,同時也是知乎大數據團隊的負責人。我在知乎的一個很重要的工作,就是推動機器學習技術的應用和落地。今天很榮幸能夠來到斯坦福,跟大家一起交流。

今天的話題是知乎與機器學習,這是我們首次站出來表達對機器學習的重視以及對機器學習高手的渴求。接下來,我會重點圍繞兩個方面的內容來展開:

首先,知乎是如何使用機器學習技術的,我們so far做了哪些工作,以及計劃做哪些事情?

第二,展望未來,機器學習技術給知乎提供的想像空間是什麼,能夠幫我們催生什麼樣的產品?

首先來看第一個問題。要說明「知乎是如何使用機器學習技術的」,需要先簡單描述一下「知乎是什麼」。

今年是知乎成立的第6年。6年前知乎剛上線的時候,是一個封閉的邀請式社區,在剛上線的一段時間內,用戶量並不大。當時社區里討論的話題大部分都集中在互聯網和創業領域,是一個看起來有些小眾的網站。

那麼6年後的今天呢?我們來看看,知乎上都有什麼。

大家可以看看左邊的圖,這是知乎上關注人數最多的一批內容的話題標籤雲。可以看到,現在知乎的討論已經變得非常多元化,從互聯網到心理學,從電影到文學,從專業的天文學、數據分析和人工智慧,到貼近生活的旅行、健身、時尚等話題,都有人在討論。

從數量上來看,截止到目前,知乎上已經有1500萬個問題,5500萬個回答,還有相當數量的專欄文章,這些內容呢,都會被關聯和綁定到25萬個話題上。所以,到了今天,知乎已經是一個討論面非常廣泛的知識社交平台。

看完了內容,我們再來看看用戶的情況。

知乎用戶6年來同樣也在飛速增長,並且越來越多元化。知乎上既有李開復、馬伯庸、張譯、賈揚清等一批現實生活中已經是「名人」的用戶;也有以前默默無聞,但通過在知乎辛勤耕耘,擁有了一定影響力的優質內容生產者;另外還有像 「窮游錦囊」、「科技博覽」、「印鈔造幣」等等機構類用戶。

截止目前,我們擁有6900萬的註冊用戶,每天有超過2000萬獨立設備訪問和登錄知乎,每月有上百億的Page View。

上面的數據,給我們一個知乎規模的直觀認識。事實上,知乎已經成為世界上最大的中文知識社交平台,並且還在保持高速的增長。2016年,我們在沒有花一分錢做效果推廣的情況下,我們的註冊用戶量、DAU等核心指標大約翻了一番。

那麼,知乎為什麼能夠在這樣的體量下還保持高速增長呢?

我們曾經做過一些用戶調研,希望了解他們為什麼喜歡用知乎。有的人說他喜歡來知乎看熱點事件的評價,了解同一個事情的不同角度的觀點,相互碰撞;也有人喜歡來知乎看大家的經驗,幫助自己做消費決策:比如裝修怎麼做預算,職場第三年如何提升自己,等等。

有的用戶則是專門來知乎分享自己的知識。我們有個用戶是房產律師,叫徐斌,他常常在知乎上回答購房過程中遇到的法律問題,他曾在我們產品知乎Live開了一堂課,名字叫「怎樣租房不上當」,有8000名聽眾購票入場向他取經。

可以看到,用戶來知乎,無外乎做兩件事,生產內容,或者消費內容。他們有些人是內容的生產者,但絕大多數都是內容的消費者。

「內容生產」和「內容消費」一起,構成了知乎的生態閉環。更多更好的內容生產成就了知乎作為平台的粘性和吸引力,而吸引來的更多用戶也催生了更加多樣化的內容生產需求。生產內容的用戶也能從這個過程中受益,通過知識的分享和交流提升自我。

正是因為滿足了用戶的內容生產和消費的需求,才有了知乎的高速增長,有了知乎今天數千萬的用戶和內容。

所以說回來,知乎是什麼?知乎其實就是一個連接和匹配海量用戶的知識網路,是一個平台。我們的核心目標就是讓這個內容生產和消費的閉環順暢地運轉,然後為用戶提供一個認真、有效的討論環境。

要實現這個目標,在我們的規模比較小的時候,是比較容易的。在社區規模比較小的情況下,我們可以通過一些簡單的產品策略和運營策略,保證內容生產和分發的效率,也能夠通過人工的運營方式來維持良好的社區環境。比如我們的邀請回答機制和謝邀的文化。

但是,在社區規模達到今天的狀態時,我們面臨的運營壓力也在飛度的增長,產品設計也需要更加精細化。現在的知乎每天都有數千萬用戶在活躍,產生數十萬的新內容。這時再純粹依靠人力進行產品決策和社區運營,會面臨效率低下、人力資源難以為繼的困境。

機器學習6大場景

因此,回到第一個問題,知乎正在使用機器學習技術做哪些事情?我們認為,使用機器學習技術,可以更加精細地對用戶和內容進行建模,促進內容生產和內容分發的效率。

具體說來,我們可以把知乎對機器學習的應用劃分為6大場景,也就是用戶畫像、內容分析、排序、推薦、商業化和社區管理。在過去一年多的時間裡,我們在這6個場景上都做了一些工作,也有一些工作正在進行或者馬上啟動。下面,我來詳細介紹一下這些工作。

用戶畫像

首先是用戶畫像。

可以說,準確有效的用戶畫像是進行一切個性化策略的基礎。我們現在已經初步建立了一套用戶畫像的體系,並且對一些重要標籤進行了挖掘,例如用戶的活躍度、People Rank,常用登錄地點;作為生產者在特定話題下的權威度;作為消費者對特定話題的興趣,等等。

這些用戶標籤被用在了個性化排序、推薦、問題路由等一系列任務中,取得了不錯的效果。接下來,我們還會對用戶的屬性進行更深入的挖掘,例如,我們希望對用戶進行社群分析,並且定位整個信息傳播網路中的關鍵節點,也就是所謂的Key Opinion Leader。

我們也希望用戶的興趣標籤變得更加「動態化」和「可預測」,例如,如果一個用戶最近對「懷孕期間的健康」這種話題比較感興趣,那麼我們可以推測,用戶在幾個月後,可能會對「育兒」這個話題產生興趣。

我們還希望能通過用戶的分享來重構他的經歷,也計劃進一步挖掘用戶的消費能力和消費意願,等等。總之,我們期望,在接下來的一段時間內,能夠對用戶進行全方位的了解和刻畫。

內容分析

說完了用戶畫像,我們再來看看內容分析。

知乎上每天都會產生大量的新內容,這些內容需要在第一時間被分析和處理,打上各種各樣的標籤。

因此,我們構建了一條內容分析的流水線,保證站內每條內容發生變化時,都會進入這條流水線進行自動分析,然後第一時間把分析結果同步給搜索、推薦、社區等各個業務場景,對每條內容而言,這個過程大概在10秒左右,這種實時性能夠滿足我們的業務要求。

目前,在這條流水線上,我們已經針對文本、圖像、音頻等數據進行了一些基礎分析,例如文本分類、命名實體識別,圖像色情、暴恐內容檢測,音頻降噪等等。

我們也會逐步往這條流水線上添加更多的組件,例如最近一個重要的工作,是從不同維度刻畫內容質量,這些維度包括內容的時效性、專業性、嚴肅性、準確性,等等。

我們還計劃對內容進行語義分析,例如自動摘要,讓用戶在 Feed 流這樣信息密集場景中,不用點開卡片就能初步判定內容的大概情況,從而提升篩選內容的效率。

排序

用戶畫像和內容分析是基礎工作,很大程度上來講,不是用戶直接可見的。下面我們來介紹更上層的業務場景。

首先說一下Ranking,Ranking是內容分發場景中非常重要的一環,好的 Ranking策略可以讓合適的內容第一時間內觸達用戶,降低用戶篩選的成本,提升分發效率。目前,我們我們主要使用Learning to Rank技術來改進各種業務場景下的排序,包括:

  • 首頁信息流的排序:

首頁是用戶進入知乎的第一入口,首頁的內容質量會影響用戶對知乎調性的認知,以及用戶粘性、內容消費量、用戶停留時長等一系列關鍵指標的變化。

  • 搜索結果排序:

這裡需要解決好的,主要是不同分類的內容如何混排的問題;

  • 問題下的答案的排序:

知乎上比較熱門的問題,都會有很多的回答,有的問題下甚至會有幾千個答案,如何對這些答案進行排序,也是一個很重要的課題。除了考慮用戶投票的反饋特徵之外,還需要考慮各種內容相關特徵,例如內容格式、內容質量、答案和提問的相關性,等等。

同時,我們還會考慮作者和投票的用戶在這個問題領域的專業性,比如一個機器學習領域的從業者在機器學習問題的回答權重就會比非專業的更高,確保「好答案」不會埋沒。

Learning to Rank技術在這些場景下的應用帶來了很好的收益。舉個例子,原來我們的首頁排序演算法採取的是類似EdgeRank的排序策略,在經過大概兩年的優化后,各種指標都只能保持平穩,很難有大的提升了。

但我們使用了Learning to Rank技術來進行排序優化,三個月內,點擊率上升了 40%,用戶在線時長上升了 20%,留存也有小幅的提升。

當然,我們覺得,僅僅是這樣,還是不夠的。目前我們也在探索Learning to Rank技術的更深入優化。一些可能的方向:

  • 一是多目標的業務場景下Ranking的帕累托優化。

大家知道,我們的很多業務場景都是需要進行多目標優化的,僅僅看「點擊率」或者「相關性」等指標,很容易陷入到指標上升,但實際收益下降的怪圈中去。

仍然以Feed Ranking舉例,在我們使用Pointwise/Pairwise的Learning to Rank技術進行了幾輪改進之後,我們就陷入到了一種困境中:新上一個模型,往往是一個指標上去了,其他的指標下降了。

例如,在著重優化點擊率之後,新模型的點擊率有所上升,但同時放出了大量的低質量內容,比如「抖機靈」、「吵架糾紛」、「標題黨」等內容,這些內容非常抓人眼球,吸引了大量點擊,但其實用戶價值不大,對知乎的產品形象也會帶來負面影響。

在這種情況下,我們需要把機器學習中的帕累托優化等思想引入到Learning to Rank的場景中來,促進各種指標的協同提升。

  • 二是用好一些實時特徵,讓模型除了能反映用戶的穩定偏好之外,還能考慮到當前的實時狀態,及時做出調整。

例如,如果一個用戶是巴薩的球迷,很喜歡看站上各種巴薩的討論,但昨天巴薩輸球了,所以很不高興,不想看到任何相關的內容,我們就應該要從他的實時行為裡面儘快看出端倪。

推薦

下一個業務場景是推薦。

知乎上的推薦主要是兩種,一種是針對內容推薦相關內容,一種是針對用戶推薦可能感興趣的內容。

我們之前陸陸續續做了一些推薦的工作,今年年初,我們啟動了統一推薦引擎計劃,基於Prediction IO和Elastic Search等開源系統,構建了知乎的統一推薦工程框架,接入到一系列業務場景中。

推薦接下來要做的事情主要包括兩個:

  • 一是實現一個完備的推薦演算法庫,包括Explore & Exploit演算法,協同過濾,內容關聯性推薦,Deep & Wide演算法等,提升業務接入各種演算法實驗的效率;

  • 二是把推薦跟排序結合起來,在首頁或者搜索這樣的入口級場景,加入一些推薦結果,和原來的內容進行混合排序,幫助用戶快速地發現其他優質內容,為用戶進行興趣探索和拓展,發現更大的世界。

商業化

Ranking和推薦都是比較明確的用戶場景,主要目的是實現用戶和信息的高效匹配。相對來說,商業化這個場景會更加複雜一點。

大家知道商業化產品和用戶產品的不同,在於商業化中引入了「平台」和「廣告主」這兩個角色,需要在各方的利益之間尋求一種平衡。

知乎的商業化探索是從去年開始的,截止目前,我們已經實現了一個商業系統的雛形,實現了流量預估、廣告定向投放、CTR 預估、智能化的 Pacing 等一系列功能。

而隨著今年業務的規模的擴大,我們也需要更多有效的工具,幫助達到商業收入和用戶體驗之間的平衡,也為合作夥伴帶去收益。接下來,在商業化方向,我們需要機器學習技術武裝的地方包括:

  • 智能的廣告平台。

支持分析用戶對各種品牌的情感傾向,實現更智能的廣告售賣;以及幫助廣告主設定各種投放計劃和定向目標,等等。

  • 廣告質量的預判和審核工具。

作為一個非常重視用戶體驗的公司,我們進行商業化探索的時候也是非常謹慎的,不僅要保證用戶盡量不被廣告打擾,還希望廣告也能給用戶帶來價值。

過去一年,我們的商業運營團隊在保證廣告物料質量方面下了很大的功夫,所以用戶普遍對知乎的廣告是持接受和理解態度,廣告的轉化效果也得到了很好的保證。

但是在廣告的規模化投放開始后,單純靠人力是不能完成這樣的質量保證的,因此我們需要一些機制,例如廣告物料的質量判定,讓機器輔助人力來做這樣的工作。

社區管理

說完商業化,我們再來說一下最後一塊工作,社區管理。一個良好運轉的社區需要良好的社區討論氛圍。我們使用機器學習技術進行了大量的工作,來幫助社區運營的同學高效地進行社區氛圍的維護。

由於知乎上數據的量級非常大,這些檢測和處理必須做到足夠的自動化和高效率。它們主要包括:

  • Spammer 用戶的識別:例如識別爬蟲用戶、刷粉用戶、營銷用戶等;

  • 各種低質量內容和違規內容的識別和處理,例如前面提到的色情圖片識別,文本中的語言暴力識別,等等。

伴隨著知乎的高速增長,原來靠社區公約、人工運營、用戶舉報等建立起來的社區管理機制也會面臨巨大的挑戰。把知乎比作城市的話,社區管理是一個基礎建設的工作,類似於修建道路、疏通下水道。

一個城市的基礎建設做好了,才能吸引更多的人入駐;但一個城市的規模擴大了,這些基建工作勢必也變得更加繁重。

接下來,我們希望機器學習能夠幫助社區管理的同學在這些方面提升效率:

  • 一是更深入地對各種低質量的內容進行檢測和自動處理。例如營銷軟文,或者網路謠言,都需要儘可能快地檢測出來,降低傳播量,讓這些內容對社區的損壞降到最低。

  • 二是希望通過一些自動客服機器人,提高對用戶舉報、用戶反饋等事務的處理效率,這項技術當前在一些電商網站中已經得到了很好的應用,我們也期望能夠通過這項技術,來減輕運營人員的工作量,提升用戶的滿意度。

上面簡單介紹了知乎當前對機器學習的使用情況,主要在 6 個場景中,包括用戶畫像、內容分析、排序、推薦、商業化和社區管理。歸根結底一句話,就是將機器學習技術用於內容的生產和分發。

但我們相信,隨著機器學習技術的發展,它不僅僅是做到這個程度。在可見的未來,知乎更希望機器學習技術幫我們做到什麼事情呢?用一句話來描述,就是:希望讓知乎不只是「分發」內容,還能更深入地「理解」內容。

大家可以看到,在「內容生產」和「內容消費」的閉環中,知乎作為平台,其實更多是在發揮「信息路由」的作用,促進內容的生產,然後投遞到不同的人手中。

如果說這些內容是寶貴的礦石的話,那麼知乎的角色,更類似於一個礦產的集散中心,而這些礦產能夠發掘出多少價值,則依賴於用戶自己。我們希望,在未來知乎能夠對這些礦產進行一定程度的加工,來進一步提升用戶獲取知識的效率。

舉個例子,如果用戶希望知道,大家對某個新聞事件持有什麼觀點,現在需要一條一條地閱讀知乎上相關的各種內容,再自己去總結和歸結每個人的主要思想,這是成本很高的事情。

反過來,如果知乎可以提供這樣的服務,讓用戶更容易看到全局的輿論,多少用戶從經濟的角度分析問題,又有多少用戶從政治博弈的層面解答問題,等等。如果真的需要看某個具體用戶的論證過程,還可以按圖索驥地去查看,那將是非常有價值的。

這個工作要涉及到兩個方面:一方面是要從用戶生產的非結構化內容中抽取、組織各種知識和觀點,變成知乎知識庫的一部分;另一方面,要能把知識庫的內容轉變成用戶友好的產品。

非結構化內容中的知識抽取

先說非結構化內容中的知識抽取。

我們期望能從知乎上的海量內容中,挖掘出各種知識和見解,存儲起來,能夠被索引和利用。目前業界有一些從非結構化數據中抽取結構化知識的研究,例如知識圖譜技術。

那麼對知乎上的內容進行信息抽取困難在哪兒呢?主要是,知乎的內容形式比較複雜,除了可以結構化的屬性描述和關係描述之外,還包括其它形式多樣的知識和見解,例如對科學定理的論述、針對某些事件的評價,等等。

知乎上的內容也不僅僅局限在某些特定的領域下,而是一個開放的、不斷擴張的領域集合,用戶會發起各種各樣的討論,也會從各種不同的角度來看待同一個問題。

當然,相對於其他的公司,知乎在知識和見解的結構化方面也有優勢。因為知乎上的內容質量相對較高,同時知乎的用戶通過各種互動行為,和內容構成了一張信息量豐富的網路。我們的數據具有極高的信噪比,這也為信息抽取工作提供了很大的便利。

更加智能、高效的用戶交互介面

假設我們已經神奇地完成了上一個步驟,接下來的工作就是,如何將這些信息更高效地提供給用戶。我們同樣期待機器學習技術能夠幫助我們構建一個更加智能、高效的用戶交互介面。

一個設想是,智能問答產品,使用自然語言生成手段,以一種更加自然、易於理解的方式,將知識庫中的信息提供給用戶。

更進一步,我們是不是可以讓「知乎」成為一個聰明的大腦,和用戶進行更自然、形式更加豐富的相互交流呢?這也是業內的一個比較前沿的研究方向,像 MSRA 和 Google 研究院也在做類似的工作,我們也希望知乎能夠在這方面能有自己的積累。

以上就是我的 talk 的主要內容了,主要講了兩個問題,一是知乎目前的機器學習應用狀態;二是知乎對機器學習應用場景的未來展望。當然,這些東西要想實現,還需要有更多的機器學習大牛加入我們,一起來增加知乎的產品價值。這也是我們到斯坦福來宣講的初衷。

所以接下來是一個小廣告,對,我們在招聘,不管是演算法大神還是剛畢業願意回國發展的機器學習相關畢業生,我們都求賢若渴。招聘計劃就不念啦,很抱歉我們暫時還沒有在加州開辦公室的計劃,以後會有的。

對了,還有另一個小廣告,這個月我們正在舉辦「看山杯機器學習挑戰賽」, 5月15號正式開賽, 8月15號結束。這次的比賽,知乎提供的訓練數據是問題和話題標籤的綁定關係,參賽者的目標是提供最優的自動標註模型。

我們提供了300萬問題和2000個標籤,每個標籤對應知乎上的一個「話題」。大家有興趣的可以掃這個二維碼了解、參賽。

謝謝大家。

看完知乎,量子位此前還發過一篇報道,推薦同時閱讀:《詳解:估值18億美元的新晉獨角獸美國知乎,如何使用機器學習?》。

這一篇是講Quora的,因為標題,不少用戶在後台吐槽。好吧,量子位當然知道知乎起步是參考Quora的,在這裡也澄清一下……同樣謝謝大家。

P.S. 量子位也有知乎賬號,已經V6啦,歡迎關注~

【完】

招聘

量子位正在招募編輯記者、運營、產品等崗位,工作地點在北京中關村。相關細節,請在公眾號對話界面,回復:「招聘」。

One More Thing…

今天AI界還有哪些事值得關注?在量子位(QbitAI)公眾號對話界面回復「今天」,看我們全網搜羅的AI行業和研究動態。筆芯~

另外,,如果你研究或者從事AI領域,小助手會把你帶入量子位的交流群里。

掃碼強行關注『量子位』



熱門推薦

本文由 yidianzixun 提供 原文連結

寵物協尋 相信 終究能找到回家的路
寫了7763篇文章,獲得2次喜歡
留言回覆
回覆
精彩推薦