3C科技 娛樂遊戲 美食旅遊 時尚美妝 親子育兒 生活休閒 金融理財 健康運動 寰宇綜合

Zi 字媒體

2017-07-25T20:27:27+00:00
加入好友
編譯|CarolGuo審校|Natalie在過去的近二十年裡,Amazon.com 為每個客戶構建了一個定製化的網上商店。當每個用戶瀏覽 Amazon.com 網站時,彷彿走進了一個為自己量身打造的商店,那些自己感興趣的商品會被自動移動到前面,而不太感興趣的商品則被移動到遠處。Amazon.com 的推薦系統根據你當前的情況以及瀏覽、購買等歷史,從上億個項目中選出你可能會喜歡的少量商品。Amazon.com 在 1998 年推出了基於項目的協同過濾演算法(item-based collaborative filtering),使推薦系統能夠基於上百萬的商品目錄為數百萬用戶提供推薦服務。2003 年,Greg Linden、Brent Smith 和 Jeremy York 將該演算法發表在「IEEE Internet Computing」雜誌上,論文名稱為「Amazon.com Recommendations: Item-to-Item Collaborative Filtering」。隨後,該演算法在網路上被廣泛地使用在不同的產品中,包括 Youtube、Netflix 和很多其他產品。該演算法的成功在於:簡單、可擴展、能提供讓人驚奇且有用的推薦、能根據用戶的新信息快速地更新推薦結果以及能夠以易於理解的方式解釋推薦內容。在過去的十多年中,該演算法面臨了很多挑戰,也得到了很多改進。這裡,該演算法的其中兩名原作者 Brent Smith 和 Greg Linden 將描述其中的一些更新、改進和修改,並對協同過濾、推薦系統和個性化的未來進行展望。演算法 在 20 世紀 90 年代中期,協同過濾通常是基於用戶的,也就是說演算法的第一步是搜索其他用戶以查找具有類似興趣(例如類似的購買模式)的人,然後查看那些類似用戶已經發現而你尚未發現的項目。基於項目的協同過濾演算法與此相反,它首先對目錄中的每個項目尋找相關項目。「相關」可以有好幾種含義,但是在這裡,我們把它定義為「購買一個物品的人非常有可能購買另一個物品」。所以,對於每個物品,相關物品是那些購買了的人頻繁購買的項目。一旦建立了這個相關項目表,我們就可以通過一系列的查詢快速生成推薦。根據客戶當前的瀏覽記錄和以往的興趣,對每一個項目,查詢它的相關項目中那些未曾瀏覽過或購買過的項目作為最終的推薦列表。與舊的基於用戶的協同過濾相比,該演算法有很多優點。最重要的是,大部分計算(如批量構建相關項目)是離線完成的,而通過查詢而生成的推薦可以實時完成。這些推薦是高質量和有用的,特別是在給定足夠數據的情況下,並且即使與過去二十年中出現的較新演算法相比,它仍然在感知質量方面保持著競爭力。該演算法可以擴展到數億用戶和數千萬個項目,而無需採樣或採用其他會降低推薦質量的技術。當個人興趣有了新的信息時,該演算法能立即更新。而且,它可以很直觀地解釋這些推薦結果,因為這是由客戶所記住購買的項目列表引起的。2003 年:Amazon.com、Netflix、Youtube 等公司 在 2003 年,當我們將該演算法發表於 IEEE 時,基於項目的協同過濾已經廣泛地部署在 Amazon.com 上。主頁根據用戶以前的購買記錄和在商店瀏覽的商品,突出顯示推薦結果。搜索結果頁面推薦與用戶搜索相關的項目。購物車推薦其他可添加到用戶購物車的項目,也許用戶在最後時刻會衝動地購買,也可能補充用戶已經考慮過的商品。在訂單結束時會出現更多的推薦,提示稍後可購買的商品。使用電子郵件、瀏覽頁面、產品詳細信息頁面等許多頁面上,Amazon.com 都會提供一些推薦內容,讓用戶開始接觸商店。還有不少公司也使用了該演算法。2010 年,YouTube 報道使用它來推薦視頻。許多開源代碼和第三方供應商都包含了這個演算法,它在網路零售、旅遊、新聞、廣告等方面都廣泛出現。在以後的幾年中,這些推薦結果被 Amazon.com 廣泛使用,微軟研究報告曾估計 Amazon.com 有 30%的網頁瀏覽量來自於推薦。同樣地,Netflix 也廣泛應用推薦系統,他們的首席產品官 Neil Hunt 表示,Netflix 有 80%以上的電影觀看都是通過推薦生成的,而且 Netflix 推薦系統每年產生的價值超過 10 億美元。當我們最初開發基於項目的協同過濾時,Amazon.com 主要是一個書店。此後,亞馬遜的銷售額已經增長了一百多倍,並擴張為以非媒介物品為主導,覆蓋筆記本電腦到女性衣服等各種商品。這種增長挑戰了我們原始演算法中的許多假設,需要適應新的和不斷變化的環境。基於過去的經驗,我們還找到了改進演算法的方法,為許多新應用程序提供更相關的推薦。定義「相關」項目 推薦結果的質量在很大程度上取決於對「相關」這一術語的定義。例如,假設用戶已經購買了 X,如何定義該用戶也「非常可能」購買項目 Y?當我們觀察到客戶購買了 X 和 Y 時,我們可能會想知道如果這兩個項目是無關的,有多少購買了 X 的買家會隨機購買 Y。推薦系統最終是統計學的應用。人的行為是帶雜訊的,而挑戰就在於如何從隨機性中發現有用的模式。一種估計既購買 X 又購買 Y 的客戶數量 Nxy 的自然方式是,假設 X 買家與一般人有著相同的購買 Y 的概率,P(Y)=|Y 買家|/|所有買家|,並用|X 買家|*P(Y) 作為我們對購買了 X 和 Y 的客戶數量的期望值 Exy 的估計。我們發表於 2003 年的文章以及 2003 年以前的大部分工作,都使用了類似的計算。然而,對於幾乎任意兩個項目 X 和 Y,購買 X 的客戶都比一般人更有可能購買 Y。想像一個大手筆的買家購買了目錄中的所有物品。 當我們尋找所有購買 X 的客戶時,該客戶一定會被選中。同樣地,購買過 1,000 次的客戶被選中的概率是購買過 20 次的客戶的 50 倍;抽樣隨機購買不能給出選擇客戶的統一概率。所以我們得到一個有偏見的樣本。對於任何項目 X,購買 X 的客戶將可能比一般人多買其他項目。這種非統一分佈的客戶購買歷史分佈意味著,當我們試圖估計我們預期有多少 X 買家會隨機購買 Y 時,我們不能忽略誰購買了 X。我們發現,建模中認為客戶有很多機會購買 Y 是很有用的。例如,對於購買過 20 次的客戶,我們認為這 20 次中的每一次都有獨立購買 Y 的機會。這裡我們用更正式的語言來描述。對於購買 X 的給定客戶 c(由 c∈X 表示),我們可以估計 c 購買 Y 的概率為其中|c|表示 c 購買的非 X 物品的數量,Py=|Y 購買|/|所有購買| 或隨機選擇時購買 Y 商品的概率。然後,我們可以通過對所有 X 買家進行求和並使用二項式擴展來計算 X 買家中 Y 買家的預期數量(見圖 1)。圖 1. 預期購買 X 和 Y 項目的客戶數量的推算,包含每個 X 買家購買 Y 的可能性我們還可以考慮其他一些選擇和參數,用於相關性分數和從相關項目中創建推薦。我們的經驗是,沒有一個分數能在所有設置中都得到最好的成績。最終,推薦結果好壞基於用戶所感知的質量;用戶認為有用的推薦才是真的有用。機器學習和受控的在線實驗可以了解客戶的實際偏好,挑選最佳的參數以便具體使用推薦。我們不僅可以衡量哪些推薦是有效的,而且還可以提供關於人們所喜歡、點擊和回饋到我們的演算法中的那些推薦的信息,了解哪些幫助對客戶最有效。例如,兼容性很重要。我們可能會觀察到,購買某一款數碼相機的客戶很有可能購買某種存儲卡,但這並不能保證這種存儲卡與該款相機兼容。客戶購買存儲卡的原因很多,而觀察到的相關性可能是隨機的。事實上,Amazon.com 的目錄中有成千上萬的存儲卡,其中許多是與相機隨機相關的。許多電子商務網站手工構建兼容性知識庫,維護起來很昂貴且容易出錯,像 Amazon.com 這種規模的大型網站情況尤甚。我們發現,給定足夠的數據和關於項目相關性的強大指標,兼容性可能會從人們的行為中體現出來。奇怪的是,我們發現相關項目的含義也可能與時間關係密切,它會從數據中產生並被客戶自己發現。譬如,考慮人們瀏覽的物品與他們購買的物品。對於書籍、音樂和其他低成本物品,人們傾向於查看和購買相同的東西。而對於許多昂貴的物品,特別是非媒體物品,人們瀏覽的物品與實際購買的物品可能完全不同。例如,人們往往會瀏覽許多電視機,但只購買一台電視機。他們在瀏覽電視的時候看的東西往往是其他的電視機。而他們在購買電視那段時間購買的東西往往是購買特定電視機后的用戶體驗的補充(如藍光播放器和壁掛安裝套件)。時間的重要性 了解時間的作用對於提高推薦的質量很重要。例如,當計算相關項目表時,某一次購買與另一次購買的相關性在很大程度上取決於它們在時間上的接近程度。如果客戶購買一本書、五個月之後購買了另一本書,那麼,與客戶在同一天購買了另一本書相比,前者的相關性更弱一些。時間方向性也可以有所幫助。例如,客戶傾向於在購買相機之後再購買存儲卡,而不是相反。這可能是一個很好的提示,當有人購買存儲卡時,我們不應該推薦相機。有時,人們購買物品是有順序的,例如書籍、電影或電視劇,推薦商品應該基於人們下一步要做的事情。Amazon.com 的目錄在不斷變化。 每天,成千上萬的新物品到達,許多其他的物品逐漸過時。這個周期在某些類別中尤其明顯。 例如,服裝有季節性潮流,消費電子技術創新迅速。新項目可能處於劣勢,因為它們還沒有足夠的數據與其他項目產生很強的相關性。這被稱為冷啟動問題,並且通常需要一個探索或利用過程來給尚未有很多展示機會的物品獲得展示的機會。諸如新聞或社交媒體帖子等是冷啟動問題種特別具有挑戰性的一部分,通常需要把基於內容的演算法(使用主題、話題和文本)生成的數據與基於行為的演算法(使用購買、視圖或評級)生成的數據相混合。客戶也有生命周期,並存在自己的冷啟動問題。長期以來,當我們對新客戶的興趣了解甚少時,向客戶推薦什麼一直是一個問題。什麼時候利用有限的信息、什麼時候通過常見的項目作出穩妥的推薦,的確是一個很難得到正確答案的微妙的問題。即使對於成熟的客戶,在正確的時間進行建模對推薦的質量也有很大的影響。隨著年齡的增長,以前的購買與客戶當前的興趣可能不太相關。例如,有些採購(如帆船航海手冊)可能表明持久的長期興趣。其他購買(如洗碗機修理工具)可能與以後的項目無關。有一些購買,如嬰兒搖鈴,推薦結果經過一段很長的時間后需要做出改變:四年後,我們應該推薦平衡腳踏車和書籍,而不是嬰兒奶瓶和牙膠。有些物品,如書籍,通常只買一次。其他物品,如牙膏,會一次又一次地被購買,而且購買之間的時間間隔是可以預測的。推薦的質量不僅取決於過去購買的時間,而且取決於購買的東西。我們發現單次購買書籍可以顯示客戶的很多興趣信息,讓我們可以推薦幾十個高度相關的項目。但是,非媒體類別的許多購買行為能夠體現的客戶信息卻甚少。譬如,從購買訂書機可以獲得哪些見解?買一雙襪子可以做出什麼令人驚奇和有見地的建議?推薦膠帶分配器或更多的內衣在當下可能是有幫助的,但長期來看卻沒有太多幫助。因此,我們必須開發新技術來學習哪些購買行為能帶來有用的建議,以及何時應該忽略某些建議。最後,多樣性推薦的重要性是眾所周知的。有時最好給出許多相關的項目,而不是一個種類很少的列表。 Amazon.com 有著數量龐大且種類豐富的產品目錄,在書店等單一產品類別商店中都沒有遇到過這種挑戰。 例如,向閱讀量大的讀者推薦更多的書籍可能會提高銷售額,但是人們可能通過在另一個產品系列中發現他們以前從未考慮過的項目來長期受益。即時意圖(immediate intent)也是多樣性的一個因素。當有人明確尋找特定商品時,推薦應該縮小範圍以幫助他們快速找到需要的東西。但是,當意圖不明確或不確定時,目標應該在於發現有價值的項目。在多樣性的推薦中找到適當的平衡,需要實驗和長期優化。未來:推薦無處不在 推薦的未來會怎麼樣?我們相信未來將會有比過去更多的機會等著我們。我們可以想象智能互動服務,到那時購物就像對話一樣容易未來推薦系統將不再局限於鍵入搜索關鍵字和瀏覽網站。推薦系統應該就像與你的朋友交談一樣,它認識你、知道你的喜好、在選擇的每一步都能給你提供意見並且能對你的需求做出預測。這是我們對於智慧無處不在的願景。 每一次互動都應該反映出你是誰、你喜歡什麼,並幫助你找到其他與你喜好類似的人已經發現的東西。當你看到一些明顯不是你感興趣的東西時,應該感到空虛和可悲;難道你現在不認識了我嗎?我們需要採用一種新的思維方式來考慮推薦才能做到這一點。未來不應該有推薦功能和推薦引擎。相反,理解你、理解其他人和可用性應該成為每次互動的一部分。推薦和個性化存在於遍布全球的數據海洋中,包括我們找到的內容、我們發現的內容以及我們喜愛的內容。我們相信未來的推薦將進一步建立在利用人類集體智慧的智能計算機演算法上。未來將繼續由計算機來協助人們去幫助其他人。結束語 近二十年前,Amazon.com 向數以百萬計的客戶推出了數百萬項目的推薦,幫助人們發現自己可能找不到的內容。從那時起,最初的演算法已經擴展到大部分的網路應用,被用來幫助人們尋找想看的視頻或感興趣的新聞,受到其他演算法和技術的挑戰,同時在提高多樣性、發現度、新舊程度、時間敏感或序列項目以及許多其他問題上都得到了改進。由於其簡單性、可擴展性、可解釋性、適應性和相對高質量的建議,基於項目的協同過濾仍然是當今最流行的推薦演算法之一。然而,推薦系統仍然是一個開放領域。使每個客戶都擁有個性化體驗的願景並沒有完全實現。仍然有很多的機會和可能性來為每個推薦系統的每一個部分添加智能和個性化,使推薦系統體驗起來真的像一個認識你、知道你的喜好、了解其他人喜好並清楚可以給你提供什麼選擇的朋友。推薦就是發現,通過發現新事物給你帶來驚喜和喜悅。每一次互動都應該是一次推薦。關於論文作者 Brent Smith 在 Amazon.com 進行了 17 年的個性化和推薦工作,領導團隊致力於快節奏的面向客戶的創新。Smith 擁有加利福尼亞大學聖地亞哥分校數學學士學位和華盛頓大學數學碩士學位。Greg Linden 是 Microsoft 的數據科學家(以前曾在 Amazon.com、Google 和幾家創業公司工作過)。他以前的工作領域主要是推薦、個性化、人工智慧、搜索和廣告。Linden 擁有華盛頓大學的計算機科學碩士學位和斯坦福大學的工商管理碩士學位。查看英文原文: 行進中換輪胎:萬字長文解析美團和大眾點評兩大數據平台是怎麼融合的作為大數據先行者的 TalkingData,將在 9 月 11 日 TalkingData T11 智能數據峰會上,用自己的方式為企業講述如何聆聽數據的奧妙,將傳統行業與新興技術結合,完成向數據驅動型企業的轉型升級。更多精彩點擊「 閱讀原文 」查看詳情,報名從速,精彩享不停。

本文由yidianzixun提供 原文連結

寫了 5860316篇文章,獲得 23313次喜歡
精彩推薦