search
尋找貓咪~QQ 地點 桃園市桃園區 Taoyuan , Taoyuan

淺析阿里數據新能源技術架構

作者:阿里數據

如果大家對阿里巴巴的新聞比較關注,最近可能會頻繁聽到阿里巴巴談到「五新」這個詞,「五新」中的其中一個概念是新能源。其實新能源就是大數據本身。技術、數據和演算法三個方面結合在一起,才可以把數據真正用起來。

大家都知道,Google的數據量是很大的,但是它的數據源本身其實比較單一。以Google search,Google map等為主導,並沒有太多和商業有直接相關的數據。

再來看看,Facebook。它更多的是社交行為的數據,缺少出行數據、瀏覽器數據、或者類似優酷的視聽數據。

但是,對於阿里來說,上述的這些數據我們都有。我們面臨的極大挑戰是:怎麼樣有效的把這些全域數據融合在一起。

首先我們需要把數據有效地收集起來。我們有一個大數據體系「OneData」(有關OneData的內容,回復關鍵詞「OneData」即可獲得)。

把數據有效地收集、存儲起來之後,接著要做的就是怎麼通過演算法把這些數據打通,並且真正有效、智能地把這些數據提煉出來。

數據融合的技術框架

這是阿里的一個生態體系圖。最底層是阿里巴巴的阿里雲,這是我們的一個計算存儲框架。上面是阿里媽媽,阿里媽媽是負責整個阿里巴巴計算廣告的一個部門,再上面是菜鳥、支付寶和螞蟻金服。然後是與商業相關的,像淘寶網、天貓、聚划算等等,或者是跟文娛相關的,優酷土豆,還有像阿里旅行,口碑之類的業態。

阿里巴巴數據中台要做的事情是什麼呢?

舉一個最簡單的例子,之前有一個比較火的電視劇《三生三世》。《三生三世》火熱上映的時候,與之相關的商品元素,比如飲食或者穿戴之類的商品,也會瞬間在淘寶網上火爆起來。

那麼如果我提前就知道某一類人群是《三生三世》的冬粉,我就可以在淘寶網上做非常高效的、準確的定位推廣。

阿里數據要做的是:把數據真正打通,深度挖掘數據的價值,為業務創新應用提供數據決策基礎和依據。

在真正進入演算法之前,我們一定要對數據進行非常認真、仔細地進行清洗過程。俗話說,如果你的數據不清洗,其實就是「learn trash from trash」。所以數據本身一定要做得非常乾淨。

來看一下架構圖。第一個數據層中有各種各樣的數據,比如有消費數據,有廣告數據,出行數據等等

把這些數據層經過有效結合在一起之後,接下來得到這種特徵層的提取。

在阿里數據內部,大概有這樣幾個比較抽象的維度:像賬號設立的靜態特徵,電商行為的特徵,或者設備的特徵等等。

在特徵層之上,我們會有模型層,這裡面有基於業務規則的模型,也有其他的例如異常檢測,有監督或者無監督的學習,然後特徵的聯合校驗等模型。

因為我們的數據源非常多,因此我們也可以通過部分的數據源驗證另外一個數據源,看數據的增長或者留存是否處於一個正常範圍。

另外還有一些比較好的方法,比如基於Graph的一些演算法,實時的反作弊演算法等等。在演算法層之上,就是評估層。在評估層內,我們可以判斷留下來的數據是否是真正有效的數據。

在上述這些數據層的上面,會有一個應用層,也同時會抽象出一些產品來幫助內部員工或者外部商家進行使用。

所以,整個數據中台實際上是從底到上對數據進行清洗的一個架構。

當我們有了非常乾淨的數據之後,我們要做的就是把數據打通。我剛才說了,阿里生態體系會呈現出幾百個不同的數據源,這些數據源本身的數據量非常大,收集模式也各不相同。

那麼我們是如何進行數據之間的融通的呢?

數據聯通的技術思考

這是我們關於怎麼把數據打通的一個技術架構。

大家可以看到,整個技術體系都是,先把數據接進來,再通過一些機器學習或者深度學習的辦法(像word2vec,node2vec,TFIDF,歸一化等)處理特徵層,之後映射到一些比較抽象的高緯度Level(比方說像用戶的身份信息,網路的環境相似度,文本的相似度,APP相似度等等)。

抽象完這些特徵層之後,我們究竟怎樣去判斷。

這期間的方法大致可以分為四種有效的辦法:

  • 第一、是深度學習的模型。
  • 第二、非線性。
  • 第三、線性。
  • 第四、基於圖計算

此外,還有一些強召回,就是比如說用戶有相同的賬號登陸不同的地方。這些是所謂的強召回,它可以非常準確地被判斷出來。弱召回就是基於演算法特徵層的這些模型,有效地判斷出所有信息是否真正屬於同一個自然人。

End.



熱門推薦

本文由 yidianzixun 提供 原文連結

寵物協尋 相信 終究能找到回家的路
寫了7763篇文章,獲得2次喜歡
留言回覆
回覆
精彩推薦