淺析阿里數據新能源技術架構

2021/12/25

作者：阿里數據

如果大家對阿里巴巴的新聞比較關注，最近可能會頻繁聽到阿里巴巴談到「五新」這個詞，「五新」中的其中一個概念是新能源。其實新能源就是大數據本身。技術、數據和演算法三個方面結合在一起，才可以把數據真正用起來。

大家都知道，Google的數據量是很大的，但是它的數據源本身其實比較單一。以Google search，Google map等為主導，並沒有太多和商業有直接相關的數據。

再來看看，Facebook。它更多的是社交行為的數據，缺少出行數據、瀏覽器數據、或者類似優酷的視聽數據。

但是，對於阿里來說，上述的這些數據我們都有。我們面臨的極大挑戰是：怎麼樣有效的把這些全域數據融合在一起。

首先我們需要把數據有效地收集起來。我們有一個大數據體系「OneData」（有關OneData的內容，回復關鍵詞「OneData」即可獲得）。

把數據有效地收集、存儲起來之後，接著要做的就是怎麼通過演算法把這些數據打通，並且真正有效、智能地把這些數據提煉出來。

數據融合的技術框架

這是阿里的一個生態體系圖。最底層是阿里巴巴的阿里雲，這是我們的一個計算存儲框架。上面是阿里媽媽，阿里媽媽是負責整個阿里巴巴計算廣告的一個部門，再上面是菜鳥、支付寶和螞蟻金服。然後是與商業相關的，像淘寶網、天貓、聚划算等等，或者是跟文娛相關的，優酷土豆，還有像阿里旅行，口碑之類的業態。

阿里巴巴數據中台要做的事情是什麼呢？

舉一個最簡單的例子，之前有一個比較火的電視劇《三生三世》。《三生三世》火熱上映的時候，與之相關的商品元素，比如飲食或者穿戴之類的商品，也會瞬間在淘寶網上火爆起來。

那麼如果我提前就知道某一類人群是《三生三世》的冬粉，我就可以在淘寶網上做非常高效的、準確的定位推廣。

阿里數據要做的是：把數據真正打通，深度挖掘數據的價值，為業務創新應用提供數據決策基礎和依據。

在真正進入演算法之前，我們一定要對數據進行非常認真、仔細地進行清洗過程。俗話說，如果你的數據不清洗，其實就是「learn trash from trash」。所以數據本身一定要做得非常乾淨。

來看一下架構圖。第一個數據層中有各種各樣的數據，比如有消費數據，有廣告數據，出行數據等等

把這些數據層經過有效結合在一起之後，接下來得到這種特徵層的提取。

在阿里數據內部，大概有這樣幾個比較抽象的維度：像賬號設立的靜態特徵，電商行為的特徵，或者設備的特徵等等。

在特徵層之上，我們會有模型層，這裡面有基於業務規則的模型，也有其他的例如異常檢測，有監督或者無監督的學習，然後特徵的聯合校驗等模型。

因為我們的數據源非常多，因此我們也可以通過部分的數據源驗證另外一個數據源，看數據的增長或者留存是否處於一個正常範圍。

另外還有一些比較好的方法，比如基於Graph的一些演算法，實時的反作弊演算法等等。在演算法層之上，就是評估層。在評估層內，我們可以判斷留下來的數據是否是真正有效的數據。

在上述這些數據層的上面，會有一個應用層，也同時會抽象出一些產品來幫助內部員工或者外部商家進行使用。

所以，整個數據中台實際上是從底到上對數據進行清洗的一個架構。

當我們有了非常乾淨的數據之後，我們要做的就是把數據打通。我剛才說了，阿里生態體系會呈現出幾百個不同的數據源，這些數據源本身的數據量非常大，收集模式也各不相同。

那麼我們是如何進行數據之間的融通的呢？

數據聯通的技術思考

這是我們關於怎麼把數據打通的一個技術架構。

大家可以看到，整個技術體系都是，先把數據接進來，再通過一些機器學習或者深度學習的辦法（像word2vec,node2vec，TFIDF，歸一化等）處理特徵層，之後映射到一些比較抽象的高緯度Level（比方說像用戶的身份信息，網路的環境相似度，文本的相似度，APP相似度等等）。

抽象完這些特徵層之後，我們究竟怎樣去判斷。

這期間的方法大致可以分為四種有效的辦法：

此外，還有一些強召回，就是比如說用戶有相同的賬號登陸不同的地方。這些是所謂的強召回，它可以非常準確地被判斷出來。弱召回就是基於演算法特徵層的這些模型，有效地判斷出所有信息是否真正屬於同一個自然人。

End.