神策數據創始人兼CEO桑文鋒：用戶行為分析的大數據流建設

數據猿報道，2017年6月29日，由數據猿主辦，互聯網普惠金融研究院聯合主辦，信息通信研究院、大數據發展促進委員會、上海大數據聯盟、首席數據官聯盟、大數據技術與應用聯盟、上海金融信息行業協會協辦的「數據猿·超聲波」之金融科技商業價值探索高峰論壇在上海隆重舉辦。

本次峰會主要聚焦產業方、服務提供方、投資方、業界專家學者等一起從風控、區塊鏈、量化金融、個性化保險、大數據技術服務、客戶管理，六大方面共同探索「大數據在金融領域的商業價值」，推進金融科技領域的發展與創新。

在峰會的主論壇上，不但發布了由數據猿聯合HCR慧辰資訊、DataPipeline聯合編撰的《數據驅動金融升級，商業價值落地探尋調研報告》，還為多家企業及個人頒發了「2017金融科技·大數據優秀案例」之技術創新獎、應用創新獎、最佳實踐獎以及數據猿專欄優秀徵文獎在內的多個【金猿獎】獎項。

眾多重量級分享嘉賓悉數到場(部分嘉賓，排名不分先後)：

數據猿創始人兼CEO 牟蕾

天雲大數據 CEO 雷濤

星環科技董事、高級副總裁張月鵬

美國FinTech4Good 創始人張曉晨

中關村大數據聯盟副秘書長、互聯網金融智庫專家顏陽

恆豐銀行科技開發部副總經理趙毅

諸葛io客戶成就總監、Growth團隊負責人邱千秋

神策數據創始人&CEO 桑文鋒

民生銀行公司業務管理部數字化中心總經理王彥博

……

收看現場視頻直播請點擊：

【小魚直播】：

【知數直播】：http://play.zhishu51.com/Live a=17

以下是數據猿現場直播「神策數據創始人&CEO桑文鋒」的發言實錄：

大家下午好，我先做一下自我介紹。

我的個人經歷大概分為兩個階段，一是在百度工作了8年，主要是圍繞用戶行為數據建設，從最開始去做統計系統到怎麼去解決大量的數據處理問題。其次就是2015年從百度離開之後，我創建了神策數據，自己積累的經驗主要是圍繞用戶行為分析這一方面。我今天分享的內容主要是用戶行為數據的大數據流建設，首先說一下我在百度的一個心得。在百度做8年的數據，從0到1去構建數據平台，包括把百度很多的業務線數據建好，在這個過程中我有兩點比較大的心得，一是數據源很重要，另一方面就是數據的價值。

怎麼看數據的價值呢在我看來，數據的價值有兩點，一是數據驅動決策，這是什麼概念比如做產品改進或者是運營監控和商業決策，這時數據起到什麼作用呢就是幫助你去拍板，去看數據來做決策。此外，數據更大的價值在於驅動產品智能。什麼是產品智能呢就是我們有數據基礎，然後在這個數據基礎上套一定的策略演算法，把這個結果再回灌到產品當中去。智能本身就是一種學習能力，這就是數據更大的價值。比如今日頭條或百度做廣告，還有本身搜索的這種排名，其實都是使用了大量的用戶行為數據，並且把這個數據本身用到數據模型的疊代裡面去。

數據分析不是一個新的領域，特別是在用戶行為分析方面，已經存在十幾年了，至少從互聯網誕生之後，我們就開始考慮如何從流量裡面去做一些分析帶來一些價值。從2000年到現在，我把在互聯網統計分析這個領域分成三個階段，第一個階段是2000年到2006年，我歸結為流量時代。那時三大門戶比較火，百度也是那時興起的，我們看一個產品好不好主要是看用戶量怎麼樣，訪問量大它就牛。隨後，從2007到2011年這種趨勢又變了，做評判的時候更關心的是用戶數，比如說像人人、Facebook等等，我們會關心到底有多少活躍用戶數，或者說註冊量。當然註冊量的指標並不太好，但是累計註冊量也是證明它本身影響力的一個指標。之後，從2012年開始到現在，我覺得在未來可能三五年也可能更長時間，我把這個階段歸結為一個訂單時代。不知我們有沒有發現無論團購或者是O2O，還是互聯網金融、在線教育，其實歸根到底都是把訂單交易從線下在往線上搬，在這個過程中我們對數據分析的需求就不一樣了，不僅是看幾個簡單的基本數字了，在做分析的時候會關心深度的數據分析。這時我們對用戶行為的分析就要更深一層了，這是我對整個大趨勢的一個理解，正是因為這種需求的變化才給我們這樣的創業公司帶來了新的機會。如果需求本身已經被基本滿足的話，創業是沒有意義的，別人已經解決好的問題你為什麼還要重複呢

現在，先來看一看已有的或者過去幾年用得比較多的一些統計分析的方法。我把它歸結為三類，第一類是使用第三方的統計服務，第二類是基於業務資料庫寫一些腳本進行分析，第三類是基於志就是後台伺服器搜集到的日誌文件，我們基於它做分析。

首先說一下第三方統計服務，神策數據就是屬於這個領域。這種產品的優點有以下：一是使用比較簡單，一般來說嵌一個SDK就可以使用了。對於它的不足，我覺得還是需求，尤其是深度分析的需求滿足得不夠好。從數據採集上，這些產品一般通過SDK去採集的時候只採集了一些客戶端的宏觀的數據。第二個問題就是從分析能力上來看，如果只關心幾個宏觀數那確實夠用，但是你要做一些靈活的客戶分析，我們進行這種多維度的交叉分析，這時在一些需求滿足上就沒有那麼便利了，這也是因為這個產品本身最開始設計的時候應用場景是不一樣的。第三點就是數據安全，特別是在國內這種環境。當然剛才上一位嘉賓介紹這個標準的時候也提到了，數據安全的事情是非常重要的，特別是跟錢相關的。一般大家不願意把數據放在一個第三方平台，我們可以說這個平台很安全，但是有一天你要倒閉了會不會把這些數據賣掉呢會不會產生一些非法操作呢這其實是有一些風險的。當然這些產品本身就是有迭代的，一些問題可能就會慢慢消失掉。

第二類就是業務資料庫，把業務資料庫的數據通過寫SQL導出來。另外，用一些可視化的工具進行展示，這個模式也是比較常見的一種模式。這種方式的優勢就是直接訪問業務資料庫不需要直接準備數據，現成的數據直接在上面跑就可以了，並且數據的準確性也有保證，因為我們是正常的業務數據。當然也有它的不足，一個是歷史狀態丟失，比如說一個用戶的婚戀狀態，開始的時候他可能未婚，後來我們更新了一段變成已婚，後來又離婚了，最後又結婚了。看這些人有什麼樣的數據上的特徵，我們可能就沒有辦法分析了，因為我們可能在業務資料庫裡面只記錄了他當前的狀態，這可能是一個問題。二就是計算能力有限，比如用一個資料庫在裡面放了一些數據，想在這個基礎上去做一些分析，但是你數據如果很大呢你有幾億用戶的時候呢你可能放了很多台資料庫，你要分別去計算然後匯聚，這個開發代價就非常大了。此外，業務資料庫的變更直接會影響你統計分析的邏輯，因為業務資料庫本身是給機器看的。做分析的時候，其實許多時候這些維度、欄位理解起來還是有問題的。這時就牽涉到一個概念——業務資料庫，前面最大的問題是我們把業務資料庫當數據倉庫去使了。業務資料庫更多的是一個當前狀態，保證當前的狀態業務才能正常運轉，這是業務資料庫解決的問題。而數據倉庫呢我們更強調的是一個立式狀態，比如猿猴一步一步最終演化成現代人，我們可以把這個記錄下來，有歷史數據，每一步的行為都記錄下來，做分析的時候可以把歷史數據放進去，所以數據倉庫是有歷史性特徵的，這是一個很大的區別。因此，我們不能簡單地把業務資料庫當成一個數據倉庫去使用，特別是圍繞數據分析這一塊。

第三種方式就是基於日誌去寫統計腳本，這些語言都是腳本語言，在解決分析問題上是沒有太大區別的。這種方式有什麼好處即使你數據分析系統出了問題也沒有關係，不會對正常的業務流造成影響。當然也有它的不足，一是開發效率可能比較低，雖然程序員寫個腳本很容易，但是你天天寫腳本，或者許多時候都是類似的東西，寫一遍又一遍，也是一個很低效的方式。二是數據的可靠性沒有辦法保證，因為我們做數據分析的時候許多時候到最後去看這個結果，如果它偏差一點我們是看不出問題的，比如說偏差5%，你是說它是正常的波動還是說因為數據本身產生了問題第三，它還是一個有技術門檻的事情，雖然說就是打幾行字，但是實際上打什麼、如何打、什麼樣的結構，這本身還是有挑戰的。

我是從2008年開始真正去圍繞數據這一方面工作，到差不多2012年的時候慢慢想清楚一點，其實數據處理歸根到底就是一條流，我把這個數據流分成了5個環節，第一個環節是數據採集，第二是數據傳輸，第三是對數據建模存儲、把數據管理起來，第四是使用數據，最後是數據可視化，或者是反饋，在這個基礎上使用它。不管哪個公司，在做數據分析的事情歸根到底就是這麼一條流，其實本質上就是這麼一回事，我們所謂的數據流的建設就是把這五個環節如何做得更好。

首先來說數據採集。數據採集可以說是第一步，前面我也講了數據源很重要，怎麼去把這個數據採集做好我歸結了兩點，一個是全，另外一個是細。全是我們強調各種數據源，各種各樣的數據我們都搜集過來。另一方面是這個數據搜集的時候不只是抽樣數據，而是全量的收集。另外一點就是細，細就是強調多維度，就是說我們把一個事情發生的時候這個維度信息記了下來，記下來以後有什麼用它的用處很大，比如對於一個交易來說，如果你記了身高這個維度，我們可以去分析不同身高的人在你這個產品裡面交易情況怎麼樣，如果你沒有記這個維度的話，就沒有辦法做分析。

其次就是數據採集的方式。目前在這種用戶行為分析方面，其實採集方式我歸結就這麼三類，第一類是通過這種可視化買點或者全買點的方式，把數據嵌一個SDK，然後我們在後台進行數據的採集配製，這種方式比較靈活，不需要工程師配合你，一個運營經理自己就可以決定。當然不好的地方就是在於它採的不夠細，比如們一個頁面左上角標記了一個打折的力度，右下角有一個提交訂單，通過這種方式可能記錄下來提交訂單的行為，但是沒有辦法把左上角打折力度的信息記錄下來。第二種方式就是通過代碼埋點，我們可以在關鍵邏輯裡面嵌入SDK，然後在這個基礎上進行後續的分析，這樣來說我們可以把很全很細的數據記錄下來。第三種方式就是通過導入工具，資料庫的數據以及後台伺服器裡面日誌的數據，都可以實時的、批量的灌進來，這是很大的一個好處。我在百度做很多年主要還是圍繞第三種，在百度更多的時候是把日誌打出來，然後再分發到數據平台裡面去，這樣正常的業務不容易受到影響。

第二步就是數據傳輸，邏輯上很簡單，就是把源頭的數據搬到數據平台。因為你的數據規模可能沒那麼大，傳輸本身沒有問題。但是我在百度的時候就有很大的問題，比如說我2015年從百度離開的時候，那時我是帶領著團隊做數據採集的，那時候每天有採集的量非常大，經常產生網路連接的異常，都會導致很多影響。我們要關注的幾個問題，一個是時效性，我們在數據傳輸的時候需要實時的傳嗎還是說一個小時、半個小時去發一下就可以滿足呢還有就是可靠性，我們允許丟還是不允許丟，允許重複還是不允許重複。第三個是擴展性，我們每天有1個T的數據有沒有問題或者變成100T的時候有沒有問題，這個就是說針對你不同的數據規模，你採用的數據傳輸方式也是不一樣的。最簡單的是我們通過這樣一個FTP的伺服器抓取，還有就是用kafka等等。第三種就是數據建模，你如果把這個業務數據表直接去暴露給一些數據分析人員，給他們直接用行不行當然他硬著頭皮學一段也是可以的，理解起來比較困難，並且它跟你的業務強掛鉤。你業務本身做的一些調整，比如說今天做了一個拆表，明天改了一個欄位。我們要做數據本身進行建模，比較好的方式就是多維數據分析，我們這裡面有兩個概念，一個是維度一個是指標，什麼是維度比如說這個操作系統，用戶用的什麼操作，這就是一個維度。我們把用戶在你產品記錄的這些行為都可以把這個維度記錄下來。另一方面我們去把它這個一些指標可以匯總起來，什麼是指標比如說我們的交易額、用戶量這些都是指標。通過這種多維的方式有很大的好處，一個是我們可以看一些宏觀的數，更好的一點就是說我們可以對數據進行切片，我們可以看來自天津的使用IOS的這部分用戶是怎麼樣的，就是說我們說數據分析不止是說看一個宏觀的數，比如說我們發現這個數據跌了20%，你只看到跌了20%這一點是不夠的，你還要發現問題，要從不同的維度拆解，然後看問題出在哪裡。比如針對這個用戶行為來說，我們其實就能把一個用戶在一個產品裡面進行的一系列操作理解為這一條一條的事件，這個事件裡面就是一系列的維度，比如時間是一個維度，比如使用的這個手機類型是一個維度，他的省份是一個維度，把這個維度記錄下來，這個表可以說是一個很寬的表。有了這個數據基礎之後我們再去做分析的時候無非就是進行一些組合，比如看來自江蘇省的看手機配件的有多少人，這個就是圍繞這個維度進行組合就可以了，這可以說是我們神策在做數據分析的這塊很核心的一點，就是把底層的這種用戶進行了一系列事件給規範成這種多維數據。

接下來就是如何對數據的統計、分析、挖掘然後去使用它。這裡面也有各種各樣的工具，咱們大的來說就是批處理的、互動式的，各種個的統計分析工具，它本身是解決一個海量數據的多維查詢的問題，當然還有一些做預聚合的系統，其實這些系統你選擇哪一個差別大不大在我看來本身差別是不大的，但是更好的我一般建議還是用一些主流的。有一些比較小眾一點的，對於你在這塊不是很熟悉的話我就建議不要用了，盡量還是用一些主流的，有了問題之後也好找人去解決。

最後一步就是說進行一些數據可視化，可以選擇這些工具把數據可視化做起來。這就是整個用戶行為分析，整個數據流的五個環節。咱們再看一看總體的架構，這裡面都是用一種簡單的方式理解出來的，中間這一塊可以說就是咱們前面講的五個環節，從數據最開始如何接入進去，然後如何做ETL，接下來進行存儲，然後再進行查詢和可視化，有了這些東西夠不夠呢還是不夠的。你要把這些模塊本身能很好的運轉起來，這裡面還要有其他一些服務，監控就是非常關鍵的一環。如果我們半夜裡面發現這個系統停掉了，到底是哪塊停掉了，第二天數據沒有跑出來，到底是哪個環節出了問題這裡就需要有監控。其實我們經常看到網上有誰又重新開發了一個存儲引擎、查檢引擎，他們單純從一個性能指標上可能比別人好，但是運維代價呢別人可能只用半個人力就可以做到，你可能需要10個人、5個人幫著才可以運維起來，這本身是不一樣的。另一方面就是元數據，元數據是幹什麼的我現在判斷一個公司乾的好還是不好就是看兩點，一點是數據源頭上做的怎麼樣，另外一方面就是看元數據，元數據就是數據的數據。比如說一些數據的格式是怎麼樣的，數據的狀態是怎麼樣的，數據被誰更改了，這些都是元數據信息，我們有了元數據，有了更好的數據源，結合起來這兩點如果做好了我覺得你的數據平台建的就不會太差，如果說你元數據也沒有，數據源頭也是放水的，你的平台不會好到哪裡去。這裡是我把一些開源的組建都放到上面去了，如果你自己要去搭的話可以自己做一個參考，比如說哪個環節用哪個組件，至少可以選一個適合你的場景。

最後再簡單說一下我們神策自己的數據平台，其實我前面講的數據流，整個神策自己的平台就是這麼建的，就是這些環節，我們也用了很多開源的東西。另外我們自己也開發了一些，不管是可視化還是什麼。大家有些人用過神策的產品知道我們在可視化這塊做的還是非常好的，另外，元數據的管理、調度都牽涉到很多東西。目前我們自己除了用開源的東西，額外開發的代碼起碼都有50萬億以上的了，所以這個也還是很複雜的。我們構建神策分析這個平台有什麼特點一點就是數據本身，如何把數據基礎建好，數據採集和建模，這一點可以說只有神策定位了如何把客戶的數據分析建好的。第二點是我們提供了PaaS平台，第三點是我們提供私有化存儲，如果對數據安全有顧慮的可以選擇這種方式。

謝謝大家。