Zi 字媒體

神策數據創始人兼CEO桑文峰：大數據分析的四個重要環節

2021/12/25

yidianzixun

矽谷作為當今全球科技創新的前沿陣地，一直吸引著全世界人的目光，對於高科技人士來說也同樣具有這樣的魔力，是眾多夢想家的理想去處。

為了讓大數據領域創業者、數據工程師等技術人才更好的了解最前沿的矽谷技術和文化，由數據猿聯合BitTiger、微軟加速器共同舉辦的「矽谷之聲——大數據技術達人行專場」在北京微軟亞太研發中心總部圓滿落幕。

-視頻版-

-文字版-

以下是由數據猿精編整理髮布的神策數據創始人兼CEO桑文峰的精彩分享：

這次我的分享主要是結合我在百度工作八年，以及創業兩年來的經驗。

百度的數據規模是非常龐大的，"用數據說話"就是百度的文化之一。很多時候的決策和改變，都要依賴於數據。很多人覺得，數據規模大才需要數據分析。小公司沒有那麼多數據，就不需要大數據分析。我認為這是不對的，所以這裡就要解釋一個概念，什麼是大數據？有一種說法是：大數據是思維。但是我認為，要理解大數據，應該從兩個層面來看。一是物理層面；二是抽象層面。

從物理層面來看，可以歸結為四個字：大、全、細、時。

第一，大。這裡指的不一定是物理上的大。舉個例子，我們收集全國各個地級市今天的蘋果價格，可能收集到的數據只有2兆，但我們用這個來做一個調動性，這就很顯然是一個大數據的應用了。

第二，全。全指的是多種源，全量而並非抽樣。以前做調研分析，許多時候都是抽樣，這就很容易造成偏差。樣本有一點問題，跟全局表現出來的都會有所差異。

第三，細。舉例來說，如果我們提問全國各省份大家喜歡吃什麼東西？大家並不會回答"我來自河南，喜歡吃燴面"這麼細緻。但是我們可以基於地理維度進行獲取更細緻的信息。

第四，時。即時效性。以前一個老闆可能都不知道每個季度公司的收益到底是多少。而現在是實時的進行計算、反饋結果。

所以，對於許多小的創業公司來說，我們可以把數據收集的更細、維度更多、時效性更強，同樣也可以進行更多的數據分析。我認為這些同樣也叫大數據。

從抽象層面來看，最重要的一點是數據驅動的思維。這是大數據里非常關鍵的一點。雖然以前也有數據分析，但那個時候是採集樣本，基於樣本去分析、去做決策。現如今，無論是互聯網還是感測器的發展，都讓我們有機會採集到更多的數據，因此現在的數據分析和以前也是不一樣的。

大數據的第一個環節是數據採集。因為數據規模大，當達到一定的水平之後，採集本身就成了一個很大的問題。我們現在需要各種各樣的手段把這個數據記下來。每一個實際發生的信息，我們都要進行採集。

第二個環節就是數據建模。我們要在數據的基礎上進行模型的搭建。數據建模最重要的是整理數據。把數據表做出來以後，我們才能更好的去分析。

第三個環節是數據分析。我們在擁有數據的基礎上去做用戶分析、用戶分群。

最後就是指標。圍繞一個產品，我們如何去獲取新用戶？每天增加了多少用戶？通過哪個渠道？這些問題都是我們要關心的。

接下來就重點給大家講講每個環節的具體操作：

環節一：數據採集

大數據體現的是大，但時效性也是一個基本要求。現在我們進行數據採集、數據處理的時候，都在強調盡量去生成這個數據。歸結起來，如何把這個數據做好？就兩個字，一個是全、一個是細。"全"是用各種各樣的數據源，無論是前端的、後端的數據，我們都要全量的採集到。"細"是強調多維度，無論什麼樣的維度信息，我們都可以採集過來。

在百度工作這麼多年，"要把數據的事情做好"是我非常重要的一個心得。數據源做好了，事情基本上就成功了一半。如果沒有數據，後面即使有再牛的演算法，也一樣做不好。所以，數據源是非常重要的，在這一塊要花工作去把它做好。

數據採集有三類手段：

第一類是在產品里通過後台配置，去採集我們要採集的數據，或者是把這個採集的數據命名成什麼樣。這個方式的好處在於，不需要工程師干預太多，只需要業務人員、產品、運營，自己就可以看到要分析的數據結果。這種方式有利也有弊。自動採集手段目前還有很多局限性。許多時候，只能收集一些宏觀的數據，比如說機器的版本。在採集一些複雜信息時，自動採集的方式就很難達到了。

第二類是通過代碼去收集任何想要的信息，把要採集的地方埋入代碼，記錄下來。絕大多數的數據一般都會通過後端去採集。

第三類是通過工具去採集。

這三種是常見的數據採集的方式，無非是你從中去選擇適合你的方式。

許多的公司在數據採集方面都存在非常大的問題。公司人員的流動很有可能造成數據採集的混亂。所以要對數據採集本身進行監控，在哪些點進行了採集，都採集了什麼樣的維度，通過的有多少，沒有通過的有多少，要將這些監控起來。

另外，需要有分析師參與到數據管理。在我自己創業的過程中，我發現許多公司缺少一個真正的數據負責人。一方面我們要用各種各樣的工具，去做好數據採集。另一方面，需要懂業務的人，真的把數據本身的採集管理起來。

環節二：數據建模

現在許多產品背後都有一個資料庫，資料庫里很多都是跟交易相關的。在資料庫里會把我們生成的數據記下來，比如說用戶的註冊信息、交易訂單信息，這種信息都會寫到資料庫里。那麼我們在資料庫里就可以解決問題，為什麼要專門建一個數據平台呢？這裡面有三個問題：

1、要把數據表用於數據中心。如果把資料庫里的表交給業務員、產品經理，他們很難理解，更不可能後續在機房進行一些工作。

2、性能不行。業務資料庫這種數據結構、數據表處理一般支持的是高頻化、小批量的，而我們的數據分析跟這個模式是完全不一樣的。數據分析的頻次並不是很高，但是它的規模、吞吐量很大。在傳統的資料庫上去處理這個性能就會有很大的問題。

3、數據不全。業務資料庫用於做數據中心，這個數據模型本身是不行的，或者說是只能解決一部分的問題。

做好數據分析，首先在數據建模的時候要易於理解。數據模型建好以後，無論是誰都可以理解，這樣才能把數據更好的利用起來。另外還要性能好，我們在查詢的時候，可以很快的得到響應。在數據分析，特別是互聯網領域的分析過程中，最常用的模型是多維數據處理模型（OLAP），把數據拆成一個維度或指標。當然最好的分析方式還是建立一個好的數據模型。

環節三：數據分析

數據分析可以幹什麼？產品改進。數據分析可以幫助我們看到問題，然後改進。在有數據的情況下，即使一個初級的產品經理，也可以把這個產品迭代本身做得像模像樣，因為有數據支撐，我知道哪些是客戶喜歡的，這都是可以用數據表現出來的。

環節四:運營監控

運營監控是互聯網產品中一個非常重要的事情。互聯網產品有三件最重要的的事情：

第一件事情是拉新，就是如何去獲取新用戶；

第二件事情是怎麼讓這個用戶不斷的用你的產品；

第三件事情是變現，我用得挺好，來了就不走了，這三點是非常關鍵的。

一個科學的運營環節，應該分析哪些數據，可以從以下五個方面來看：

第一是觸達，怎麼讓用戶知道你；

第二是激活，要讓用戶進行購買行為；

第三是留存；

第四是引薦，一個用戶能推薦給其他用戶；

最後就是營收。

互聯網產品常用的分析法：

多維分析：一個開元軟體分析之後發現安卓的下載率比ios低很多，結果是因為屏幕布局問題，導致下載按鈕沒有顯示，下載量低。這就是多維分析的方式。

漏斗分析：用戶來到我們網站，這期間有一個轉化的過程，這些環節我們都要跟進下來，才能知道是什麼原因導致了用戶流失。這就是漏斗分析法。

用戶分群：對不同的人採取不同的策略。比如，一開始滴滴打車發13元紅包，有些人發不發紅包都會用這款軟體，而一些人則不同。這就需要區別開來，使用不同的策略。

環節五：指標

我們到底應該關心什麼樣的指標？這裡有兩個方法：第一關鍵指標法；第二海盜指標法。

以上就是我分享的內容，謝謝大家！

桃園 qq 地點貓咪桃園市 taoyuan xuan 根部尾巴有大桃園旅遊景點