search
尋找貓咪~QQ 地點 桃園市桃園區 Taoyuan , Taoyuan

神策數據創始人兼CEO桑文峰:大數據分析的四個重要環節

矽谷作為當今全球科技創新的前沿陣地,一直吸引著全世界人的目光,對於高科技人士來說也同樣具有這樣的魔力,是眾多夢想家的理想去處。

為了讓大數據領域創業者、數據工程師等技術人才更好的了解最前沿的矽谷技術和文化,由數據猿聯合BitTiger、微軟加速器共同舉辦的「矽谷之聲——大數據技術達人行專場」在北京微軟亞太研發中心總部圓滿落幕。

-視頻版-

-文字版-

以下是由數據猿精編整理髮布的 神策數據創始人兼CEO桑文峰 的精彩分享:

這次我的分享主要是結合我在百度工作八年,以及創業兩年來的經驗。

百度的數據規模是非常龐大的,"用數據說話"就是百度的文化之一。很多時候的決策和改變,都要依賴於數據。很多人覺得,數據規模大才需要數據分析。小公司沒有那麼多數據,就不需要大數據分析。我認為這是不對的,所以這裡就要解釋一個概念,什麼是大數據?有一種說法是:大數據是思維。但是我認為,要理解大數據,應該從兩個層面來看。一是物理層面;二是抽象層面。

從物理層面來看,可以歸結為四個字:大、全、細、時。

第一,大。這裡指的不一定是物理上的大。舉個例子,我們收集全國各個地級市今天的蘋果價格,可能收集到的數據只有2兆,但我們用這個來做一個調動性,這就很顯然是一個大數據的應用了。

第二,全。全指的是多種源,全量而並非抽樣。以前做調研分析,許多時候都是抽樣,這就很容易造成偏差。樣本有一點問題,跟全局表現出來的都會有所差異。

第三,細。舉例來說,如果我們提問全國各省份大家喜歡吃什麼東西?大家並不會回答"我來自河南,喜歡吃燴面"這麼細緻。但是我們可以基於地理維度進行獲取更細緻的信息。

第四,時。即時效性。以前一個老闆可能都不知道每個季度公司的收益到底是多少。而現在是實時的進行計算、反饋結果。

所以,對於許多小的創業公司來說,我們可以把數據收集的更細、維度更多、時效性更強,同樣也可以進行更多的數據分析。我認為這些同樣也叫大數據。

從抽象層面來看,最重要的一點是數據驅動的思維。這是大數據里非常關鍵的一點。雖然以前也有數據分析,但那個時候是採集樣本,基於樣本去分析、去做決策。現如今,無論是互聯網還是感測器的發展,都讓我們有機會採集到更多的數據,因此現在的數據分析和以前也是不一樣的。

大數據的第一個環節是數據採集。因為數據規模大,當達到一定的水平之後,採集本身就成了一個很大的問題。我們現在需要各種各樣的手段把這個數據記下來。每一個實際發生的信息,我們都要進行採集。

第二個環節就是數據建模。我們要在數據的基礎上進行模型的搭建。數據建模最重要的是整理數據。把數據表做出來以後,我們才能更好的去分析。

第三個環節是數據分析。我們在擁有數據的基礎上去做用戶分析、用戶分群。

最後就是指標。圍繞一個產品,我們如何去獲取新用戶?每天增加了多少用戶?通過哪個渠道?這些問題都是我們要關心的。

接下來就重點給大家講講每個環節的具體操作:

環節一:數據採集

大數據體現的是大,但時效性也是一個基本要求。現在我們進行數據採集、數據處理的時候,都在強調盡量去生成這個數據。歸結起來,如何把這個數據做好?就兩個字,一個是全、一個是細。"全"是用各種各樣的數據源,無論是前端的、後端的數據,我們都要全量的採集到。"細"是強調多維度,無論什麼樣的維度信息,我們都可以採集過來。

在百度工作這麼多年,"要把數據的事情做好"是我非常重要的一個心得。數據源做好了,事情基本上就成功了一半。如果沒有數據,後面即使有再牛的演算法,也一樣做不好。所以,數據源是非常重要的,在這一塊要花工作去把它做好。

數據採集有三類手段

第一類是在產品里通過後台配置,去採集我們要採集的數據,或者是把這個採集的數據命名成什麼樣。這個方式的好處在於,不需要工程師干預太多,只需要業務人員、產品、運營,自己就可以看到要分析的數據結果。這種方式有利也有弊。自動採集手段目前還有很多局限性。許多時候,只能收集一些宏觀的數據,比如說機器的版本。在採集一些複雜信息時,自動採集的方式就很難達到了。

第二類是通過代碼去收集任何想要的信息,把要採集的地方埋入代碼,記錄下來。絕大多數的數據一般都會通過後端去採集。

第三類是通過工具去採集。

這三種是常見的數據採集的方式,無非是你從中去選擇適合你的方式。

許多的公司在數據採集方面都存在非常大的問題。公司人員的流動很有可能造成數據採集的混亂。所以要對數據採集本身進行監控,在哪些點進行了採集,都採集了什麼樣的維度,通過的有多少,沒有通過的有多少,要將這些監控起來。

另外,需要有分析師參與到數據管理。在我自己創業的過程中,我發現許多公司缺少一個真正的數據負責人。一方面我們要用各種各樣的工具,去做好數據採集。另一方面,需要懂業務的人,真的把數據本身的採集管理起來。

環節二:數據建模

現在許多產品背後都有一個資料庫,資料庫里很多都是跟交易相關的。在資料庫里會把我們生成的數據記下來,比如說用戶的註冊信息、交易訂單信息,這種信息都會寫到資料庫里。那麼我們在資料庫里就可以解決問題,為什麼要專門建一個數據平台呢?這裡面有三個問題:

1、要把數據表用於數據中心。如果把資料庫里的表交給業務員、產品經理,他們很難理解,更不可能後續在機房進行一些工作。

2、性能不行。業務資料庫這種數據結構、數據表處理一般支持的是高頻化、小批量的,而我們的數據分析跟這個模式是完全不一樣的。數據分析的頻次並不是很高,但是它的規模、吞吐量很大。在傳統的資料庫上去處理這個性能就會有很大的問題。

3、數據不全。業務資料庫用於做數據中心,這個數據模型本身是不行的,或者說是只能解決一部分的問題。

做好數據分析,首先在數據建模的時候要易於理解。數據模型建好以後,無論是誰都可以理解,這樣才能把數據更好的利用起來。另外還要性能好,我們在查詢的時候,可以很快的得到響應。在數據分析,特別是互聯網領域的分析過程中,最常用的模型是多維數據處理模型(OLAP),把數據拆成一個維度或指標。當然最好的分析方式還是建立一個好的數據模型。

環節三:數據分析

數據分析可以幹什麼?產品改進。數據分析可以幫助我們看到問題,然後改進。在有數據的情況下,即使一個初級的產品經理,也可以把這個產品迭代本身做得像模像樣,因為有數據支撐,我知道哪些是客戶喜歡的,這都是可以用數據表現出來的。

環節四:運營監控

運營監控是互聯網產品中一個非常重要的事情。互聯網產品有三件最重要的的事情:

第一件事情是拉新,就是如何去獲取新用戶;

第二件事情是怎麼讓這個用戶不斷的用你的產品;

第三件事情是變現,我用得挺好,來了就不走了,這三點是非常關鍵的。

一個科學的運營環節,應該分析哪些數據,可以從以下五個方面來看:

第一是觸達,怎麼讓用戶知道你;

第二是激活,要讓用戶進行購買行為;

第三是留存;

第四是引薦,一個用戶能推薦給其他用戶;

最後就是營收。

互聯網產品常用的分析法:

多維分析:一個開元軟體分析之後發現安卓的下載率比ios低很多,結果是因為屏幕布局問題,導致下載按鈕沒有顯示,下載量低。這就是多維分析的方式。

漏斗分析:用戶來到我們網站,這期間有一個轉化的過程,這些環節我們都要跟進下來,才能知道是什麼原因導致了用戶流失。這就是漏斗分析法。

用戶分群:對不同的人採取不同的策略。比如,一開始滴滴打車發13元紅包,有些人發不發紅包都會用這款軟體,而一些人則不同。這就需要區別開來,使用不同的策略。

環節五:指標

我們到底應該關心什麼樣的指標?這裡有兩個方法:第一關鍵指標法;第二海盜指標法。

以上就是我分享的內容,謝謝大家!



熱門推薦

本文由 yidianzixun 提供 原文連結

寵物協尋 相信 終究能找到回家的路
寫了7763篇文章,獲得2次喜歡
留言回覆
回覆
精彩推薦