騰訊大數據知乎平台自開通以來,不時獲邀回答關於大數據入門和大數據書籍、工具的推薦等問題,我們也非常希望與大數據愛好者們分享一些經驗和乾貨。一、數據分析師有哪些要求?
本次我們邀請到了一位騰訊內部資深數據分析師,他將會為大數據入門者推薦相關書籍,同時也會系統地為大家講解數據分析師需要掌握的相關知識技能,最後分享一些他作為數據分析師的個人心得,希望能對大家在學習數據分析的過程中有所幫助。
下圖是數據分析師認證的基本內容(cda.pinggu.org/view/3.html),1至3級,從低到高。概括起來四點要求:
1、理論要求及對數字的敏感性,包括統計知識、市場研究、模型原理等。
2、工具使用,包括挖掘工具、資料庫、常用辦公軟體(excel、PPT、word、腦圖)等
3、業務理解能力和對商業的敏感性。對商業及產品要有深刻的理解,因為數據分析的出發點就是要解決商業的問題,只有理解了商業問題,才能轉換成數據分析的問題,從而滿足部門的要求。
4、彙報和圖表展現能力。這是臨門一腳,做得再好的分析模型,如果不能很好地展示給領導和客戶,成效就大打折扣,也會影響到數據分析師的職業晉陞。
二、請把數據分析作為一種能力來培養從廣義來說,現在大多數的工作都需要用到分析能力,特別是數據化運營理念深入的今天,像BAT這樣的公司強調全員參與數據化運營,所以,把它作為一種能力培訓,將會讓你終生受益。
三、從數據分析的四個步驟來看清數據分析師需具備的能力和知識:數據分析的四個步驟(這有別於數據挖掘流程:商業理解、數據理解、數據準備、模型搭建、模型評估、模型部署),是從更宏觀地展示數據分析的過程:獲取數據、處理數據、分析數據、呈現數據。
(一) 獲取數據
獲取數據的前提是對商業問題的理解,把商業問題轉化成數據問題,要通過現象發現本質,確定從哪些緯度來分析問題,界定問題后,進行數據的採集。此環節,需要數據分析師具備結構化的思維和對商業問題的理解能力。
推薦書籍:《金字塔原理》、麥肯錫三部曲:《麥肯錫意識》、《麥肯錫工具》、《麥肯錫方法》
工具:思維導圖、mindmanager軟體
(二) 處理數據
一個數據分析項目,通常數據處理時間佔70%以上,使用先進的工具有利於提升效率,所以盡量學習最新最有效的處理工具,以下介紹的是最傳統的,但卻很有效率的工具:
Excel:日常在做通報、報告和抽樣分析中經常用到,其圖表功能很強大,處理10萬級別的數據很輕鬆。
UltraEdit:文本工具,比TXT工具好用,打開和運行速度都比較快。
ACCESS:桌面資料庫,主要是用於日常的抽樣分析(做全量統計分析,消耗資源和時間較多,通常分析師會隨機抽取部分數據進行分析),使用SQL語言,處理100萬級別的數據還是很快捷。
Oracle、SQL Sever:處理千萬級別的數據需要用到這兩類資料庫。
當然,在自己能力和時間允許的情況下,學習新流行的分散式資料庫及提升自身的編程能力,對未來的職業發展也有很大幫助。
分析軟體主要推薦:
SPSS系列:老牌的統計分析軟體,SPSS Statistics(偏統計功能、市場研究)、SPSS Modeler(偏數據挖掘),不用編程,易學。
SAS:老牌經典挖掘軟體,需要編程。
R:開源軟體,新流行,對非結構化數據處理效率上更高,需編程。
隨著文本挖掘技術進一步發展,對非結構化數據的分析需求也越來越大,需要進一步關注文本挖掘工具的使用。
(三) 分析數據
分析數據,需要用到各類的模型,包括關聯規則、聚類、分類、預測模型等,其中一個最重要的思想是對比,任何的數據需要在參照系下進行對比,結論才有意義。
推薦書籍:
1、《數據挖掘與數據化運營實戰,思路、方法、技巧與應用》,盧輝著,機械出版社。這本書是近年國內寫得最好的,務必把它當作聖經一樣來讀。
2、《誰說菜鳥不會數據分析(入門篇)》和《誰說菜鳥不會數據分析(工具篇)》,張文霖等編著。屬於入門級的書,適合初學者。
3、《統計學》第五版,賈俊平等編著,人民大學出版社。比較好的一本統計學的書。
4、《數據挖掘導論》完整版,[美]Pang-Ning Tan等著,范明等翻譯,人民郵電出版社。
5、《數據挖掘概念與技術》,Jiawei Han等著,范明等翻譯,機械工業出版社。這本書相對難一些。
6、《市場研究定量分析方法與應用》,簡明等編著,人民大學出版社。
7、《問卷統計分析實務---SPSS操作與應用》,吳明隆著,重慶大學出版社。在市場調查領域比較出名的一本書,對問卷調查數據分析講解比較詳細。
(四) 呈現數據
該部分需要把數據結果進行有效的呈現和演講彙報,需要用到金字塔原理、圖表及PPT、word的呈現,培養良好的演講能力。
推薦書籍:
1、《說服力讓你的PPT會說話》,張志等編著,人民郵電出版社。
2、《別告訴我你懂ppt》加強版,李治著,北京大學出版社。
3、《用圖表說話》,基恩。澤拉茲尼著,馬曉路等翻譯,清華大學出版社。
(五) 其他的知識結構
數據分析師除了具備數學知識外,還要具備市場研究、營銷管理、心理學、行為學、產品運營、互聯網、大數據等方面的知識,需要構建完整廣泛的知識體系,才能支撐解決日常遇到的不同類型的商業問題。
推薦書籍:
1、《消費者行為學》第10版,希夫曼等人著,江林等翻譯,人民大學出版社,現在應該更新到更高的版本。
2、《怪誕行為學》升級版,艾瑞里著,趙德亮等翻譯,中信出版社
3、《營銷管理》,科特勒等著,梅清豪翻譯,格致出版社和上海人民出版社聯合出版
4、《互聯網思維---獨孤九劍》,趙大偉主編,機械出版社
5、《大數據時代---生活、工作與思維的大變革》,舍恩伯格等著,周濤等翻譯,浙江人民出版社
四、關於數據分析師的職業發展:1、數據分析師通常分兩類,分工不同,但各有優勢。
一類是在專門的挖掘團隊裡面從事數據挖掘和分析工作的。如果你能在這類專業團隊學習成長,那是幸運的,但進入這類團隊的門檻較高,需要紮實的數據挖掘知識、挖掘工具應用經驗和編程能力。該類分析師更偏向技術線條,未來的職業通道可能走專家的技術路線。
另一類是下沉到各業務團隊或者運營部門的數據分析師,成為業務團隊的一員。他們工作是支撐業務運營,包括日常業務的異常監控、客戶和市場研究、參與產品開發、建立數據模型提升運營效率等。該類型分析師偏向產品和運營,可以轉向做運營和產品。
2、數據分析師的理想行業在互聯網,但條條大道通羅馬,走合適你的路線。
從行業的角度來看:
1)互聯網行業是數據分析應用最廣的行業,其中的電商企業,更是目前最火的,而且企業也更重視數據分析的價值,是數據分析師理想的成長平台。
2)其次是諮詢公司(比如專門的數據挖掘公司Teradata、尼爾森等市場研究公司),他們需要數據分析人才,而且相對來說,數據分析師在諮詢公司成長的速度更快,專業也會更全面。
3)再次是金融行業,比如銀行和證券等行業,該行業對數據分析的依賴需求,越來越大。
4)最後是電信行業(移動、聯通和電信),它們擁有海量的數據,在嚴峻的競爭下,也越來越重視數據分析,但進入這些公司的門檻比較高。
五、什麼人適合學習數據分析?這個問題的答案跟「什麼人適合學功夫」一樣,毫無疑問,功夫是適合任何人學習的(排除心術不正的人),因為能夠強身健體。而功夫的成效,要看習武者的修鍊深淺。常常有人爭論,是詠春拳厲害,還是散打厲害,其實是顛倒了因果,應該看哪個人練習得比較好,流派之間沒有高低,只有人修鍊的厚薄。
實際上,問題的潛台詞是「什麼人學習數據分析,會更容易取得成功(比如職業成功)」,這個要視乎你的興趣、付出和機遇。但要做到出類拔萃,除了上面三點,還需要一點天賦,這裡的機遇是指你遇到的職業發展平台、商業環境、導師和同事。借用管理大師德魯克的話「管理是可以習得的」,管理並非是天生的,而數據分析能力,也可以後天提升。或許做到優秀,只需要你更加的努力+興趣,而這個努力的過程,也包括你尋找機遇的部分。
六、最後的建議請再次問問自己,是否真的喜歡數據分析,能否忍受處理數據時的寂寞?如果是,那就開始學習,給你幾條建議。
1、把數據分析作為一種能力培養,讓自己在現在的團隊中展現出良好的數據分析能力,為你以後內部轉崗做好準備。如果內部轉崗不成,你可以考慮跳槽到我之前分析的行業中,但我強烈建議你還是需要把系統開發的編程能力學習好,並且對商業智能系統(BI和CRM)有一定了解,這也許是應聘數據分析的優勢。如果沒有數據分析經驗去應聘,相對會難一些,用人單位會考你統計和數據挖掘模型方面的知識,以及工具使用情況。
2、在公司里找一些有共同愛好的同事一起學習數據分析,平時多請教數據分析做得好的同事,它山之石,可以攻玉。
3、紮實學好一、兩門數據挖掘軟體,基於你有編程的基礎,建議你可以學SAS或者R,同時輔助學習SPSS Modeler。如果沒編程基礎或者希望短期能夠取得成效,那也可以先學習SPSS。SAS+SPSS,基本能夠滿足很大部分企業的需求,三者都會,那更好。
4、要了解公司是如何運營,產品是如何開發的,如何做客戶研究鎖定客戶需求,如何做產品營銷,這些需要不斷工作積累和廣泛的閱讀。
5、開始學習時,先讀幾本有趣的數據分析類的書(如《誰說菜鳥不會數據分析》),然後系統學習一下統計知識(建議教材用《統計學》第五版,賈俊平等編著),接著網上快速搜集軟體操作視頻和案例,然後逐個分析模型進行學習和總結歸納,學習最好能夠結合實際工作中的問題進行。
6、學習到一定程度時,參加一些數據分析師的職業認證,進一步梳理知識結構,同時認識一些志同道合的朋友和老師,也是對你有很大幫助。