【42頁PPT】我們研究了983名在數據科學領域的工作....

概要

在第四版O』Reilly數據科學薪資調查中，我們研究了983名在數據科學領域的工作者，他們來自45個國家和美國45個州的不同行業。通過本次調查的64個問題，我們研究了數據科學家，分析員和工程師所使用的工具，工作內容，以及薪資水平。

主要發現包括：

Python和Spark成為了對薪酬貢獻最高的兩大工具
在編程從業者當中，編程時長越久薪資越高
SQL，Excel，R和Python是最常用的工具
會議參加越多的人，薪資越高
在相同的工作量下，女性薪資低於男性
各個國家和美國各州的GDP已經成為了預測不同地域薪資的標杆，但這不是最直接的預測指標，而是該模型的額外數據補充
在選擇和使用工具方面，發現有兩組最明顯的差異，第一是以Excel，SQL和少量閉源工具為主的職員，另外是使用更多開源工具並投入更多時間編碼的職員
R是個「跨界」語言，即使不怎麼編程或使用開源工具的人也會使用R
編程工作者中又區分為兩種，第一是主要使用Python的年輕數據科學家/分析師，第二是經驗豐富的高級數據科學家/工程師，他們使用的工具更多而且薪資更高

可以參考一下在附錄B完整的模型，可以依據個人情況去評估自己的工資（注意別忘了平方最後的結果）

簡介

這四年中，我們在O』Reilly Media上收集到數據科學家，工程師及其他數據業內人士的相關信息，包括他們的核心技能，所使用的工具和薪資水平。我們發現很多的關鍵變數，例如工資中位數、核心技能以及工具間使用的相關性基本沒有變化。在本年度分析中，我們收集了從2015年9月到2016年6月的983份數據業內人士的調查問卷。

該報告中，我們採用了不同方法對數據結果進行分析，包括著重對受訪者和工具使用進行了分類。為了提高結論的準確度，我們優化了線性模型，在經濟的地理變異上應用了平方根變化以及公開信息資源。同時，該研究提出了一些涉及到工作內容和薪資變化的新問題。

薪資

該調查中，研究對象的基本工資中位數是8.7萬美元，比去年的9.1萬美元低了不少，但這是由於樣本中基本統計變數差異導致的。今年樣本有了更多非美國的受訪者和30歲及以下的年輕人。有五分之三的樣本來自美國，他們的薪資中位數為10.6萬美元。

什麼是四分位距（IQR）

通過一系列問題，我們都會做出相應的圖表和統計出受訪者的工資中位數。雖然中位數可以用來比較來自不同組的工資，但卻無法顯示樣本的薪資範圍與區間變化，因此IQR也被劃分在這次研究範圍內。IQR包括了樣本中間的50%薪資區間，但該範圍不是置信區間，也不是以標準偏差為基礎的。

舉例來說，美國受訪者的IQR是8萬到13.8萬美元之間，這代表四分之一的美國受訪者工資是低於8萬的，而有四分之一受訪者的工資是高於13.8萬美元。在美國東北和中西地區的對比中可以明顯發現，東北區相對有更高的工資中位數（10.5萬vs 9.8萬）。但是東北地區薪資的第三分位數是13.3萬美元，而中西地區為18.8萬美元，這表示中西地區的薪資變化差距更大，而且在最高收入人群中，中西地區的薪資甚至是高於東北地區的。

薪資變化因素

我們收集了過去三年裡薪資變化的數據。根據數據顯示，接近一半受訪者表示薪資有20%的變化，而有12%的受訪者表示工資增加了一倍。我們嘗試建立薪資變化和其他變數的模型，但R方只有0.221，所以這個模型並沒有很大的建設性。在薪資回歸模型上我們發現了影響薪資變化的因素，例如使用Spark/Unix系統，長時間的會議，長時間的編程和原始模型的建立，上述這些因素對薪資預測有正面影響。然而使用Excel，性別上的差異，在落伍公司工作則對薪資預測起到負面影響。同時，地理差異也相對影響著薪資變化，因為在一個經濟更發達的地方，工資不太可能止步不前。

評估你的薪水

你可以利用模型去預估自己的薪水，在附錄B就能參見完整的模型，記得加上適用自己的係數，然後算出所得結果的平方就是你最後預估的薪資（注意係數不是以美元為單位的）。某一特定係數對最終薪酬估算的影響也會依賴於其他係數，而且薪資越高，每個係數的影響就越大。舉例來說，對初級數據科學家和高級架構師來說，他們在高收入國家薪資差異明顯比較低收入國家的要大。

影響薪酬的因素：回歸模型

在今年報告中，把我們2015年報告中原來的基本線性模型做了兩處調整，包括：1）外部地理數據（美國各州和全國GDP）2）平方根變換。該模型需要把薪資影響因素的係數加起來，再把結果平方得出最後的預估薪資。而這兩處的調整都有效提高了薪資預估的準確性。

該模型解釋了薪資樣本有四分之三的方差（R平方為0.747），大致有一半的方差是跟地理位置和工作經驗有關。還有一些重要因素無法通過調查中得出，例如，我們不能評估出受訪者的工作質量，因此部分方差無法得到合理解釋也是很正常的。

地理因素影響

地理因素對薪資變化有著明顯的影響，但由於樣本數受限，該因素不能精確地從樣本中體現出來。例如，如果一個國家的受訪對象只有一到兩個，就不能充分判斷出該國的係數。因此，我們擴張到一個更大的範圍，例如以亞洲，東歐作為係數，但在這些區域內的各個國家，他們之間也有一些經濟差異，所以這也使模型的準確性也受到了一定影響。

為解決上述問題，我們採用了各個國家和美國各州公開的人均GDP。然而GDP本身不能直接轉換為薪資，但卻可以成為薪資差異的地域性標杆。在這裡，我們使用的人均GDP是以國家和各州為單位的，因此該模型對於更小的地理單位會預估得不夠到位。

在GDP納入模型之前，我們在兩處做了調整。其一，華盛頓特區人均GDP是18.1萬美元，遠高於鄰州維吉尼亞州的5.7萬美元和馬里蘭州的6萬美元。許多維吉尼亞州和馬里蘭州的數據科學崗位都位於華盛頓州都會區內，但從調查數據中顯示，在這三個地區數據科學家的平均薪資沒有明顯差異。所以用18.1萬美元去代表華盛頓特區會高估他們薪資水平，所以華盛頓特區GDP就被調整為馬里蘭州的6萬美元。

另一處對加利福尼亞州進行了調整。因為在所有薪資調查中發現，即使加利福尼亞州6.2萬美元的人均GDP排名並不是很高，至少低於九個州以及瑞士，挪威兩個國家，但工資中位數在美國各州和各個國家中是最高的。我們發現這種異常現象是由於舊金山灣區8到9萬美元人均GDP所導致的。作為一個主要的科技中心，灣區在某種程度上拉高了加州的人均GDP，因此我們將加州的數據調整到7萬美元。

性別因素

據調查顯示，男性和女性的薪資中位數有1萬美元的差距。在所有變數保持一致的情況下，例如一樣的職能和技能，女性薪資往往比男性要低。

年齡，經驗和行業因素

研究表明，經驗和年齡是影響工資的兩大因素。以年為單位來計算經驗係數（+3.8）來說，每多一年經驗，薪資就會平均漲2到2.5千美元。從年齡方面來看，最大的差異是20歲初到20歲末之間，其次是31至65歲和65歲以上的差距。同時我們也讓受訪者用1到5分去評估他們的談判技巧，那些自我評估較高的人傾向有更高的薪資。在同一行業內和擁有相同技能的前提下，給自己打5分的數據科學家比打1分的工資多出1到1.5萬美元。

最後，考慮到工作與生活之間的平衡，數據顯示當工作超過60個小時，薪資就會呈下滑趨勢。

如何分配時間：任務的重要性

我們通過四個不同類型問題去了解受訪者的工作內容：

某項工作的參與度
職稱
會議的時間
編程的時間

對於每項任務，受訪者可以選擇以下三個級別：不參與，少量參與，主要參與。

對工資影響最大（係數最大）的工作內容是原始模型研發。該模型中，主要參與研發的受訪者薪資平均增加了7.4千美元。甚至少量參與的也有+4.4的係數。

職稱的相關性

相比於具體工作內容，職稱也許是個更好的工資預測因素，儘管職稱本身也無法準確體現出工作內容。例如，在軟體架構師中，只有70%的人主要參與了大型軟體項目，所以職稱並不代表具體工作內容。雖然這存在一定的差異，還是可以利用職稱來預測薪資，因為「架構師」可能也是一種資歷的象徵。在這個模型中，「高層管理人員」的係數為+20.2，特別是在規模較小的公司高管，或是董事和副總裁。「中層管理人員」係數為+9.7，「商業問題分析並解決」的係數為+1.5/+ 6.7，和「公司外部談判」的係數為+5.4。

會議所用的時間

據數據顯示，在會議中花時間越多的人一般薪資越高。當然這沒有必然的因果關係，而且在所有因素保持不變的情況下（比如工作內容，工具的使用，等），開始積极參加會議似乎也無法給薪資帶來增漲。（當然，我們現階段還未對此進行驗證）

編程的工作角色

每星期花4-8個小時來編程的人工資中位數最高，而完全不編程的人工資中位數最低。在本次樣本中只有8%的人完全不編程，和去年的20%比有了明顯的下降，這說明了編程是數據科學工作者的大勢所趨。

不同工具選擇帶來的影響

數據顯示，樣本中最常用的工具為Excel（69%）、SQL（69%）、R（57%）和 Python（54%）。與去年相比，Excel和R的使用率分別獲得了10%和5%的提升，SQL及Python僅比去年有小幅度提升。

超過90% 的受訪者表示工作中有一部分時間是編程，且80%的人表示用過至少Python, R, 和Java其中一種，但只有8％的受訪者表示三者都用過。該模型中，把除操作系統以外最常用的工具作為單獨係數，其中Python, JavaScript, 和Excel 的係數比較顯著，分別為＋4.6，－2.2和－7.4。我們將比較不常用的工具歸類，其中對薪資影響最大的5類集群，他們的係數可以根據每類中掌握的工具數量進行累加。（集群內係數的累加是有規定個數上限的，因為僅有小部分受訪者累加超過該個數，而且即使超過也不代表會影響薪資水平。）擁有最高係數的集群是以Spark和Unix為核心，其中每項工具均有＋3.9係數。Spark使用率從去年的3%提高到了20%，而且樣本顯示高薪的受訪者中使用Spark的更多。第二大集群包括了Tableau, Teradata, Netezza, Microstrategy, Aster Data, 和Jaspersoft，其係數均為+2.4。在去年的報告中，Tableau也有一個較大的正係數。另外三個較大的集群主要是由開源數據挖掘工具構成的。

數據分析工具選擇的順序

雖然這個模型可以基於使用工具的數量而估算出一個人的薪資水平，但這並不能推斷出到底哪個工具是你一下個學習的目標。其實問題的關鍵在於該工具是否有助於完成你日常的工作。如果你不需要分析比電腦本地內存還大的數據量，那麼即使用分佈性系統的工具也無法提高你的薪資。

在以下工具排列中，學會第一個工具的人往往會把第二個設為下一個學習目標，而且這每一環節都存在著較大的薪酬差距。所以如果你已經學會序列中的第一個工具，不妨可以考慮學習第二個，以此類推。

工具與工作之間的關係：受訪者的分類

對於數據業內人士並不能一概而論，儘管根據職稱區分是很常見，但根據工具及工作內容加以區分會更為穩妥。基於每個受訪者的工具使用和工作內容，他們都會被歸在以下四類中的其中之一。這四類群體在樣本中人數比例依次為29%，31%，23%和17%。下面分別描述了這四類群體。

種類1：使用少量工具的分析師和數據科學家，裡面也包括了一些程序開發員。

種類2：會使用較多微軟工具的分析師和工程師

種類3：以使用Python為主的編程分析師和數據科學家

種類4：以使用開源集群工具為主的數據工程師和架構師

接下來的報告會描述工具使用的比例，完整數據請參見附錄A。

操作系統

在之前三篇數據科學薪資調查報告中，有兩個比較明顯差異的工具組，分別是開源工具（較少GUI類工具）和專有軟體/微軟大型開發軟體。在開源集群的工具中，最常用的工具包括Linux，Python，Spark，Hadoop和Java。而在閉源集群的工具中，常用工具包括Windows, Excel, Visual Basic和MS SQL Server。同樣這種明顯的區分也出現在受訪者的分類中，下表的操作系統的分類也能說明這一點。

通過下表中一系列任務體現出了1/2組及3/4組之間的區別，下表是主要參與到任務的受訪者比例。

對於以上任務，3/4組數據比1/2組要高。

Python，Matplotlib，Scikit-Learn

在這個系列的工具中，Python及它兩個熱門程序包Matplotlib(可視化)和Scikit-Learnv (機器學習)把1/2組和3/4組也明顯的區分開來：

問卷調查的受訪者中，3/4組和1/2組相比較下，3/4更加趨向於用Python。對於兩個程序包，也存在著類似的趨向：3/4組用上述程序包的受訪者比1/2組的多出8-10倍。不過，第3組和第4組也存在有一定微小差距，其中第3組裡用Python的人比較多，反觀第4組中有相對更大比例的受訪者表示不用Python和上述程序包。從而得知，相較於其他組，在第3組的人中對Python的使用率是最高的。對於表中其他的工具，3/4組的受訪者比1/2組使用得更頻繁，同樣，其中第3組比第4組使用得更頻繁。

從表上來看，第4組比第3組更傾向於開源工程師，但還是存在一定本質上的區別。而第3組受訪者里有86%的人至少用過其中一種工具，雖然平均下來他們只用過2.2個。反觀在第4組的受訪人中平均每人會使用5.3個工具。而ETL和data management 在第4組中佔有很大的比例，這說明了雖然3/4組都靠近數據科學，但第3組更注重於分析方面，而第4組比較傾向於工程和架構方面。至於另外兩組，通過觀察上述提到的所有工具可以看出第1組和第2組還是存在著明顯的差異：第2組比第1組使用得更頻繁些。對於下表大部分的工具來說，第1組的工具使用率居於第二位，但卻遠遠落後於第2組。

但從整體來看第1組的工具使用數量是比較少的，平均低於8個，而另外三組平均分別是10，13，和21個。

不寫代碼的工作

當然了，對於某些工作來說，第2組的受訪者會比其他三組接觸得更頻繁。

上表中前兩種是作為分析師的基本工作，這在第3/4組中運用的也非常的普遍。關鍵的是，上表中所有工作內容都不需要寫代碼，然而第1組普遍偏低的百分比透露出了這組的特質：大部分被劃分到這組的受訪者並不是數據科學家，分析師，或者經理。這也包括一些只需要用少量數據工具的java程序員。而那些被劃分進第一組的分析師和數據科學家傾向於用比較簡單的工具組，另外第1組還包括了沒有參與數據分析和沒有用過數據工具的受訪者。對於上述的部分工具，第1組的使用率跟第4組類似，特別是SQL Server。也就是說， 1/2組 vs 3/4組的局面將會打破，也許在不久后的未來，工具使用的情況不再傾向於1/2 vs 3/4，又或者說每組的差異會越來越小。

在第2組和第4組中，Tableau, Oracle, Teradata, 和Oracle BI的使用率比第1組和第3組要高。同樣也發生在SQL，但是Excel和R是例外，因為它們在所有組中整體佔比都很高。SQL和Excel是唯獨兩個在所有組中使用率達一半以上的工具。R在第一組的使用率沒有那麼高，但是在其他三組中的表現都差不多（67%-69%）。數據清洗和基本探索性分析在第2，第3和第4組佔比中不分上下，但相對於第1組來說卻低很多。這些「跨組」的工具/工作內容似乎與存在更大差異的工具/工作內容沒有太大的相關性。

管理和商業戰略類工作

也許更能顯示第2組和第4組之間的聯繫是管理/商業戰略型工作。這說明了2/4組的受訪人在一定程度上是高級別職位。從工作經驗方面來說，第1，2，和4組平均都在8到9年間，但第3組的受訪人平均工齡偏小，只有4.4年。同樣的發現也體現在了年齡差異上。雖然第3組群體普遍工齡低，但不代表他們工資低。有趣的是，這種反差也體現在了第1組：工齡不是最小的，但工資中位數卻是最低的，只有7.2萬美元。第3組工資中位數在8.4萬美元，仍然比第2組的8.8萬美元要低，第4組工資趨向比這兩組高很多，中位數是11.2萬美元。第4組的受訪人使用工具的數量遠比其他組的要高，而且大多數他們用的工具在回歸模型中都是正係數。

總結

在本文中所用的回歸模型描述了各個變數和薪資之間的關係，但並沒有描述這些關係是如何形成的，或者它們是否有直接的聯繫。例如，一個人在經費充足的公司工作，該公司能夠負擔高薪資和昂貴的工具，但是這並不意味著員工的高薪是因為他所選擇的這些工具導致的。

當然，這不僅僅是有關薪資的問題了。當某項工具成為某個行業的標準時，僱主也會開始尋求相應的人才，如果你不具備這項技能時，這對你能否找到滿意的工作會產生負面影響，因此需要不斷跟上主流去學習新的相關技能。如果你應聘的職位明確需要某項技能，並且擁有這項技術的是高收入人群，那麼對僱主來說很難再用低薪找到一個可替代的人了。

然而，這些信息不只是應聘者需要關注，企業高層也更需要關注。因為高管不應該只考慮相關軟體或工具的成本，同時也應該考慮雇傭的人力成本。我們希望這份報告能夠在某種程度上幫助企業領導做出正確的決策。