重磅｜開足馬力：2017年全球大數據領域全景分析報告

去年，我們曾經問過「大數據還是一件值得關注的大事嗎？」，注意，因為大數據在很大程度上是一種「管道式工程」，所以受制於企業的接受周期，往往要落後於整個業界的炒作周期。因此，大數據技術需要幾年的時間才能從一種看起來很酷的新技術，演變成企業在生產環境中實際部署的核心企業級系統。

2017年，我們已經很好地適應這種部署階段。「大數據」一詞正在逐漸淡出我們的視野，但這種技術本身還在蓬勃發展。我們看到各行各業的軼事和證據證明相關產品越來越成熟，越來越多的「財富1000強」企業開始廣泛部署，藉助此類技術的許多初創企業的收入也開始快速增長。

同時，宣傳炒作的泡沫已經無可爭議地轉移到生態系統中的機器學習和人工智慧等領域。過去幾個月里，AI領域經歷了集體意識的「大爆炸」，這一情況與幾年前大數據技術的「遭遇」幾近相同，除了其發展速度更快。

從另一個角度來看，2017年也是令人興奮的一年：翹首以盼的IPO 。今年前幾個月里，大數據初創公司在這方面頻繁出擊，並獲得了公開市場的廣泛青睞。

總而言之，2017年數據生態系統正在開足馬力。接下來小編將為大家介紹2017大數據全景回顧，將該行業的關鍵趨勢進行綜合整理，奉獻給大家。

一高層趨勢

2016年無疑是「機器學習年」，任何目睹過眾多融資方案的VC都應該能夠感受到這一點：每個初創公司都在變身成為「機器學習公司」的一年，「.ai」成為必備的域名，而「等等，我們會通過機器學習技術解決這個問題」開始頻繁地出現在各類集資活動的演示PPT中。

有關人工智慧的報道、座談會、新聞郵件和微博信息撲面而來，對於許多早已對機器學習感興趣的人而言，就好像發現自己當地的某個品牌突然開始了全球化擴張：一方面，感到驕傲；另一方面，又對這些裝腔作勢的「後來者」表示明顯的厭煩，同時做好了不可避免會感到失望的心理準備。

雖然很容易認為這些趨勢的發展非常和緩，但該領域的演變是不可避免且影響深遠的：機器學習正在快速成為很多應用程序的關鍵組成部分。

我們正在目睹一個新技術棧的湧現，在這個技術棧中，大數據技術被用於處理核心數據工程挑戰，而機器學習技術被用來從數據中提取價值（以分析見解或操作等形式）。換句話說：大數據提供管道，AI提供智能。

當然，這種共生關係已經存在了很多年，但只有少數人能夠真正實現它。

這些技術正在真正開始變的「大眾化」。「大數據+ AI」成為許多現代化應用程序（無論針對消費者還是企業）正在構建的默認技術棧。其中將大數據與人工智慧結合運用最好的當屬Google和Apple。

Google提供優化的搜索引擎服務，後台的人工智慧隨著用戶的使用而不斷進化，使用的用戶越多，搜索引擎也將越優化，優化之後，用戶自然也就更多。除了搜索引擎，Google還通過Gmail、GoogleDocs等獲取大量的「非結構化數據」。這樣一來，Google的「大腦」就變得更加聰明了。

此外，Google還研發了「語義搜索」的進化系統；Apple的語音識別技術Siri也是基於最新人工智慧理論(深度學習）構建的。

人們多年來一直在談論「大數據」，但隨著AI技術的飛速發展，這一天正在更快速地到來。

2、企業預算：逐利（Enterprise Budgets:Follow the Money）

過去一年，在我們與大數據技術的買家和賣家的交談中發現，「財富1000強」公司中，核心基礎設施的分析和升級方面的預算正在大幅增長，其核心關注點正是大數據技術。分析機構IDC 預計，到2020年，大數據和分析市場將從2016年的1300億美元市場規模增長至2030億美元。

「財富1000強」公司的許多買家在大數據技術方面正變得越來越成熟和挑剔。過去多年裡，他們做了很多相關方面的功課，現在正處於全面部署模式中。這種情況不僅適用於技術型行業，目前許多其他行業都是如此。

在大公司每隔幾年就要發生的舊技術替代自然周期的推動下，這種情況得到進一步加速。大數據技術從以前的逆風（難以剔除或取代原有基礎架構）逐漸轉化為順風。當然，許多大企業（「晚期從眾者」）依然處於大數據部署的早期階段，但這種情況似乎正在加速演變。

3、企業數據向雲端遷移（Enterprise Datamoving to the Cloud）

就在幾年前，如果建議企業將數據遷移到公有雲中，大型企業的CIO通常給出的回應是「除非我死了」，當時他們可能只願將開發環境，或各種稀奇古怪，非關鍵的對外應用程序遷移至雲端。

但現在畫風開始變化了，根據商業分析軟體 Tableau 發布的最新《雲端數據報告》指出，越來越多的企業數據重心開始向雲端集中。我們聽到更多開放性的聲音——大家逐漸認識到「我們的客戶數據已經保存在Salesforce的雲中」，或者「我們永遠做不到像AWS一樣的網路安全預算投入」，而諷刺的是，過去多年來，對安全性的顧慮曾是企業反對雲計算的主要原因之一，但云供應商在安全與合規（HIPAA）等方面的努力最終得到了證明和回報。

毫無疑問，我們還遠遠未能實現將大多數企業數據轉移到公有雲中這一目標，部分原因在於遺留系統和管控制度等問題。但是，演變的趨勢是顯著的，並將繼續加速。雲供應商會盡一切努力促進這一過程，包括提供搬運海量數據的卡車。

【亞馬遜提出利用卡車將大公司客戶數據中心的數據轉移至其公有雲計算設施】

二、2017年大數據全景剖析

言歸正傳，下面我們就一起回顧一下2016年和2017年的大數據領域全景圖：

【2016年大數據全景，點擊查看大圖】

【2017年大數據全景圖，點擊查看大圖】

1、合併風潮來了嗎？

對比兩年的大數據全景圖，我們發現這張圖正在變得越來越熱鬧，那麼問題來了：這個行業是否迎來了大規模併購的風潮？答案是：至少目前看起來還沒有這種趨勢。

首先，風投們會繼續樂於為新老公司提供資金支持。2017年Q1成長階段的大數據初創公司獲得了不少融資記錄，包括：Looker（D輪，8100萬美元）、InsideSales（F輪，5000萬美元）、DataRobot（C輪，5400萬美元）、Confluent（C輪，5000萬美元）、Collibra（C輪，5000萬美元）、Uptake（C輪，4000萬美元）、WorkFusion（D輪，3500萬美元），以及MapD（B輪，3500萬美元）。

全球大數據初創公司在2016年創下了總計148億美元的投資，其中10%由全球性的技術VC提供。

第二，2016年全景中曾提到，併購活動一直很穩定，但沒有特別顯著的案例，或許部分原因在於私營公司的估值一直保持高漲。2016年大數據全景中共有41家公司被併購，2017年併購的活動大體上會與去年持平。

另一方面，截至目前，2017年已經出現了一些大型的併購活動，包括Mobileye（被Intel以153億美元收購）、AppDynamics（思科，37億美元）、Nimble Storage（HPE，12億美元）、Kaggle （Google收購）以及Dextro（Taser收購）等。

第三，一些大型大數據初創公司正在變成自主的上市公司。SNAP可以說是帶動了技術公司IPO市場的復甦，但迄今為止，只有大數據企業成功抓住了這一機會。

雖然2016年，只有Talend一家大數據公司成功上市，但2017年到目前為止，該領域內滿是 IPO機遇。Mulesoft和Alteryx成功上市且表現出色，發行價均超過了IPO價格。

在撰寫本文時，Cloudera也即將上市，該公司最新預估價（41億美元）與營收（2016年2.61億美元）之間的空缺對於「獨角獸」的估價現象將造成不小的考驗。此外MapR以及位置智能公司Yext也正在準備上市。

誰會是下一個？Palantir多年來一直是業內最神秘的公司之一，目前也表示有公開上市的興趣。鑒於Palantir最新的預估價為200億美元，如果其公開估價能夠接近這一水平，將可能成為IPO領域的一枚重磅炸彈。

2、打響雲端戰爭

雖然大規模併購尚未出現，但業界另一股趨勢需要注意，就是「功能性合併」，尤其是在雲計算領域。該領域內一些關鍵玩家正在通過自研產品和開源計算引擎的實現，逐漸構建整合式的「大數據+ AI」服務，這種服務距離很多買家所期待的「一站式服務」越來越近了。

尤其是 AWS在產品發布的速度和幅度方面繼續給人留下深刻印象。目前AWS幾乎提供了大數據和AI方面的所有服務，包括分析框架、實時分析、資料庫（NoSQL、圖形等）、商業智能，以及日益豐富的AI能力，並且在深度學習方面頗有建樹。按照這種速度，AWS很快將具備我們的大數據全景中所涉及的幾乎所有基礎架構和分析產品。

雖然 Google 涉足雲計算的時間較晚，但它也在圍繞大數據積極主動地構建一系列產品（BigQuery、Dataflow、Dataproc、Datalab、Dataprep等），並且已將AI視作超越競爭對手的殺手鐧。過去一年Google在AI方面做了很多事情，包括推出新的轉換引擎，雇傭了兩名出色的AI專家Fei-Fei Li和JiaLi來領導新成立的Cloud AI and Machine Learning部門，推出視頻識別的機器學習API，並且收購了數據科學家社區Kaggle。

其他大型的IT供應商，如Microsoft、IBM、SAP、Oracle以及Salesforce等也在努力推出大數據／AI產品（包括雲端和本地）。除了自行開發和進行收購外，他們的合作意願也在逐漸加強，合作重點為手裡「有數據的」和「有AI的」公司。例如IBM和Salesforce以及SAP與Google的合作都是其中的典型案例。

按照企業IT行業的標準來說，雲供應商還比較小，但這些公司的野心（其中包括從企業棧底層的IaaS嚮應用發展的意圖）與企業數據遷往雲端的趨勢相結合，意味著與傳統IT供應商的全面戰爭已經打響，大家在爭奪龐大的企業級技術市場的控制權，而大數據和AI將是核心戰場。

三、2017年數據生態系統概覽

1、基礎設施

去年的許多趨勢仍在延續，例如流處理的重要性日益增加，Spark仍高居榜首，不過像Flink這樣的有趣競爭者正在湧現。此外還有一下一些趨勢：

SQL已經正式回歸

在被NoSQL技術「打壓」了10年之後，SQL資料庫技術現已正式回歸。Google最近發布了Spanner資料庫的雲端版。Spanner和 CockroachDB（Spanner的開源版）都提供一種高存活性、強一致性，可伸縮的SQL資料庫。Amazon推出的Athena與Snowflake 等產品類似，是一種大型的SQL數據引擎，可直接查詢S3 Bucket中存儲的數據。Google BigQuery、SparkSQL以及Presto在企業逐漸獲得採用——這些都是SQL產品。

數據虛擬化

與公有雲採用相關的一個有趣的趨勢是數據虛擬化的迅速崛起。舊的ETL流程需要移動大量數據（通常需要為數據集創建副本）和創建數據倉庫，數據虛擬化使得企業可以在數據保持不動的情況下對其進行分析，藉此提高速度和敏捷性。許多下一代數據分析產品供應商，現在都可以同時提供數據虛擬化和數據準備服務，藉此幫助客戶更輕鬆地訪問存儲在雲端的數據。

數據管控和安全

隨著大數據在企業中的深入發展，以及數據的多樣性和數量的不斷增加，數據管控之類的話題變得越來越重要。許多企業選擇了一種「數據湖」的方式，創建一個中央倉庫，用於保存自己的所有數據。但除非人們知道數據湖中到底有什麼，並且能按需訪問分析工作所需的恰當數據，否則數據湖將全無用處。

但想讓用戶輕鬆找到自己需要的數據，同時管理好數據訪問權則是非常棘手的。除了數據湖以外，治理的另一個集中的主題是以安全的、可審計的方式為任何人提供對可靠數據的便捷訪問。Informatica、 Collibra、Alation等大小供應商提供了數據目錄、參考數據管理、數據字典以及數據幫助台等服務。

2、分析

數據科學家是瀕危物種嗎？

幾年前，數據科學家還被譽為「21世紀最性感的職業」。就算到現在，Glassdoor的「美國最佳職位」排行榜中，「數據科學家」依然高居榜首。

但是，這個才出現沒幾年的職業現在似乎陷入了困頓。部分原因在於其必要性，雖然學校和程序員課程依然在批量製造出新的數據科學家軍團，但這個崗位依然有很大空缺。在某些組織中，數據科學部門已經從原本的促進者演變為瓶頸。

與此同時，隨著AI技術的大眾化和自服務工具的飛速湧現，現在無論數據科學技能極為有限的數據工程師，甚至非技術型的數據分析師，都已經可以承擔原本只能由數據科學家負責的基本任務。企業的大量數據工作，尤其是枯燥乏味的簡單工作，將由數據工程師和數據分析師通過自動化工具來處理，而不再需要具備深厚技能的數據科學家參與。

也就是說，數據科學最終可能會完全由機器來處理。一些初創公司已經明確將自己的產品定位為「數據科學自動化」，其中最值得一提的包括剛剛獲得5400萬美元融資的DataRobot，SalesforceEinstein也宣稱自己可以提供能自動生成的模型。

毫無疑問，這些趨勢在數據科學社區不受歡迎，且存在一些爭議。然而，數據科學家目前還不需要對此過於擔心。在可預見的將來，自服務工具和自動化模型選擇將會「強化」數據科學家的能力，而非徹底取代他們，他們可以將更多精力用於需要進行判斷、創新、社交技能，或需要具備垂直行業知識的任務中。

讓一切協同工作：數據工作台的崛起

在大多數大型企業中，大數據的運用通常都是從少數相對獨立的項目開始的（這裡部署個Hadoop集群，那裡部署個分析工具），並且會產生一些新的職位（數據科學家、首席數據官）。

但現在異質性已經開始發展，各種各樣的工具在整個企業範圍內得到了使用。在大型企業中，集中化的「數據科學部門」正在讓位於更加「去中心化的組織」，通常會有數據科學家、數據工程師，以及數據分析師組成的跨職能群體，正深入地融入到不同業務部門中。因此，對於平台來說，需求已經變的更加明確，那就是需要讓所有人都能協作到一起來，因為大數據項目能否成功，主要取決於能否將不同技術、人員和流程完美融合在一起。

因此，一個全新的協作平台類型正在加速出現，並催生出一種所謂的「DataOps」（類似於DevOps）的概念。該領域值得關注的重大投資包括Knime（A輪，2千萬美元）以及Domino Data Lab（A輪1千萬美元）。Cloudera剛剛發布了一款基於所收購的Sense技術開發的工作台產品。這一領域的開源活動也很強勁，Jupyter和Anaconda就是例子。

3、應用程序

AI驅動的垂直應用程序

AI驅動的垂直應用程序的已經出現了好多年，但原本的溪流何時演變成了現在的滔天巨浪？突然之間，似乎每個人都開始開發AI應用程序，無論是新成立的，還是已經取得重大進展的初創公司，都開始在AI領域押注，希望能為自己創造下一輪增長點（例如InsideSales）。

在這種狀況和趨勢影響下，儘管有一些初創公司提出了很多激動人心的技術，但仍然存在掛羊頭賣狗肉純粹蹭熱度的企業。在某些領域使用了某種機器學習技術的公司，並不算人工智慧公司。

總地來說，AI初創公司的創建並不容易。而其中最關鍵的第一步在於選擇一個垂直領域所面臨的問題。除了要有深厚的技術DNA外，還需要深思熟慮的定位和策略。但是AI帶來的無限可能性是很難不讓人著迷的。

尤其是去年，把任何數據問題用AI來解決顯然已成趨勢，無論是企業一樣還是垂直行業都是如此。考慮到現實情況，今年我們在圖表的應用程序分類中添加了交通運輸、房地產、保險業等垂直行業。同時還將一些非常活躍的行業拆分為兩個類別，例如營銷應用（拆分為B2B和B2C）以及生命科學（拆分為醫療健康和生命科學）。

除了這些領域外，還有一些非常新潮的應用（例如無人車），今天的AI技術正在缺乏想象力的企業應用領域發揮著作用，從人員流失預測到後端辦公室自動化，再到安全，以不同形式提供了切實可行的收效。

AI導致人類失業的問題也許還沒有得到政府部門的重視，但將來沒有任何一個職業會不受影響。這些問題已得到很多白領職業的證明，例如醫生或律師等。（參見 Ben Thompson：AI 已來，你最應該擔心的不是生命，而是存在的意義）

尤其是金融領域，似乎一直在思考著AI的可能性和威脅。多年來艱難度日的對沖基金正在為自己的演算法尋找合適的替代數據。由AI驅動的全新對沖基金（如Numerai、Data Capital Management 等）儘管還處在發展的早期階段，但已經實現了快速發展。華爾街一些著名的事務所都在使用AI取代人力（BlackRock、 Goldman Sachs等）。

機器人的反擊

無論是愛是恨，2016年都可謂是「機器人元年」。很多消息交流服務都提供全自動化的實時對話代理程序。聊天機器人儘管出現的時間不長，但已經經歷了好幾個炒作周期，從一開始的承諾，到Tay所面臨的災難（譯註：Tay是微軟提供的一種基於人工智慧技術的聊天機器人），再到迷你復興，乃至於Facebook在其Messenger平台推出的AI機器人錯誤率達到70%之後縮減了這方面的努力。

現在看來對於機器人程序的熱情似乎有些早，原因可能是人們因為機器人程序在亞洲的崛起，或者Slack等底層基礎架構的快速增長而得出了過於樂觀的信號。當然，這種機器人程序有著巨大的潛力，但其真正成熟還需要很長的時間。

目前，無論是「生產商」（初創公司需要專註於每個具體的業務領域，少作承諾）還是「消費者」（我們都需要習慣於機器人程序可以和不能做到的事情，Alexa正在幫助我們意識到這些！）都需要調整我們的期待值。

現在，最美好的未來可能屬於重要領域需要人類介入的服務，或者完全採取不同於機器人程序的定位，使用AI技術來增強人類能力的技術（我們得出這一結論的依據來自frame.ai）。

四、結論

大數據與AI強強聯合，我們即將進入大數據技術的「收穫」季節。忽略所有的炒作，其潛能將非常巨大。

隨著核心基礎設施以及應用程序端的不斷成熟，AI驅動的應用正在蓬勃發展，2017年，大數據／AI生態將開足馬力，駛向美好未來。

附錄1：2016年大數據版圖推出以來的完整收購清單（被收購者/收購者/收購金額）

2017年第一季度（5家）