search
尋找貓咪~QQ 地點 桃園市桃園區 Taoyuan , Taoyuan

大數據白皮書

導語

各個研究機構均採取間接方法估算,信息通信研究院結合對大數據相關企業的調研測算,2015年大數據核心產業的市場規模達到115.9億元,增速達38%,預計2016年將達到168億元,2017-2018 年還將維持40%左右的高速增長。

PS:免費索取報告,請關注「行業研究報告」下方菜單欄「我要報告」項;投資、理財、研修,請關注下方菜單欄「我要投資」項;IPO諮詢、BP報告定製,請關注下方菜單欄「我要合作」項。

一、大數據產業發展概述

1.大數據再認識

大數據是新資源、新技術和新理念的混合體。從資源視角來看,大數據是新資源,體現了一種全新的資源觀。1990年以來,在摩爾定律的推動下,計算存儲和傳輸數據的能力在以指數速度增長,每GB存儲器的價格每年下降40%。2000年以來,以Hadoop為代表的分散式存儲和計算技術迅猛發展,極大的提升了互聯網企業數據管理能力,互聯網企業對「數據廢氣」(Data Exhaust)的挖掘利用大獲成功,引發全社會開始重新審視「數據」的價值,開始把數據當作一種獨特的戰略資源對待。大數據的所謂3V特徵(體量大、結構多樣、產生處理速度快)主要是從這個角度描述的。

從技術視角看,大數據代表了新一代數據管理與分析技術。傳統的數據管理與分析技術以結構化數據為管理對象、在小數據集上進行分析、以集中式架構為主,成本高昂。與「貴族化」的數據分析技術相比,源於互聯網的,面向多源異構數據、在超大規模數據集(PB量級)上進行分析、以分散式架構為主的新一代數據管理技術,與開源軟體潮流疊加,在大幅提高處理效率的同時(數據分析從 T+1 到T+0 甚至實時),成百倍的降低了數據應用成本。

從理念的視角看,大數據打開了一種全新的思維角度。大數據的應用,賦予了「實事求是」新的內涵,其一是「數據驅動」,即經營管理決策可以自下而上地由數據來驅動,甚至像量化股票交易、實時競價廣告等場景中那樣,可以由機器根據數據直接決策;其二是「數據閉環」,觀察互聯網行業大數據案例,它們往往能夠構造起包括數據採集、建模分析、效果評估到反饋修正各個環節在內的完整「數據閉環」,從而能夠不斷地自我升級,螺旋上升。目前很多「大數據應用」,要麼數據量不夠大,要麼並非必須使用新一代技術,但體現了數據驅動和數據閉環的思維,改進了生產管理效率,這是大數據思維理念應用的體現。

2.大數據產業界定

大數據本身既能形成新興產業,也能推動其他產業發展。當前,國內外缺乏對大數據產業的公認界定。我們認為,大數據產業可以從狹義和廣義兩個層次界定。

從狹義看,當前全球圍繞大數據採集、存儲、管理和挖掘,正在逐漸形成了一個「小生態」,即大數據核心產業。大數據核心產業為全社會大數據應用提供數據資源、產品工具和應用服務,支撐各個領域的大數據應用,是大數據在各個領域應用的基石。應該注意到,狹義大數據產業仍然圍繞信息的採集加工構建,屬於信息產業的一部分。

數據資源部分負責原始數據的供給和交換,根據數據來源的不同,可以細分為數據資源提供者和數據交易平台兩種角色。

數據基礎能力部分負責與數據生產加工相關的基礎設施和技術要素供應,根據數據加工和價值提升的生產流程,數據基礎能力部分主要包括數據存儲、數據處理和資料庫(數據管理)等多個角色。

數據分析/可視化部分負責數據隱含價值的挖掘、數據關聯分析和可視化展現等,既包括傳統意義上的BI、可視化和通用數據分析工具,也包括面向非結構化數據提供的語音、圖像等媒體識別服務。

數據應用部分根據數據分析和加工的結果,面向電商、金融、交通、氣象、安全等細分行業提供精準營銷、信用評估、出行引導、信息防護等企業或公眾服務。

根據IDC、Wikibon等諮詢機構預測,2016年,全球的大數據核心產業規模約為300億美元。

目前大數據產業的統計口徑尚未建立。對於大數據產業的規模,各個研究機構均採取間接方法估算。信息通信研究院結合對大數據相關企業的調研測算,2015年大數據核心產業的市場規模達到115.9億元,增速達38%,預計2016年將達到168億元,2017-2018 年還將維持40%左右的高速增長。

從廣義看,大數據具有通用技術的屬性,能夠提升運作效率,提高決策水平,從而形成由數據驅動經濟發展的「大生態」,即廣義大數據產業。廣義大數據產業包含了大數據在各個領域的應用,已經超出了信息產業的範疇。據華沙經濟研究所測算,歐盟27國因大數據的引進,至2020年將獲得1.9%的額外GDP增長。美國麥肯錫預計,到2020年美國大數據應用帶來的增加值將佔2020年GDP的2%-4%。信息通信研究院預計,到2020年大數據將帶動GDP2.8-4.2%。

二、大數據技術發展趨勢

1.社交網路和物聯網技術拓展了數據採集技術渠道

經過行業信息化建設,醫療、交通、金融等領域已經積累了許多內部數據,構成大數據資源的「存量」;而移動互聯網和物聯網的發展,大大豐富了大數據的採集渠道,來自外部社交網路、可穿戴設備、車聯網、物聯網及政府公開信息平台的數據將成為大數據增量數據資源的主體。

當前,移動互聯網的深度普及,為大數據應用提供了豐富的數據源。根據互聯網路信息中心(CNNIC)第38次《互聯網路發展狀況統計報告》,截至2016年6月,網民規模達7.1億,互聯網普及率達到51.7%,超過全球平均水平3.1個百分點。其中,手機網民規模達6.65億。網民中使用手機上網的人群佔比提升至92.5%。線下企業通過與互聯網企業的合作,或者利用開放的應用編程介面(API,Application Programming Interface)或網路爬蟲,可以採集到豐富的網路數據,可以作為內容數據的有效補充。

另外,快速發展的物聯網,也將成為越來越重要的大數據資源提供者。相對於現有互聯網數據雜亂無章和價值密度低的特點,通過可穿戴、車聯網等多種數據採集終端,定向採集的數據資源更具利用價值。例如,智能化的可穿戴設備經過幾年的發展,智能手環、腕帶、手錶等可穿戴正在走向成熟,智能鑰匙扣、腳踏車、筷子等設備層出不窮,國外 Intel、Google、Facebook,國內百度、京東、小米等有所布局。根據IDC公司預計,到2016年底,全球可穿戴設備的出貨量將達到1.019億台,較2015年增長29.0%。到2020年之前,可穿戴設備市場的年複合增長率將為20.3%,而2020年將達到2.136億台 。可穿戴設備可以7×24小時不間斷地收集個人健康數據,在醫療保健領域有廣闊的應用前景,一旦技術成熟,設備測量精度達到醫用要求,電池續航能力也有顯著增強,就很可能會進入大規模應用階段,從而成為重要的大數據來源。再如,車聯網已經進入快速成長期。據 StrategyAnalytics 公司預計,2016年前裝車聯網市場滲透率將達到19%,在未來5年內迎來發展黃金期,2020年將達到49%。

不過,值得注意的是,即便外部數據越來越豐富,但可獲取性還不夠高,一方面受目前技術水平所限,車聯網、可穿戴設備等數據採集精度、數據清洗技術和數據質量還達不到實用要求;另一方面,由於體制機制原因,導致行業和區域上的條塊分割,數據割據和孤島普遍存在,跨企業跨行業數據資源的融合仍然面臨諸多障礙。根據信息通信研究院2015年對國內800多家企業的調研來看,有50%以上的企業把內部業務平台數據、客戶數據和管理平台數據作為大數據應用最主要的數據來源。企業內部數據仍是大數據主要來源,但對外部數據的需求日益強烈。當前,有32%的企業通過外部購買所獲得的數據;只有18%的企業使用政府開放數據。如何促進大數據資源建設,提高數據質量,推動跨界融合流通,是推動大數據應用進一步發展的關鍵問題之一。

2.分散式存儲和計算技術夯實了大數據處理的技術基礎

大數據存儲和計算技術是整個大數據系統的基礎。在存儲方面,2000年左右谷歌等提出的文件系統、以及隨後的Hadoop的分散式文件系統HDFS奠定了大數據存儲技術的基礎。與傳統系統相比,GFS/HDFS將計算和存儲節點在物理上結合在一起,從而避免在數據密集計算中易形成的 I/O吞吐量的制約,同時這類分散式存儲系統的文件系統也採用了分散式架構,能達到較高的併發訪問能力。

在計算方面,谷歌在2004年公開的MapReduce分散式并行計算技術,是新型分散式計算技術的代表。一個MapReduce系統由廉價的通用伺服器構成,通過添加伺服器節點可線性擴展系統的總處理能力(Scale Out),在成本和可擴展性上都有巨大的優勢。谷歌的MapReduce是其內部網頁索引、廣告等核心繫統的基礎。之後出現的Apache Hadoop MapReduce 是谷歌MapReduce的開源實現,目前已經成為應用最廣泛的大數據計算軟體平台。

MapReduce架構能夠滿足「先存儲后處理」的離線批量計算需求,但也存在局限性,最大的問題是時延過長,難以適用於機器學習迭代、流處理等實時計算任務,也不適合針對大規模圖數據等特定數據結構的快速運算。為此,業界在MapReduce基礎上,提出了多種不同的并行計算技術路線。如Yahoo提出的S4系統、Twitter的Storm系統是針對「邊到達邊計算」的實時流計算框架,可在一個時間窗口上對數據流進行在線實時分析,已經在實時廣告、微博等系統中得到應用。谷歌2010年公布的Dremel系統,是一種交互分析引擎,幾秒鐘就可完成PB級數據查詢操作。此外,還出現了將MapReduce內存化以提高實時性的框架、針對大規模圖數據進行了優化的Pregel系統等等。

以Hadoop為代表的開源軟體大幅度降低數據的存儲與計算的成本。傳統數據存儲和分析的成本約為3萬美元/TB,而採用Hadoop技術,成本可以降到300-1000美元/TB。新一代計算平台Spark進一步把Hadoop性能提升了30多倍,性能越來越高,技術門檻越來越低。目前,開源Hadoop和Spark已經形成了比較成熟的產品供應體系,基本上可以滿足大部分企業建設大數據存儲和分析平台的需求,為企業提供了低成本解決方案。

3.深度神經網路等新興技術開闢大數據分析技術的新時代

大數據數據分析技術,一般分為聯機分析處理和數據挖掘兩大類。OLAP技術,一般基於用戶的一系列假設,在多維數據集上進行互動式的數據集查詢、關聯等操作來驗證這些假設,代表了演繹推理的思想方法。

數據挖掘技術,一般是在海量數據中主動尋找模型,自動發展隱藏在數據中的模式,代表了歸納的思想方法。傳統的數據挖掘演算法主要有:(1)聚類,又稱群分析,是研究(樣品或指標)分類問題的一種統計分析方法,針對數據的相似性和差異性將一組數據分為幾個類別。屬於同一類別的數據間的相似性很大,但不同類別之間數據的相似性很小,跨類的數據關聯性很低。企業通過使用聚類分析演算法可以進行客戶分群,在不明確客戶群行為特徵的情況下對客戶數據從不同維度進行分群,再對分群客戶進行特徵提取和分析,從而抓住客戶特點推薦相應的產品和服務。(2)分類,類似於聚類,但是目的不同,分類可以使用聚類預先生成的模型,也可以通過經驗數據找出一組數據對象的共同點,將數據劃分成不同的類,其目的是通過分類模型將數據項映射到某個給定的類別中,代表演算法是 CART(分類與回歸樹)。企業可以將用戶、產品、服務等各業務數據進行分類,構建分類模型,再對新的數據進行預測分析,使之歸於已有類中。分類演算法比較成熟,分類準確率也比較高,對於客戶的精準定位、營銷和服務有著非常好的預測能力,幫助企業進行決策。(3)回歸,反映了數據的屬性值的特徵,通過函數表達數據映射的關係來發現屬性值之間的一覽關係。它可以應用到對數據序列的預測和相關關係的研究中。企業可以利用回歸模型對市場銷售情況進行分析和預測,及時作出對應策略調整。在風險防範、反欺詐等方面也可以通過回歸模型進行預警。

傳統的數據方法,不管是傳統的OLAP技術還是數據挖掘技術,都難以應付大數據的挑戰。首先是執行效率低。傳統數據挖掘技術都是基於集中式的底層軟體架構開發,難以并行化,因而在處理TB級以上數據的效率低。其次是數據分析精度難以隨著數據量提升而得到改進,特別是難以應對非結構化數據。在人類全部數字化數據中,僅有非常小的一部分(約佔總數據量的1%)數值型數據得到了深入分析和挖掘(如回歸、分類、聚類),大型互聯網企業對網頁索引、社交數據等半結構化數據進行了淺層分析,佔總量近60%的語音、圖片、視頻等非結構化數據還難以進行有效的分析。

所以,大數據分析技術的發展需要在兩個方面取得突破,一是對體量龐大的結構化和半結構化數據進行高效率的深度分析,挖掘隱性知識,如從自然語言構成的文本網頁中理解和識別語義、情感、意圖等;二是對非結構化數據進行分析,將海量複雜多源的語音、圖像和視頻數據轉化為機器可識別的、具有明確語義的信息,進而從中提取有用的知識。目前來看,以深度神經網路等新興技術為代表的大數據分析技術已經得到一定發展。

神經網路是一種先進的人工智慧技術,具有自身自行處理、分佈存儲和高度容錯等特性,非常適合處理非線性的以及那些以模糊、不完整、不嚴密的知識或數據,十分適合解決大數據挖掘的問題。典型的神經網路模型主要分為三大類:第一類是以用於分類預測和模式識別的前饋式神經網路模型,其主要代表為函數型網路、感知機;第二類是用於聯想記憶和優化演算法的反饋式神經網路模型,以Hopfield的離散模型和連續模型為代表。第三類是用於聚類的自組織映射方法,以ART模型為代表。不過,雖然神經網路有多種模型及演算法,但在特定領域的數據挖掘中使用何種模型及演算法並沒有統一的規則,而且人們很難理解網路的學習及決策過程。

深度學習是近年來機器學習領域最令人矚目的方向。自2006年深度學習界泰斗Geoffrey Hinton在《Science》雜誌上發表 DeepBelief Networks 的論文後,激活了神經網路的研究,開啟了深度神經網路的新時代。學術界和工業界對深度學習熱情高漲,並逐漸在語音識別、圖像識別、自然語言處理等領域獲得突破性進展,深度學習在語音識別領域獲得20%到30%的準確率提升,突破了近十年的瓶頸。2012年圖像識別領域在ImageNet圖像分類競賽中取得了85%的top5準確率,相比前一年74%的準確率有里程碑式的提升,並進一步在2013年將準確率提高到89%。目前 Google、Facebook、Microsoft、IBM等國際巨頭,以及國內百度、阿里巴巴、騰訊等互聯網巨頭爭相布局深度學習。由於神經網路演算法的結構和流程特性,非常適合於大數據分散式處理平台進行計算,通過神經網路領域的各種分析演算法的實現和應用,公司可以實現對多樣化的分析,並在產品創新、客戶服務、營銷等方面取得創新性進展。

隨著互聯網與傳統行業融合程度日益加深,對於web數據的挖掘和分析成為了需求分析和市場預測的重要手段。Web數據挖掘是一項綜合性的技術,可以從文檔結構和使用集合中發現隱藏的輸入到輸出的映射過程。目前研究和應用比較多的是PageRank演算法。PageRank是Google演算法的重要內容,於2001年9月被授予美國專利,以Google創始人之一拉里·佩奇命名。PageRank根據網站的外部鏈接和內部鏈接的數量和質量衡量網站的價值。這個概念的靈感,來自於學術研究中的這樣一種現象,即一篇論文的被引述的頻度越多,一般會判斷這篇論文的權威性和質量越高。在互聯網場景中,每個到頁面的鏈接都是對該頁面的一次投票,被鏈接的越多,就意味著被其他網站投票越多。這就是所謂的鏈接流行度,可以衡量多少人願意將他們的網站和你的網站掛鉤。讓機器自動學習和理解人類語言中的近百萬種語義、並從海量用戶行為數據匯總歸納用戶興趣是一個已經持續20多年的研究方向。騰訊效果廣告平台部研Peacock大規模主題模型機器學習系統,通過并行計算可以高效的對10億*1 億的大規模矩陣進行分解,從海量樣本數據中學習10萬到100萬兩級的隱含語義。這對於挖掘用戶興趣、相似用戶擴展,精準推薦具有重大意義。

需要指出的是,數據挖掘與分析的行業與企業特點強,除了一些最基本的數據分析工具外,目前還缺少針對性的、一般化的建模與分析工具。各個行業與企業需要根據自身業務構建特定數據模型。數據分析模型構建的能力強弱,成為不同企業在大數據競爭中取勝的關鍵。

三、重點行業大數據應用

傳統的數據應用主要集中在對業務數據的統計分析,作為系統或企業的輔助支撐,應用範圍以系統內部或企業內部為主,例如各類統計報表、展示圖表等。伴隨著各種隨身設備、物聯網和雲計算、雲存儲等技術的發展,數據內容和數據格式多樣化,數據顆粒度也愈來愈細,隨之出現了分散式存儲、分散式計算、流處理等大數據技術,各行業基於多種甚至跨行業的數據源相互關聯探索更多的應用場景,同時更注重面向個體的決策和應用的時效性。因此,大數據的數據形態、處理技術、應用形式構成了區別於傳統數據應用的大數據應用。

1.大數據應用整體情況

大數據在各個領域的應用持續升溫。據Gartner公司2015年的調研,全球範圍內已經或未來2年計劃投資大數據應用的企業比例達到76%,比2014年增長3%。信息通信研究院2015年的調查顯示地區的受訪企業中有32%的企業已經實現了大數據應用,另有24%的企業正在部署大數據平台。

另一方面,大數據的效益尚未充分驗證。大多數的大數據系統尚處於早期部署階段,因此它們的投資回報還未得到充分驗證,比如Wikibon公司2014年的統計顯示,美國企業的高層管理人員期望大數據能夠帶來總計3.5倍的投資回報,但實際回報當時只能達到55%。

總體來看,大數據應用尚處發展前期階段,應用快速部署,效益有待檢驗。大數據前景很美好,同時也可能存在「忽悠」出來的「泡沫」成分。

2.各領域應用進展情況

整體來看,大數據應用尚處於從熱點行業領域向傳統領域滲透的階段。信息通信研究院的調查顯示大數據應用水平較高的行業主要分佈在互聯網、電信、金融行業,一些傳統行業的大數據應用發展較為緩慢,批發零售業甚至有超過80%的企業並沒有大數據應用計劃,遠低於整體平均水平。

電信領域

電信行業掌握體量巨大的數據資源,單個運營商其手機用戶每天產生的話單記錄、信令數據、上網日誌等數據就可達到PB級規模。電信行業利用IT技術採集數據改善網路運營、提供客戶服務已有數十年的歷史,而傳統處理技術下運營商實際上只能用到其中百分之一左右的數據。

大數據對於電信運營商而言,首先意味著利用廉價便捷的大數據技術提升其傳統的數據處理能力,聚合更多的數據提升洞察能力。比如法國電信、T-Mobile藉助大數據加快了診斷網路潛在問題的效率,改善服務水平,為客戶提供了更好的體驗,獲得了更多的客戶以及更高的業務增長。移動、德國電信、沃達豐利用大數據技術加大對歷史數據的分析,動態優化調整網路資源配置,大幅提高無線網路的運行效率。T-Mobile通過集成數據綜合分析客戶流失原因,在一個季度內將客戶流失率減半。SK電訊成立SK Planet公司專門處理與大數據相關的業務,通過分析客戶的使用行為防止客戶流失。聯通利用大數據技術對其全國3G/4G用戶進行精準畫像,形成大量有價值的標籤數據,為客戶服務和市場營銷提供了有力支持。移動通過對消費、通話、位置、瀏覽、使用和交往圈等數據的分析,利用各種聯繫記錄發現各種圈子,分析影響力及關鍵人員,用來進行家庭客戶、政企客戶和關鍵客戶的識別,以實現主動營銷和客戶維繫。

二是提高數據意識,尋求合適的商業模式,嘗試數據價值的外部變現。主要有數據即服務(DaaS)和分析即服務(AaaS)兩種模式,數據即服務模式往往通過開放數據或開放API的方式直接向外出售脫敏后的數據;分析即服務(AaaS)模式往往與第三方公司合作,利用脫敏后的(自身或整合外部)數據資源為政府、企業或行業客戶提供通用信息、數據建模、策略分析等多種形式的信息和服務,以創造外部收益,實現數據資源變現。

數據即服務方面,AT&T將客戶在WiFi網路中的地理位置、網路瀏覽歷史記錄以及使用的應用等數據銷售給廣告公司可以獲取客觀收益;AT&T同時還提供Alert業務,當客戶距離商家很近時,就有可能收到該商家提供的折扣很大的電子優惠券;英國電信基於安全數據分析服務Assure Analytics,幫助企業收集、管理和評估大數據集,將這些數據通過可視化的方式呈現給企業,幫助企業改進決策;德國電信和沃達豐主要嘗試通過開放API,向數據挖掘公司等合作方提供部分用戶匿名地理位置數據,以掌握人群出行規律,有效的與一些LBS應用服務對接。限於國內對數據交易流通方面缺乏明確規定,國內運營商很少嘗試數據即服務(DaaS)模式。

分析即服務方面,西班牙電信成立動態洞察部門Dynamic Insights開展大數據業務,與市場研究機構Gfk進行合作,在英國、巴西推出名為智慧足跡的創新產品,該產品基於完全匿名和聚合的移動網路數據,可對某個時段、某個地點人流量的關鍵影響因素進行分析,並將洞察結果面向政企客戶提供;Verizon成立精準營銷部門Precision Marketing Divisio,提供精準營銷洞察、精準營銷、移動商務等服務,包括聯合第三方機構對其用戶群進行大數據分析,再將有價值的信息提供給政府或企業獲取額外價值;電信在大數據RTB精準廣告業務(根據客戶行為和位置分析進行商鋪選址和實施營銷)、景區流動人口監測業務、基於客戶行為的中小微企業通用信用評價等方面均有嘗試,且成效顯著,藉助對不同行業、不同類型企業的行為數據分析,電信的「貸 189」平台,一個月吸引中小企業580家,金融機構24家,訂單成交3368萬元。移

動和聯通也與第三方合作,開展智慧旅遊、智能交通、智慧城市等項目,探索數據外部變現的新型商業模式,尋找新的業務增長點。

金融領域

金融行業是信息產業之外大數據的又一重要應用領域,大數據在金融三大業務——銀行、保險和證券中均具有較為廣闊的應用前景。總體說來,金融行業的主要業務應用包括企業內外部的風險管理、信用評估、借貸、保險、理財、證券分析等,都可以通過獲取、關聯和分析更多維度、更深層次的數據,並通過不斷發展的大數據處理技術得以更好、更快、更準確的實現,從而使得原來不可擔保的信貸可以擔保,不可保險的風險可以保險,不可預測的證券行情可以預測。

利用大數據可以提升金融企業內部數據分析能力。中信銀行信用卡中心從2010年開始引入大數據分析解決方案,為企業中心提供了統一的客戶視圖。藉助客戶統一視圖,可以從交易、服務、風險、權益等多個層面獲取和分析數據,對客戶按照低、中、高價值來進行分類,根據銀行整體經營策略積極地提供相應的個性化服務,在降低成本的同時大幅提升精準營銷能力。更多的金融企業利用大數據技術整合來自互聯網等渠道的更大的外部數據。

淘寶網的「阿里小貸」依託阿里巴巴(B2B)、淘寶、支付寶等平台數據,海量的交易數據在阿里的平台上運行,阿里通過對商戶最近100天的數據分析,準確把握商戶可能存在的資金問題。美國的Lending Club通過獲取ebay等公司的網店店主的銷售、信用記錄、顧客流量、評論、商品價格和存貨等信息,以及他們在Facebook和Twitter上與客戶的互動信息,藉助數據挖掘技術,把這些店主分成不同的風險等級,以此來確定提供貸款金額數量與貸款利率水平。宜信的互聯網金融產品就是以互聯網為獲客主要渠道,除了借貸信用記錄,還結合大數據分析技術,捕捉來自大眾點評、豆瓣等社交網路上的有用信息,幫助信用審核人員多維度分析借款客戶的信用狀況。

眾安保險依託阿里雲服務,包括存儲、處理和分析(ODPS)服務,同時不斷改進其數據分析模型和挖掘手段,構建了強大的大數據能力,推出了針對高頻小額事件的運費險。國內一款互聯網車險產品利用手機獲取車主駕駛行為的數據,結合車型因子、違章歷史數據、個人信用數據等維度信息,對車主安全行為畫像,從而進行風險定價。IBM使用大數據信息技術成功開發了「經濟指標預測系統」,可通過統計分析新聞中出現的單詞等信息來預測股價等走勢。另外英美甚至國內都有基於社交網路的證券投資的探索,根據從Twitter、微博等社交網路數據內容感知的市場情緒來進行投資。

政務領域

大數據政務應用獲得世界各國政府日益重視。美國2012年啟動「大數據研究和發展計劃」,聯合國2012年推出「數據脈動」計劃,日本2013年正式公布以大數據為核心的新IT國家戰略。英國政府通過高效的使用公共大數據的技術每年可以節省330億英鎊,相當於英國人每人每年節省500英鎊。政府也非常重視利用大數據提升國家治理能力。《國務院關於印發促進大數據發展行動綱要的通知》提出「大數據成為提升政府治理能力的新途徑」,要「打造精準治理、多方協作的社會治理新模式」。

首先,大數據有助於提升政府提供的公共產品和服務。一方面,基於政務數據共享互通,實現政務服務一號認證(身份認證號)、一窗申請(政務服務大廳)、一網辦事(聯網辦事),大大簡化辦事手續。另一方面,通過建設醫療、社保、教育、交通等民生事業大數據平台,有助於提升民生服務,同時引導鼓勵企業和社會機構開展創新應用研究,深入發掘公共服務數據,有助於激發社會活力、促進大數據應用市場化服務。

其次,大數據支持宏觀調控科學化。政府通過對各部門、社會企業的經濟相關數據進行關聯分析和融合利用,可以提高宏觀調控的科學性、預見性和有效性。比如電商交易、人流、物流、金融等各類信息的融合交匯可以繪出國家經濟發展的氣象雲圖,幫助人們了解未來經濟走向,提前預知通貨膨脹或經濟危機。

第三,大數據有助於政府加強事中事後監管和服務,提高監管和服務的針對性、有效性。《國務院辦公廳關於運用大數據加強對市場主體服務和監管的若干意見》(國辦發〔2015〕51 號)提出四項主要目標:一是提高政府運用大數據能力,增強政府服務和監管的有效性;二是推動簡政放權和政府職能轉變,促進市場主體依法誠信經營;三是提高政府服務水平和監管效率,降低服務和監管成本;四是實現政府監管和社會監督有機結合,構建全方位的市場監管體系。「大數據綜合治稅」、「大數據信用體系」等以大數據融合加強企業事中事

后監管的新模式的探索正在全國各地展開。

最後,大數據有助於推動權利管控精準化。藉助大數據實現政府負面清單、權利清單和責任清單的透明化管理,完善大數據監督和技術反腐體系,促進政府依法行政。李克強2014年2月考察北京• 貴陽大數據應用展示中心,了解貴陽利用執法記錄儀和大數據云平台監督執法權力情況時說,要把執法權力關進「數據鐵籠」,權力運行處處留痕,實現「人在干、雲在算」。

大數據超越了傳統行政思維模式,推動政府從「經驗治理」轉向「科學治理」。隨著國家大數據戰略漸次明細,各方實踐逐步展開,大數據在政府領域的應用將迎來高速發展。

交通領域

交通數據資源豐富、具有實時性特徵。在交通領域,數據主要包括各類交通運行監控、服務和應用數據,如公路、航道、客運場站和港口等視頻監控數據,城市和高速公路、幹線公路的各類流量、氣象檢測數據,城市公交、計程車和客運車輛衛星定位數據,以及公路和航道收費數據等,這些交通數據類型繁多,而且體積巨大。此外,交通領域的數據採集和應用服務均對實時性要求較高。目前,大數據技術在交通運行管理優化、面向車輛和出行者的智能化服務,以及交通應急和安全保障等方面都有著重大發展。

在出行方面,面向公眾出行信息需求,整合交通出行服務信息,在公共交通、出租汽車、道路交通、公共停車,以及公路客運等領域擴大信息服務覆蓋面,使公眾出行更便捷。可以提供綜合性、多層次信息服務,包括交通資訊、實時路況、公車輛動態信息、停車動態信息、水上客運、航班和鐵路等動態信息服務以及出行路徑規劃、出租召車等信息交互服務。例如,滴滴、Uber打車軟體提供計程車、快車、專車、順風車服務,同時接入地圖、路線查詢、實時路況、在線支付等相關服務。智能停車軟體也進入市場,如停簡單、好停車、PP停車等,實現停車行業與動態交通的有效銜接。

在物流方面,物流數據可以為物流市場預測、物流中心選址、優化配送線路、倉庫儲位優化等提供支撐,甚至能夠提供交通路況、車輛運行、社會經濟發展動態的信息。對於跨境物流,整合集口岸監管、物流運輸、航運信息,可以實現物流產業鏈的業務單據、車輛船舶動態、通關狀態等要素信息的跨行業、跨區域貫通,提高物流效率。

在管理方面,利用交通行業數據,支撐交通管理與決策。利用數據挖掘技術可以深入研究交通網優化,為行業發展趨勢研判、政策制定及效果評估等提供支撐保障。此外,交通與公安、建管、環保等相關職能部門的大數據平台對接,可以提高跨領域管理能力。在運營方面,整合行業數據,形成地面公交、出租汽車、軌道交通、路網建設、汽車服務、港口、航空等領域的一體化智能管理。通過車載、運營數據的精確、實時採集,可以實現公交調度、行車安全監控、公交場站管理,支持公交安全、服務、成本管控的全過程管理和交互。通過打通出租汽車電調平台與互聯網召車平台之間的信息渠道,可以提供多渠道便捷的召車服務,實現對出租汽車服務質量的動態跟蹤、評估和管理。對軌道交通線網基礎設施、運行狀況、運營數據、服務質量、隱患治理、安全保護區等進行監測,可以實現安全管理和應急協同。

醫療領域

醫療衛生領域每年都會產生海量的數據,一般的醫療機構每年會產生1TB-20TB的相關數據,個別大規模醫院的年醫療數據甚至達到了PB級別。從數據種類上來看,醫療機構的數據不僅涉及服務結算數據和行政管理數據,還涉及大量複雜的門診數據,包括門診記錄、住院記錄、影像學記錄、用藥記錄、手術記錄、醫保數據等,作為醫療患者的醫療檔案,顆粒度極為細緻。所以醫療數據無論從體量還是種類上來說都符合大數據特徵,基於這些數據,可以有效輔助臨床決策有效支撐臨床方案。同時通過對疾病的流行病學分析,還可以對疾病危險進行分析和預警。

臨床中遇到的疑難雜症,有時即便專家也缺乏經驗,做出正確的診斷和治療更加困難。臨床決策支持系統可以通過海量文獻的學習和不斷的錯誤修正,給出最適宜診斷和最佳治療。大數據分析技術將使臨床決策支持系統更智能,這得益於對非結構化數據的分析能力的日益加強。比如可以使用圖像分析和識別技術,識別醫療影像(X 光、CT、MRI)數據,或者挖掘醫療文獻數據建立醫療專家資料庫,從而給醫生提出診療建議。此外,臨床決策支持系統還可以使醫療流程中大部分的工作流流向護理人員和助理醫生,使醫生從耗時過長的簡單諮詢工作中解脫出來,從而提高治療效率。以IBM Watson為代表的臨床決策系統在開發之初只是用來進行分診的工作。而如今,通過建立醫療文獻及專家資料庫,Watson已經可以依據與療效相關的臨床、病理及基因等特徵,為醫生提出規範化臨床路徑及個體化治療建議,不僅可以提高工作效率和診療質量,也可以減少不良反應和治療差錯。在美國兒科重症病房的研究中,臨床決策支持系統就避免了40%的藥品不良反應事件。世界各地的很多醫療機構已經開始了比較效果研究 (CER) 項目並取得了初步成功。

大量的基因數據、臨床實驗數據、環境數據以及居民的行為與健康管理數據形成了「大數據」,同時隨著人類對疾病與基因之間映射關係的認識加深,基因測序成本的下降,可穿戴設備的普及,監控設備的微型化,移動連接和網路覆蓋範圍的擴大和大數據處理能力的大幅提升,針對患者個體的精準醫療和遠程醫療成為可能。通過收集和分析數據,醫生可以更好地判斷病人病情,可實現計算機遠程監護,對慢性病進行管理。通過對遠程監控系統產生的數據分析,可以減少病人住院時間,減少急診量,實現提高家庭護理比例和門診醫生預約量的目標。

公共衛生部門可以通過覆蓋全國的患者電子病歷資料庫,快速檢測傳染病,進行全面的疫情監測,並通過集成疾病監測和響應程序,快速進行響應。百度通過對全國各地用戶產生的搜索日誌的分析,提供全國331個地級市,2870個區縣的疾病態勢。百度還準備將社交媒體數據、問答社區數據、甚至是各地區天氣變化、各地疾病人群遷徙等特徵數據融合到預測里,進一步提高預測的準確性。很多研究者試圖利用其他渠道(比如社交網站)的數據來預測流感。紐約羅切斯特大學的一個數據挖掘團隊就曾利用Twitter的數據進行了嘗試,研究者在一個月內收集了60餘萬人的440萬條Twitter信息,挖掘其中的身體狀態信息。分析結果表明,研究人員可以提前8天預報流感對個體的侵襲狀況,而且準確率高達90%。

基因測序研究一直是大數據應用的重點領域,隨著大數據處理能力的不斷提升,該領域的研究也進展顯著。隨著計算能力和基因測序能力逐步增加,美國哈佛醫學院個人基因組項目負責人詹森·鮑比認為,2015年會有5000萬人擁有個人基因圖譜,而一個基因組序列文件大小約為750MB。成立於2011年的初創公司Bina Technology主要從事的工作就是利用大數據來分析人類的基因序列,他們的分析成果將為研究機構、臨床醫師等下游醫療服務行業提供最基礎的研究素材。在同斯坦福大學研究者進行的試點研究結果表明BinaTechnology平台利用大數據處理技術在5個小時內可完成幾百人的基因序列分析,按照傳統的分析方法,需要花費一周時間來完成。

以上我們從電信、金融、政府、交通和醫療健康等5個行業,分析行業大數據應用的典型模式、發展狀況。大數據的應用其實是無所不在的,其他行業如工業、零售業、農業的應用場景也非常多。但是總體來說,大數據應用尚處於初步階段,受制於數據獲得、數據質量、體制機制、法律法規、社會倫理、技術成本等多方面因素制約,實際成果還需要時間檢驗。

3.大數據應用發展趨勢

大數據行業應用的發展,是沿襲數據分析應用而來的漸變的過程。觀察大數據應用的發展演變,可以從技術強度、數據廣度和應用深度三個視角切入。從以上的應用來看,大數據區別於傳統的數據分析有以下特徵。數據方面,逐步從單一內部的小數據,向多源內外交融的大數據方向發展,數據多樣性、體量逐漸增加。技術方面,從過去的報表等簡單的描述性分析為主,向關聯性、預測性分析演進,最終向決策性分析技術階段發展。應用方面,傳統數據分析以輔助決策為主,大數據應用中,數據分析已經成為核心業務系統的有機組成部分,最終生產、科研、行政等各類經濟社會活動將普遍基於數據的決策,組

織轉型成為真正的數據驅動型組織。

——END——

文章非聲明均來源於網路,如有侵權請聯繫我們刪除!

行研君

如果您這篇文章很「贊」,請點擊一次底部廣告,這也是支持我們運營的一種方式,行研君在此感謝!


熱門推薦

本文由 yidianzixun 提供 原文連結

寵物協尋 相信 終究能找到回家的路
寫了7763篇文章,獲得2次喜歡
留言回覆
回覆
精彩推薦