search
尋找貓咪~QQ 地點 桃園市桃園區 Taoyuan , Taoyuan

數之聯CTO方育柯:2016年大數據的奇點、拐點與痛點

導讀

2013年被廣泛認為是世界大數據元年,2014年是貴州的大數據元年,2015年被認為大數據應用元年,2016被認為是真正意義上的大數據元年或者是大數據獨角獸元年,這些「元年」也不斷的被刷新,後續很難想象如果找不到新的」大數據XX元年」名詞,那麼大數據會是什麼樣子,是否還會受人矚目

本文為數據猿年關策劃活動《大數據的2016,我的2016》系列稿件,感謝本文作者 數之聯CTO 方育柯 先生的投稿。

大數據的奇點

大數據自概念形成之際就不斷被投資機構、媒體、科技工作者追捧,2013年被廣泛認為是世界大數據元年,2014年是貴州的大數據元年,2015年被認為大數據應用元年,2016被認為是真正意義上的大數據元年或者是大數據獨角獸元年,這些「元年」也不斷的被刷新,後續很難想象如果找不到新的」大數據XX元年」名詞,那麼大數據會是什麼樣子,是否還會受人矚目?

伴隨著上述各種元年的出現,還有國家層面和各地政府的種種措施,比如2014月大數據首次寫入政府工作報告,2015年國務院多次出台促進大數據發展的行動綱要,2016年國家建設全國一體化的國家大數據中心,包括一些地方政府全國各省市紛紛出台大數據發展規劃,凸顯政府對大數據的重視。

緊接著是節節攀高的大數據市場規模評估,2015年據有關單位預測2020年大數據市場規模達到700億;2016年,大數據的市場規模評估再度被放大,當時有機構估計到2020年,大數據市場規模達到8000億;2017年新年伊始,工信部印發大數據十三五規劃,將醞釀開啟萬億級別市場規模,到2020年,大數據相關產品和服務業務收入突破1萬億元。

上述種種情況說明從媒體、政府、再到市場,對大數據的期待與日俱增,一切的一切都在預示著大數據的奇點正在到來,大數據價值被不斷放大,在很多人看來,大數據可以解決一切的一切問題。

大數據的拐點

聽起來很美好,只不過上面的這些聲音彷彿都是與大數據無關者,真正與大數據最相關的顯然是客戶,他們才能夠真正的衡量大數據價值。作為最終的買單者,我們最聰明的客戶怎麼說呢?

他們面對眾多紛繁踏至的各種廠商接二連三地PPT方案忽悠,也越來越敏感起來,甚至對大數據產生厭惡或者懷疑,逐漸發出他們自己的聲音,「別再給我推銷硬體了,我們不需要硬體」,「項目投入產出如何,能否幫我增加10萬銷售客戶」,「 你們有沒有跟我們行業類似的成功案例」,「先放到我們XX業務上試一下,有效果再說」。

前幾天終於陸陸續續有評論人發出:「盤點2016年大數據創業:只有『實力派』能熬過寒冬」,「大數據時代剛剛開啟?大數據寒冬已至」,「 大數據的寒冬已至,誰將倒下,誰成巨人?」 ,彷彿大數據的拐點已到,已經開始走下坡路。

大數據的痛點

我過去10年一直圍繞數據開展工作,負責超過30項數據挖掘相關項目落地,有成功案例也有失敗案例,面對上述的」現象」,不禁會思考大數據過去、現在和未來,還有我們自身的發展之路。

大數據從2010年概念萌芽算起的話,至今已發展7年有餘,但是相比於之前提到的種種期望,我們需要思考大數據到底能夠為我們帶來什麼,他的成功案例有多少,《大數據時代》中的數據應用場景有多少在我們身邊大規模實現了?思考之後我們發現,當前大數據的應用主要是在互聯網運營商領域,這些應用也只是大數據產業的冰山一角,未來將會進一步向傳統產業滲透。

不得不說大數據其實離我們還很遙遠,在工業領域成功案例非常少,比如傳統製造企業中,產品需求、生產流程、銷售渠道、售後評價還是非常傳統的拍腦袋決策,根本沒有智慧化生產、精細化運營、個性化營銷。

像農業更是如此,我們的農業生產依然還在粗放的耕種土地、比如市場需要什麼樣的糧食,什麼區域適合什麼樣的農作物生長,哪些土地該深耕哪些土地需要細作,我們基本上大腦一片空白,只能憑藉個人經驗;還有對於被大眾廣泛詬病的政府機構的辦事流程和效率、還有各種奇葩證明,都在說明大數據並沒有發揮它的作用。

我們分析其原因主要是數據挖掘技術門檻高,缺乏數據挖掘的人才(尤其是一些二、三、四五線城市),使得數據和價值分離的問題非常嚴重,雖然有小部分互聯網企業具備數據挖掘技術,但企業或者政府考慮到數據安全問題,不願意把數據拿出來。面對這些問題,我們希望藉助iCloudUnion產品,通過開放數據挖掘能力,降低目標企業將數據轉化為價值的門檻,對傳統企業進行大數據賦能!

我們的大數據之路:

因此就誕生了這個產品 iCloudUnion,大數據價值發現與應用創新平台。與google xlab或者科大訊飛所提出的開放數據挖掘結果不同,他們就像黑匣子一樣輸入一段語音,轉換為一段文字,或者輸入一段英文快速的翻譯成中文,而我們則是開放數據挖掘過程。

平台上已經集成150+機器學習演算法,適配到hadoop、spark等分散式處理框架,使得能夠快速處理大規模的數據,那麼有了這個平台,我們可以通過簡單的托拉拽操作就可以快速完成大型數據挖掘演算法和模型開發工作,通過開放數據挖掘過程,為客戶授之以漁而非授之以魚,提升客戶的數據變現能力。

圖-1 大數據價值發現與應用創新平台

(iCloudUnion)

舉幾個案例來說明iCloudUnion的價值。這是某製造型企業SMT生產優化的例子,通過獲取生產線上不同環節的加工數據,比如設備的電流、電壓、震動、轉速等數據,分析哪個環節容易導致產品不良率比較高,我們花了幾個小時做了一個集成學習的模型,如上圖所示,下面是一個決策樹的可視化結果,通過這個模型,將之前進料階段準確率實現了大幅度提升。

這樣做的好處是,經過初級培訓的人在幾個小時內就可以完成高級演算法工程師要幾周才能完成的編程工作。

圖-2 某大型工廠SMT生產線優化

第二個案例:是我們金融企業服務方面的一個案例,我們通過分析銀行的內部數據和外部數據,內部數據包括客戶的信用卡、資金流水、貸款、資產等數據,外部數據如工商信息、房產、法律訴訟以及行業宏觀發展數據,預測金融客戶貸后的逾期風險情況,以及我們使用集成學習模型,只需要花幾個小時既可完成該模型的開發,右上側是整體建模流程,下面是一個決策樹的可視化結果,最終我們預測結果比他們專家經驗誤差率降低一半。

圖-3 某釀酒企業生產過程

圖-4 釀酒過程建模優化過程

還有兩個案例是我們用iCloudUnion上的深度學習演算法和複雜網路分析演算法做的一些應用。我們利用深度學習的多重非線性變換對數據進行多層次抽象的特徵,將其應用到電商圖片數據,實現所見即所得的圖像搜索,幫助消費者快速找到商品對應的店鋪、評價、銷量等信息。

另外我們通過複雜網路分析技術,抽取節點的出度、入度、介數、核數、聚集係數、PR值,針對不同網路圖數據,尋找用戶洗錢網路,或者預測兩個人之間的關係是朋友、親戚、同事,或者哪些企業是在進行串標圍標等問題。

圖-5 iCloudUnion的其他應用案例

(深度學習和複雜網路分析)

當前這個平台已經能夠比較好的服務於一些企業和政府部門,但是我們希望進一步將它開放出來,讓數據愛好者能夠在這裡分享數據、發布數據需求;科研人員或者演算法愛好者可以使用現有平台的計算能力、以及成熟的演算法,提升實驗效率,而將關注點放到新演算法的研究上;

同時也可以將新的研究成果分享出來,並服務於工業上的應用需求(不管你是R、Python、Matlab還是Java等演算法語言,我們統統轉化為可視化運算元,因此讓工業界客戶可以直接使用,而不用再去找論文、扒代碼、做適配);

創新創業者可以利用現有的數據和科學家的研究成果,開發新的行業App,服務於企業;企業可以在這裡消費數據、消費演算法、以及消費行業應用APP。

大數據的未來

對於未來,我們希望基於上述或者類似平台建設,實現多方共贏的生態圈建設,與眾多大數據廠商一道共同推動全社會數據到全企業數據的融合,全社會資源和全企業需求的完整對接,實現數據在全社會的數據價值發現,幫助企業實現數據驅動的業務創新,幫助政府實現數據驅動的政府、社會治理優化,推動大數據時代的到來。

功成不必在我,但求成功有我!

方育柯,數之聯CTO,主要從事計算機科學與大數據等交叉領域的研究工作,在機器學習、集成學習、深度學習和圖像檢索等領域具有豐富的研究經驗和一定的國際影響力。

曾擔任華為大數據產品部架構師,負責並參與金融、運營商等領域的多個大數據分析挖掘項目,具有豐富的大數據商業應用與工程實踐經驗,致力於大數據在各大熱點領域的商業化、產業化應用。



熱門推薦

本文由 yidianzixun 提供 原文連結

寵物協尋 相信 終究能找到回家的路
寫了7763篇文章,獲得2次喜歡
留言回覆
回覆
精彩推薦