search
尋找貓咪~QQ 地點 桃園市桃園區 Taoyuan , Taoyuan

站在大數據的源頭看未來,什麼才是下半場的正確打法?


科技雲報道 2017-05-18 16:12

原創 2017-05-18科技雲報道

俗話說巧婦難為無米之炊,要在數據里找出有價值的東西,首先必須面對讓數據產生價值的大米——數據源。數據源把控得不好,再先進的演算法模型也發揮不了奇效。

此次科技雲報道分別採訪了業界知名的第三方大數據公司相關負責人——TalkingData合伙人兼執行副總裁林逸飛,亞信數據政務大數據業務部資深大數據專家杜岩,請他們介紹關於數據源的方法論,並分享對大數據行業發展的看法。

科技雲報道:目前使用的數據來源有哪些?

林逸飛:

TalkingData的數據來源主要有三種:

第一種形態是合作,跟互聯網的運營商或者移動APP,通過提供服務跟合作的形式來獲取數據。

第二種形態是交換,我們的合作夥伴往往在某一個維度里擁有龐大但較為垂直的數據,但是他們也需要像我們這樣有寬度的數據,所以我們會做一些數據增強的交換。

第三類是交易,跟合規持有數據的擁有者做商務上的合作。

杜岩:

亞信數據目前主要是通過與政府和運營商的項目合作,合規應用政府和運營商的數據,當然數據的所有權歸政府和運營商所有。

以政務數據為例,主要依託政府部門、公共事業服務單位及經政府授權提供公共服務的企業等提供。除此之外,如果需要互聯網的數據,會在國家政策允許的範圍內採取購買的方式。

科技雲報道:數據來源多樣化,如何保證數據的真實性?

林逸飛:

我們會分別從內部的數據質量和數據管控,以及外部的價值導向來評估數據。

第一,數據的質量,更多是從技術的角度來評估數據採集的質量,它的濃度、稀疏度、偏差度等,我們有多達20套的評估樣本,從數據本身的事實性描述等各種衡量指標,去檢查數據質量。

第二,在數據管控的邏輯上,會看它的持續性,包括刷新的頻率,數據的覆蓋度等。

但是,以上只解決了原始數據的質量問題,當我們走到外部,需要面對的是這個數據準備解決什麼問題,這種時候衡量所謂數據的真實性才有意義。

舉個簡單的例子,比如在廣告的投放業態下,和金融的風控業態下,它對於真實性的要求強度差距是非常巨大的,就因為它們的業態不一樣。

再比如交通導航類,基於位置信息數據的要求,和一個基於城市規劃或者基於省際高速的人流預測,對於數據所要求的真實性密度,要求相差也非常巨大。

所以,從我們角度來看,內部必須要評估,但同時我們已經延伸到第二步,通過實際的問題,來衡量數據的真實性、有效性,到底是什麼樣。

杜岩:

亞信數據主要是提供技術的手段和方法,做數據質量的檢查和多方數據的比對。

以政府數據為例,政府提供的數據有時存在著一些偏差或者不完整的情況。

針對這個問題,亞信按照 「一數一源」的規則,即確保一個數據一個源頭,其基礎根據是國家對各級業務部門的三定職責,按照政府部門的工作邊界和職責來確定數據源。

因此,履職部門在工作過程當中能夠產生的數據,就形成了一本數據「台帳」,我們管這個叫政府的信息資源目錄。

經過多年的經驗,在數據的處理和質量檢測方面亞信具有一套完整的信息模型和規則方法,通過規則引擎和規則庫,能夠對採集的原始數據做自動的清洗、轉換、處理,最終形成準確性相對較高的數據。

當然,技術也不是萬能的,至於說這一條數據傳遞的信息,如果是政府部門在數據生成過程中有錯誤,我覺得從技術上是很難判斷出來的。

科技雲報道:面對海量的原始數據,如何進行數據處理?

林逸飛:

當機器把原始數據採集上來后,下一步是數據標籤的梳理。

我們的標籤分成兩類:一類是即時標籤,它只白描數據採集和事實上的情況反饋;另一類是

產出行業場景下的「數據標籤」。不同的行業,看到同一個數據,它加工的數據標籤是不一樣的,這裡我們就提供大規模計算的框架,包括邊緣計算的一些框架,來輔助做這樣一些標籤上的處理。

所以做「標籤」梳理的時候,第一輪我們會有專家智慧,對這些數據做第一次的標準標籤描述。但這個標籤本身並不具備直接對業務使用的價值,它只能作為一個開始的點。

之後我們會提供一個類似於「標籤工廠」或者說「用戶管家」的軟體平台,採用閉環的形式,通過一次一次的業務迭代,然後加上機器學習的技術,把這些標籤做一輪一輪的優化,最後出來的標籤,才是真正在行業裡面具有場景特色的標籤。

數據打完標籤,就進入到計算數據之間的關聯性,乃至數據的預測性環節,都已引入到我們完整的數據處理系統里。

杜岩:

在技術的整個處理過程上,亞信的大數據平台還是比較先進的,這裡面分幾個層面:

第一個層面,是數據的採集,能夠將分散在不同部門或不同平台系統上的海量的、異構的、結構化與非結構化的數據取過來,技術基本上能夠滿足目前所有的場景。

第二個層面,是數據的存儲,採用混搭的數據存儲架構,對於原始數據採用基於Hadoop的分散式存儲技術,包括結構化與非結構化文件存儲,海量數據存儲、流數據存儲等,而對於經過大數據計算后的結果數據,採用關係型資料庫進行存儲,方便應用訪問。

第三個層面,是數據的處理,平台內置了大量的數據清洗、轉換、標籤化、分析挖掘等規則演算法和計算引擎,通過按需、定時或者實時啟動後台數據處理任務,由機器自動完成整個數據的加工處理過程。而需要人工參與的工作,主要是規則設置、任務配置、數據結果檢查和任務監控等。

科技雲報道:如何在海量數據中判斷數據的價值?

林逸飛:

有一段時間,大家都迷信標籤數量這個事,你家有800個,我家有5000個。其實對我們來講,做標籤可能只是處理數據中的第一步。當它不跟具體業務結合的時候,定出來的標籤種類再多,能不能產生價值不好衡量。

當有了基礎標籤以後,我們關注的主要是這幾塊:

第一,識彆強關聯「因組」,它是通過專家機器學習的手段。無論你800個還是5000個標籤,最終跟這個業務相關的,也許只是100個。這個過程是一個需要花時間,通過機器學習和人的智慧疊加的一個部分。

第二,識別模型,當我們要解決一個問題的時候,始終要有一個模型來識別關聯的數據。

第三,閉環,基於以上一系列工作出來的結果,到底在業務裡面的價值是怎樣的,這個數據是否能夠與業務產生互動,形成一個閉環。

杜岩:

數據有沒有價值不是數據本身來決定的,所謂的沒有價值的數據是因為我們還不知道該如何用,數據的價值實際上主要看應用。

在大量的數據中,判斷哪些數據可能會對我們有用,現在主要有兩種模式:

一種模式是自下而上的,我們叫做應用驅動。比如政府要做什麼應用,這個應用需要哪些數據,能夠比較準確的定位到為這個應用服務的數據內容。

另一種模式,是自下而上的,我們叫做數據驅動,在海量數據中通過發現數據之間潛在的關聯關係,分析挖掘數據價值,最終形成數據應用。我覺得數據驅動是未來的一個方向,只有這樣才能真正體現大數據平台的價值。

但是當前,縱觀國內,真正用到海量數據,尤其是在跨行業的海量數據中通過關聯、整合、計算和成熟的數據挖掘分析模型驅動出來的應用案例還是比較少的,更多還是應用驅動。

科技雲報道:與政府、金融等數據環境要求嚴格的行業,如何進行合作?

林逸飛:

第一,我們合作的比較具有代表性的實體包括一些大型銀行,股份制行等擁有資質的、合規的實體。

第二,從數據的使用和部署的環境來講,都是在銀行的私有化環境里,即合規的環境。如果有三方的數據需要打通,也仍然是在客戶的環境裡面去做相應的交叉驗證跟質量評估。

第三,我們需要有客戶的強授權,才能對客戶去做相應的徵信等等,這個強授權的過程是要在金融機構的合規場所去完成。

杜岩:

從數據的所有權和使用權來說,拿政府舉例,數據的所有權是歸政府所有,但對於不涉及到機密和個人隱私的數據,國家政策是支持政府對外開放使用的。

現在國內很多城市已經建設了政務數據的開放門戶,把能夠開放給社會使用的數據,甚至是API介面等都開放在門戶網站上。政府鼓勵企業,尤其是一些小微企業、個人創新創業團隊,用這些數據開發出來能夠為政府、為老百姓服務的一些應用。

從數據的合作來說,亞信數據除了幫助政府做數據的管理治理,在某些特定的一些領域比如醫療、交通等,跟政府也有一些相關的戰略合作。

科技雲報道:如何看待大數據行業的現狀和未來?

林逸飛:

我們認為從去年開始,大數據的攻防戰已經進入第二輪。

當有了技術,有了一定量級的數據,更重要的還是這些數據到底能夠幫助客戶解決什麼問題,體現什麼樣的價值。

一個大數據公司擁有什麼技術、演算法或者數據,其實都是一個側面。雖然技術發展的步子很快,但在這個過程裡面,經驗的積累,包括對數據這方面的一些認知,我覺得是有一定的時間要花。

我個人認為,目前國內市場上真的能夠給客戶直接帶來價值的公司,少於三分之一。

杜岩:

從目前來看,大數據技術和產業鏈相對比較成熟和完整,各行各業的大數據已經進入到真正的實際落地階段。

比起做單一垂直行業的大數據公司來說,跨行業、做平台的公司優勢要大很多,能夠基於海量數據,結合政企客戶和社會的痛點問題,創造出一些有價值的應用,從而開展數據運營服務,我覺得這一類才是將來大數據領域的領軍企業。

關於TalkingData

國內領先的的獨立第三方移動數據服務平台,從數據的採集、處理到數據的分析、應用與諮詢,目前為超過12萬款移動應用以及10萬應用開發者提供服務,覆蓋的客戶主要為互聯網、金融、地產、快消、零售等行業。

關於亞信數據

亞信集團專註大數據業務的子公司,結合以應用為導向的大數據產品、AI驅動的智能演算法和以價值為引導的專業服務,聚焦政務、醫療、交通、通信等行業,致力於成為「關鍵行業和城市大數據的運營者」。

科技雲報道將陸續邀請大數據領域知名企業相關負責人,就大家關心的話題內容進行訪談。歡迎業界各大企業與我們聯繫報道,與大家分享寶貴的行業觀點,共同促進行業的交流與發展。

【科技雲報道原創】

轉載請註明「科技雲報道」並附本文鏈接



熱門推薦

本文由 yidianzixun 提供 原文連結

寵物協尋 相信 終究能找到回家的路
寫了7763篇文章,獲得2次喜歡
留言回覆
回覆
精彩推薦