search
尋找貓咪~QQ 地點 桃園市桃園區 Taoyuan , Taoyuan

沈艷:統籌數據治理 助力新經濟發展

圖為北京大學國家發展研究院教授沈艷

編者按:2014年-2017年,「大數據」連續四年成為政府工作報告中的「座上客」。國務院總理李克強曾指出「目前的信息數據資源80%以上掌握在各級政府手裡。」因此,如何破解政府信息「孤島」難題,充分利用政府數據資源,激活數據價值,讓大數據助力實體經濟轉型升級成為今年兩會期間的熱點議題。

對此,北京大學國家發展研究院教授沈艷分析稱,擁有世界最大的人口規模以及網民規模,大數據資源十分豐富。關鍵在於要讓企業、學術機構和不同群體參與到數據的使用與發掘當中,這對於促進經濟發展,實現傳統經濟向新經濟的順利轉型,具有重要意義。

以下為採訪實錄:

大小數據運用應根據研究目的選取

海外網財經:如今,海量數據正在以前所未有的廣度和深度影響著人們的生活。與此伴隨的是越來越多的人開始回歸大數據的本源問題,探討大數據的定義,在您看來,數據、小數據,大數據的區別及聯繫是什麼?

沈艷:為了回答這個問題,我先查了一下詞典,我認為韋伯斯特詞典關於『數據』的定義對於理解如今何為大小數據的討論,有借鑒意義。詞典的第一條提到『數據』叫factory information,就是『事實性信息』,這個事實性的信息是用來推理、討論和計算的;然後第二條比較有意思,第二條是說由感知裝置或者是器官的信息輸出。其中,這些信息既可能包含有用的信息,也有可能包含多餘的無用信息,需要經過處理才能夠有意義的信息。這樣一來我們通常要回歸到數據的本源上討論到統計。統計最早開始於人口統計,古代君王想知道自己到底統治了多少人就需要人口統計。由此我們來看小數據它有幾個特點,第一個,它是為特定目的收集的,比如說我要統計這個國家有多少人;第二個,我們看它多半是結構化數據,比如我有一個專門的年鑒,上面記錄我們某一年有多少人,男的多少人,女的有多少;第三個,在使用過程中比較透明,大家都拿一本年鑒,看我們倆分析的本領誰更強,所以這個時候不同的學者可以用同一套數據,也可以交叉驗證研究結論。

海外網財經:那麼與小數據相比,大數據又有哪些特點?

沈艷:大數據通常說有三個『V』,volum,velocity和variety,主要就是數據量大,實時,種類多等等。大數據的生成過程和小數據不同之處在於大多數的大數據本身並不是為了一個特定目的搜集的,比如說我們在網路上搜索,我們只是為了滿足我的需要,但是搜索背後的公司把這個信息利用起來,把它變成了一個大數據。所以,它記錄的顆粒比較細,包含很多冗餘的信息,它對於分析和處理要求比較高。所以,這裡我打了個比方,好像在同一天有兩個孩子出生,A家庭是傳統家庭,做法是每年到生日的時候,就帶孩子到照相館照照片,所以十年我有十張照片記錄了孩子的成長。B家庭是未來式的家庭,他家裡安裝攝像頭,只要孩子到的地方就會錄到這個孩子。這樣,這個孩子從0歲到10歲,在這個家裡面都有了錄像。在這裡,A家庭做法類似於小數據,收集的目標很清晰,就是要記錄孩子的成長。雖然有可能時間和金錢成本相對比較高,但是輸出的結果也是很清晰。第二種類似於大數據的處理方法。因為技術的進步,允許我們用顆粒更細的方法來記錄信息,記錄信息的成本大幅降低,我們全部都儲存在網上或者移動硬碟就可以記錄很多很多信息。但是,這個數據收集的目標是不清楚的,家庭為什麼收集這個信息,萬一將來有用呢,也說不清楚什麼用處,因此它在使用和分析的時候成本就比較高。我從這個例子想說明,大數據並不一定比小數據更好,其實它取決於你的目的,假如我記錄孩子成長,單純為這一個目的的話,那麼我前面說的小數據的例子,我把照片這樣放下來,可能是很感人的,很好的過程。另外一方面,如果這個家裡出了一個突發事件,孩子受傷了,想知道孩子是怎麼受傷的,這個時候你調用顆粒度很細的那個錄像,就能夠幫助到了。所以當我們說到大數據和小數據的區別的時候,雖然它們在表象上,大數據能夠記錄更多的信息,但是它的顆粒度更細,它有更多的多餘的信息,但是它對於分析的要求是更高的,不見得大數據一定更好,它取決於你要研究的問題,你的目的是什麼。

大數據分析需要「大小結合」、「人機結合」

海外網財經:您在之前的採訪中提到過,大數據發展謹防「一哄而上」,據悉目前數據污染嚴重,很多原始數據存在誇大或瞞報現象。面對此現狀,您認為可靠的大數據分析需要具備哪些關鍵點?

沈艷:可靠的大數據分析具備什麼樣的特徵。我舉一些例子,首先我覺得從我們剛才的比方來看,一個有效的分析它一定是分析目標比較明確,你的目標明確在於什麼呢,是不是這個目標只用大數據分析才能實現,還是高質量的小數據就夠了,又或者是需要大數據和小數據相結合。可靠的大數據分析,第一個是目標要明確,有的問題高質量的小數據足夠了,類似於剛剛我說的,我要記錄孩子成長就夠了,或者我們要了解一個地區的經濟發展的基本狀況,回溯它歷史發展的年革,一個產業在一個地區的形成、基本的結構和格局,那這些信息,我們其實高質量的小數據就夠了,專門部門為我們收集的資料就夠了。

另外有一些問題它可能需要大數據和小數據的結合,比如我們曾經做的新經濟指數,想要刻畫新的經濟部門在國家當中的變遷。那麼,當你在構造這個框架的時候,就需要結合現有的一些小數據。

第二個關鍵點,就是數據的質量很重要。其實從我們剛剛那個比方能夠看出,即便我有大量的信息,假如我只是這個孩子一個上午的活動,可能還不如我十年的照片給我的信息量更大。所以數據量這裡一個常用的說法叫『垃圾進,垃圾出』,也就是說如果數據源的質量不夠好的話,也就不要指望後面分析結果的質量會高。至於原始數據存在誇大瞞報這樣的問題,我覺得後面我們還會講到,更多的是細節,一方面是可能是存在故意,但是不能忽視的事情,度量這個經濟活動的各個方面,本來就是很不容易的任務,大數據數量大、實時,更多信息是冗餘,所以其實對於數據質量它有更高的要求。

第三就是數據分析方法,你得有好的方法,我才能有好的數據分析的產品和結果,那麼其實在我看來,孤立的使用大數據做出好產品的情形我很少看到。

海外網財經:也就是說在實際操作過程中要將大數據和小數據互相融合?

沈艷:對,是這樣。主要原因有這麼幾個。第一個,大數據一般不是有目的的收集,產生很多數據以後,人們把它記錄下來,這個收集的過程使得我們需要評估這個數據質量,並且需要一些標準。而這些標準往往需要我們用一些小數據來驗證。所以,我認為可靠的大數據有這樣兩個特徵,一個叫大小結合,大數據和小數據相結合,第二個也是最近的一個心得,叫人機結合。

大小結合我們已經說了,你拿到大數據,那麼這個數據本身質量怎麼樣,往往需要用很多小數據去驗證。

第二個人機結合,是說其實在數據分析的過程當中它有很多參數,比如這個數據怎麼清洗怎麼整理,這些東西都是要經過人去做,一些關鍵參數的設定,它是需要人腦去完成的,所以一個好的產品最後我們應該也是人的直覺上也是能通過的。我這裡舉個例子,大家知道去年比較熱的事情,就是Alpha Go以Master為名戰勝各大圍棋高手,有人說這是機器打敗人類,說這是大數據的勝利,也是人工智慧的勝利。其實我覺得,這是一個看問題的視角。但另外一個角度是:人類利用數據和開發數據的能力的證明。在這個例子當中,它其實一定程度上,首先是大小數據的結合,小數據指的歷代經典的棋譜,大數據就是這個程序寫完之後他要跟很多不同的人去對弈,這個過程也是一個機器學習的機會。所以,它是一個人機結合的過程,

那麼這個人機結合,它不僅指人類教給機器人類的思維方式,因為這個Alpha Go的原理在於深度學習,近似於人類的學習的步驟。另外一個視角,是未來一個發展趨勢,一方面是教給機器人怎麼思考,另外一方面你也可以給人裝備機器具有的一些能力。其實,這個我們已經有體會了,比如說我要去某一個方面,我拿著手機GPS搜索一下就可以了,我們原來可能沒有辦法那麼簡單就到某個地方,這就是人借住機器的步驟。比如《必然》那本書裡頭講到現在的國際象棋冠軍Magnus Carlsen,他就特別善於利用人機的結合,利用人工智慧來下棋,所以這是挺經典的實際應用的例子。所以,我認為大小結合不僅指的數據分析的時候你需要小數據,另外在評估一個大數據的質量好壞的時候,我也會需要使用小數據,比如谷歌流感趨勢剛開始出來的時候特別火,說它可以提早兩個禮拜去預測流感,但是在後期它的預測不那麼准了,不那麼準的標準就是美國疾控中心的預測可以比它做的更好。大小數據的結合,一個可靠的分析,大數據如果不能做的比小數據好,我們可能就需要考量一下。

另外還要避免「垃圾進,垃圾出」,這就需要有很多的高質量人才,參與到數據質量的評估和數據質量的分析當中。從「人機結合」這個角度你可以往前看能夠看到需要跨界的人才。比如說我要做音樂領域的大數據的產品,那我不僅需要懂演算法的人,我也需要懂樂理、懂音樂、甚至懂人文心理的一些人,需要懂得用戶心理,要怎麼呈現給他們,他們才更願意接受。

大數據戰略逐步推進,智能製造將成主攻方向

海外網財經:今年的政府工作報告中提到,加快大數據、雲計算、物聯網應用,以新技術新業態新模式,推動傳統產業生產、管理和營銷模式變革。這已經是「大數據」相關表述連續第四年被寫入政府工作報告。就您看來,國家目前對大數據戰略地位的落實進行到了哪個階段?

沈艷:對於這一問題我們還是得回到最早的一些提法當中,首先看看十三五規劃,十三五規劃的27章提出我們要實施國家大數據戰略,這裡頭指出把大數據作為基礎性戰略資源,全面實施促進大數據發展行動,加快推動數據資源共享和應用,助力產業轉型。然後在這章第二節,促進大數據產業健康發展裡頭提出要深化大數據在各行業的新應用,探索與傳統產業發展的新模式,加快完善產業鏈,促進大數據軟硬體產品發展。所以要理解我們現在處在哪個階段,首先要梳理我們國家大數據發展本身的基本發展狀態,這個我們可以從比較權威的歷年的政府工作報告中一見端倪。雖然每年都在提,其實提法是不一樣的,我們來看一下,2014年大數據這個詞首次出現在政府工作報告中,在2014年工作重點這個部分,提出設立新型產業創業創新平台最新一代移動通信,集成電路,大數據,先進位造能源,新能源新材料等方面,趕超先進引領未來產業發展。那麼2015年的是在總體工作部署當中提到,要制定互聯網+的行動計劃,推動移動互聯網雲計算,大數據,物聯網等與現代製造業結合。到2016年介紹十三五主要目標和重大舉措的時候提出要促進大數據廣泛運用。到了今年,大數據兩處被提及,一是總結2016年工作的時候,提出深入推進「互聯網+」,實施國家大數據戰略,全面實施《製造2025》;二是2017年工作重點中提出深入實施《製造2025》加快大數據、雲計算、物聯網應用,以新技術新業態新模式推動傳統產業生產管理和營銷變革。接著提到說,把發展智能製造作為主攻方向,推進國家智能製造示範區,製造創新中心等等,目標是製造向中高端邁進。我們從歷年政府工作措詞當中可以看出來在2014年的時候,國家對基本上還是處於頭腦風暴期。

海外網財經:只是意識到這個東西起來了,要追上這個風口,可以這樣理解嗎?

沈艷:對,在那個時候我們的態度叫「趕超先進」,我們後面不提趕超先進了,因為在大數據發展的某些領域裡頭我們就是先進。第一個在2014年它基本還是處於頭腦風暴期,所以對它的期望是趕超先進引領未來,大數據只是作為跟互聯網,雲計算,物聯網,這幾個概念連在一起提出;到了2015年的時候,就開始提出大數據要跟現代製造業相結合,但是怎麼結合,就沒有再具體,這時已經從這個概念想到將大數據跟實業、現代製造業相結合。

海外網財經:但是當時好像沒有明確的怎麼結合,沒有清晰的脈絡?

沈艷:對,還沒有清晰的脈絡。2016年展望十三五期間,用的詞是「促進」。到了今年,對於過去工作的總結,是深入推進國家大數據戰略,值得注意的是2017年指出要「加快」,這個詞說明一個態度,在具體應用方面也更明確了。這個明確是以發展智能製造作為我們的主攻方向。我個人認為,這幾個梳理下來說明在促進健康發展方面,在過去幾年的大數據產業發展過程中已經積累了不少經驗,這個經驗使得我們對於大數據如何跟傳統產業之間協同發展,形成新的業務模式,已經找到了明確的切入點,這個切入點就是智能製造。所以,可以預見的是:智能製造在未來有很大的發展空間。什麼是智能製造,它可以有兩個部分,一個是說智能製造的技術,還有一個是智能製造的系統。

再舉個例子,我們講到怎麼樣跟我們國家智能製造去結合,比如說現在大家都很重視健身,但是其實健身有個很大的缺陷,到健身房,跑步機特別無聊,如果可以近似徒步的那種感覺就會很不同。

海外網財經:是否類似於VR,給你打造一個場景,豐富你在跑步過程中的體驗?

沈艷:對,是VR。對,比如可以製造一個小房間一樣,然後設定具體的場景,去模擬在大峽谷徒步。這時就需要知道當時在不同的時刻的溫度,濕度,大自然的聲音,各種天氣條件,氣象條件等。虛擬現實和人工智慧其實早就有了,為什麼過去發展不起來了,主要因為其一就是移動互聯發展到現在這個地步,人跡可以遍布很多地方,人本身就是一個收集信息的裝置。第二個,收集到的這些信息就是大數據,數據的分析技術如果到達了,就可以把這個數據的分析做得相當好。在這裡數據相當於原料,演算法是它的外殼,包裝起來以後,整個系統就可以根據人的習慣去做一些調整,設定應用的場景。

可以想象在未來人工智慧會跟很多領域、跟我們生活當中很多場景結合起來,我們人越來越能夠把人工智慧的東西用到我自己個性化的一些創作當中去。比如說有人他做營銷研究,他會用一個專門的裝置來監測廣告放出來的時候消費者主要關注的是哪些,這個能說明你這個廣告到底成功不成功。智能製造使得這個屏幕本身就已經可以感受到人的視線,這對於廣告業可能帶來很大的影響。

這些聽起來好像很神乎其神,可是世界的發展和變化很快,互聯網、演算法、大數據,這三個東西讓智能製造成為非常重要的切入點。所以,從政府工作報告本身來看,我覺得國家在這四年的產業發展當中已經積累了不少的經驗,未來應該會有蠻好的前景。

政府數據公開需要專門機構統籌治理

海外網財經:既然大數據已經被提到國家戰略地位,那麼政府數據公開的程度和廣度將在很大程度上決定著大數據的未來發展水平。您認為目前政府數據公開的過程中面臨的挑戰和問題又是什麼?

沈艷:這個時代算是突然降臨的一個時代,因為從我自己2003年回國到現在,我們國家對於數據相關的工作的重視程度這幾年忽然就上來了。然而,應該用什麼步驟用什麼方法來開放政府數據,還是有很多實際困難。

第一個困難就是開放數據的合法性,合法性本身,我們說到統計法的問題,雖然統計法的第三章第七條規定「縣級以上人民政府統計機構和有關統計部門調查取得的統計資料除依法應當保密的以外,應當及時開放,供社會公眾查詢」。這個是說的開放的部分,但是其實地方統計部門不太容易拿捏有哪些東西該開放,哪些東西不該開放。比如說統計法的第三章第五條就規定,「縣級以上人民政府有關部門統計調查取得的統計資料由本部門按照國家有關規定公布」,有關規定我們也不知道具體根據在哪裡,所以這個本身是開放數據的合法性問題。

第二個是數據質量、數據標準與質量良莠不齊。開放的過程中有這樣的問題,先不說合併不同省份不同部門的數據,就是同一家大型機構內部的數據,一個部委內部的數據,都有可能因為定義不同,質量差異大不好使用。那麼我這裡頭舉了一個例子,工商銀行的行長楊凱生,在他著作《金融筆記》當中,就詳細介紹過工商銀行大數據建設和運用的過程,其中他就花了很大篇幅來介紹工商銀行的數據治理和標準化的步驟,其中只信息標準化這一項就總結出五個統一:定義統一,口徑統一,名字統一,來源統一,參照統一。他書中提到在他自身數據標準制定的過程中,採樣或者說服從了上百種國家標準和國家部門部委的標準。

其實我們也存在第三個問題,就是數據共享標準不清楚。我們知道大數據講「數據孤島」,比如我作為一家大數據公司,我自己有關於消費者消費的詳細數據,可是我除了一個人的消費狀況以外,對於他的收入、家庭結構一無所知,這個就是數據孤島。所以數據需要整合和打通,可以把這個人不同維度加到一起去。打通以後,把點變成一個面,這就需要不同的部門之間信息共享。

海外網財經:如果想要實現政府數據開放,並且達到預期效果,該如何應對以上您提到的這些現實挑戰?

沈艷:在我看來,如果政府希望能夠達到數據開放的預期效果,就要有步驟有計劃地來實行。關鍵的一步就是數據的整合,但是整合併不是哪一個部門能做得到的,比如說大家都是平級的部委,沒有一個機構能夠說的動別人一起來做,也不見得合適。所以,我認為首先還是需要有專門的機構來統籌數據治理和整合工作。此外,這個專門機構可能需要比較高層的領導來負責,這樣才能夠把控、統籌安排全局,把大家調動起來,能夠開始制定相應的能夠統一使用的標準,有了標準之後,我們要明確以下三點:第一是開放什麼,第二是對誰開放,第三是怎麼開放。

對於開放什麼,這個可以梳理一下其它國家開放數據的經驗,然後制定的開放數據的時間表,這個問題還是很緊迫的。

關於「對誰開放」和「如何開放」的問題,我覺得可以一起討論。這裡需要明確的是開放不等於免費,也不等於對所有的公眾都開放,政府的數據要按照安全等級來分級,有些數據是國家機密所以無法開放,涉及滿足公眾知情權的數據就是應該免費開放。另外,對於其它的組織或者群體可以考慮有償開放,這樣權責比較清楚,當數據發生泄漏時就可以有責可追。這樣既滿足公眾的知情權,又能夠使數據安全在一定的可控範圍之內。

最後,我希望這些討論不要成為推行開放數據的障礙,我們只是希望在推行的過程當中對於可能出現的障礙有一個清晰的認識,然後一步一步的解決它,促進大數據產業健康發展。

到了大數據時代,數據是一種資產,擁有世界上最大的人口規模,網民數量也居全球第一,所以的數據資源非常豐富。因此,讓企業,學術機構等不同群體的人儘快參與到數據使用和挖掘當中,我覺得對於實現傳統經濟向新經濟順利轉型、保持可持續發展具有重要意義。

海外網財經:好的,這次的探討到此結束,感謝沈老師接受我們的採訪。(孫麗娜)



熱門推薦

本文由 yidianzixun 提供 原文連結

寵物協尋 相信 終究能找到回家的路
寫了7763篇文章,獲得2次喜歡
留言回覆
回覆
精彩推薦