search
尋找貓咪~QQ 地點 桃園市桃園區 Taoyuan , Taoyuan

課程分享|呂本富:大數據及大數據分析

北京大學公共傳播與社會發展研究中心(Centerfor Public Communication and Social Development)成立於2012年,秉持北大學術精神和人文關懷,在社會發展的大視野下致力於公共傳播領域的學術研究、國際交流、媒體培訓和公益合作,旨在搭建政界、學界、企業界、媒體同仁、公益同仁跨界交流、融通合作的平台,以公共傳播推動社會發展,以社會發展豐富公共傳播。編者按

如果說互聯網是一座寶藏,那麼大數據就是打開這座寶藏的鑰匙。新事物出現所帶來的實現更美好事物的可能性,不僅需要我們的歡呼,更需要我們細緻的思考,還有超乎想象力地運用。北大公共傳播研修班 2017年春季課程 ,特邀請科學院大學經管學院教授、博士生導師呂本富為大家講授4期《大數據分析》課程,梳理大數據相關技術及其原理,啟迪大家把握歷史未來發展脈絡,更為深刻地去認識「媒介與社會變遷」這一命題。本期為大家推送的是呂本富老師北大公共傳播班第一課的精華。

名師簡介

國家創新與發展戰略研究會副理事長

科學院大學經管學院教授 博士生導師

主要研究領域:網路經濟和網路空間戰略、創新創業管理、管理智慧與謀略。在網路空間和創新創業研究方面,主要承擔國家創新與發展研究會的政策研究工作;在智慧與謀略方面,主要研究傳統智慧與博弈論結合。

請輸入標題 abcdefg

數據的重要性

古代治國就已經有重數據的思想。

《商君書·去強篇》中就曾記載:「強國知十三數:竟內倉口之數,壯男壯女之數,老弱之數,官士之數,以言說取食者之數,利民之數,馬、牛、芻、稾之數。欲強國,不知國十三數,地雖利,民雖眾,國愈弱至削。」這個十三數,就是當時政府年終考核制需要統計的項目列別。

勞氏說

勞拉在《統計與真理》的第一版的序文中,寫到:

在最終的分析中所有知識皆為歷史。

在抽象的意義下所有科學皆為數學。

在理性的世界里所有判斷皆為統計。」

從此可見,數量的問題是世界的根本。

從數據到智慧

數據源及原型

數據的反面

什麼是數據?

從內容上來說:

數據(data)在拉丁文里是「已知」的意思

數據(data在英文中的一個解釋是「一組事實的集合,從中可以分析出結論」。

總的說,凡是用某種載體記錄下來的、能反映自然界和人類社會某種信息的,就可稱之為數據。換句話說,數據是一個過程,包括三個過程:事實、分析、結論。

從形式上來說:

古人「結繩記事」,是數據,繩子是存儲。步入現代社會,信息的種類和數量越來越豐富,載體也越來越多。數字是數據,文字是數據,圖像、音頻、視頻等都是數據。

人類科學發展史上的不少進步都和數據採集分析直接相關,例如現代醫學流行病學的開端。

倫敦1854年發生了大規模的霍亂,很長時間沒有辦法控制。一位醫師用標點地圖的方法研究了當地水井分佈和霍亂患者分佈之間的關係,發現有一口水井周圍,霍亂患病率明顯較高,藉此找到了霍亂暴發的原因:一口被污染的水井。關閉這口水井之後,霍亂的發病率明顯下降。

數據與方法

數據與方法相輔相成,但關鍵還在於數據。

天氣預報由於利用精密的雷達和衛星地圖,加上計算機對數據的快速處理,過去五年對未來3天的天氣預報的準確度已經達到95%。大數據的特徵與價值

大數據的定義

大數據是指利用現有理論、方法、技術和工具難以在可接受的時間內完成分析計算、整體呈現高價值的海量複雜數據集合。

大數據的特徵

數量大——當前,全球所擁有的數據總量已經遠遠超過歷史上的任何時期,且數據量的增加速度呈現倍增趨勢;

鮮明的流式特徵——在數據速率方面,數據產生、傳播的速度更快,在不同時空中流轉;

越來越快——數據價值的有效時間急劇減少,要求越來越高的數據計算和使用能力

大數據區別於數據

一方面:

數據的爆炸是三維的、立體的。所謂的三維,除了指數據量快速增大外,還指數據增長速度的加快,以及數據的多樣性,即數據的來源、種類不斷增加。

另一方面:

從數據到大數據,不僅是量的積累,更是質的飛躍。海量的、不同來源、不同形式、包含不同信息的數據可以容易地被整合、分析,原本孤立的數據變得互相聯通。這使得人們通過數據分析,能發現小數據時代很難發現的新知識,創造新的價值。

大數據的價值

循大數據治國,更有效:大數據時代,政府做決策能夠從粗放型轉向集約型;

大數據驅動的運營:組織戰略將從業務驅動轉向數據驅動;

行為數據分析:各種經濟活動行為記錄的大數據,才是真正的「石油」,才有冶鍊價值;

大數據與健康:如果真能達成生物學上多維多向數據的有機融合,就能夠把個人完整地描述出來,從而實現精準醫療的;

交叉驗證:大數據的特徵之一是多樣性,不同來源、不同維度的數據之間存在一定的關聯度,可以交叉驗證;

大數據下的科研範式:

數據密集型科學,再現真實的歷史場景

大數據催生新經濟

新經濟的產生

美國的金融重心正在從華爾街向矽谷轉移,其背後的推手是以高科技與互聯網企業為代表的新經濟的興起。

新經濟帶來的不只是對傳統商業模式的顛覆,也為經濟學引入了全新的思考。微觀經濟學和行為經濟學成為矽谷企業了解消費者、研判趨勢、設計未來的利器。

「新經濟」指的是從基於實物商品的經濟轉變到基於軟體和知識產權的經濟。

「新經濟」背景下:

共享經濟,減低信息成本,更簡便高效地匹配市場供求。像AirbnbEtsy這樣的新經濟網站給人們創造了新的賺錢途徑——在自己出外度假時把房子出租,或出售藝術創作和手工藝品。

「組合職業」的興起,每個人都是自身職業的創業家。新時代的就業者不僅需要不斷學習新技能,而且要緊貼時代的經濟脈搏,發掘新機遇



微觀經濟學的變革

微觀經濟學就是數據驅動,挖掘大數據的經濟學。矽谷的公司越來越青睞他們:將一位最前沿的經濟學家招致麾下,他們就能預測出消費者或者員工下一步可能的動向。

從數據到智慧

在知識管理領域的DIKW理論中,data作為最底層被視為原始素材。

而在大數據背景下,每一個階層的內容也在成倍地增加。

數據、信息、策略

不同的學派和實踐者對於「管理」的本質可能有著完全迥異的理解,都認可:決策是管理的本質,而管理最核心的要素就是信息的收集與傳遞。

決策產生價值,決策的精確性來自信息對稱程度,信息的對稱程度來自數據挖掘和數據梳理。

在經濟學中,所謂的「外部性」是一個人的行為對旁觀者福利的影響。大數據令人驚奇的地方就在於其外部性,大數據分析的重要工作也就是挖掘數據的外部性。

數據源及類型

大數據的主要來源

自然大數據——地球,自然界的大數據,這麼多的衛星繞著地球轉,每天能下載巨量的大空間數據。生命大數據、生物大數據,尤其是每一個人體的大數據也是一個重要的來源。

經濟運行數據——各種交易類型數據

行為大數據——每天手機、筆記本都產生巨大的數字痕迹,既有物理數據,也有心理數據。

物聯網大數據——各種工業設備和社會運行的數據。

數據類型

政府開放數據:根據《開放數據憲章》,各國優先開放高價值的數據,主要包括地理空間、統計、福利、交通和基礎設施、科研、司法安全、地球規則、教育等;

企業大數據:企業的業務包括生產和流通兩部分,生產部分是工業大數據,而流通部分是商業大數據(客戶行為大數據);工業大數據:工業大數據的「大」不能僅從數據量、數據類型、產生速度、質量等角度來看,而應考慮以下兩個方面:維度之大和先驗知識基礎之大。大數據的結構

在數據複雜性方面,數據種類繁多,在編碼方式、存儲格式、應用特徵等多個方面也存在多層次、多方面的差異性,結構化、半結構化、非結構化數據並存;

在數據價值方面,數據規模增大到一定程度之後,隱含於數據中的知識的價值也隨之增大。

結構化與非結構化

inflated大數據是肥胖的。大數據的大不僅僅體現在數據記錄的行數多,更體現在欄位變數的列數多,這就為分析多因素之間的關聯性帶來了難度。

unstructured大數據是非結構化的。大數據的結構也是非常複雜的,既包括像交易額、時間等連續型變數,像性別、工作類型等離散型變數這樣傳統的結構化數據,更增添了如文本、社會關係網路,乃至語音、圖像等大量新興的非結構化數據,而這些非結構化數據蘊含的信息量往往更加巨大,但分析手段卻略顯單薄。

incomplete大數據是殘缺的。在現實的世界里,由於用戶登記的信息不全、計算機數據存儲的錯誤等種種原因,數據缺失是常見的現象。

abnormal大數據是異常的。在現實的世界里,大數據里還有不少異常值(outlier)。比如某些連續型變數(如一個短期時間內的交易金額)的取之太大,某些離散型變數(如某個被選購的產品名稱)里的某個水平值出現的次數太少。

資料庫系統

在這樣一個計算領先的時代當中,我們主要做的是結構化數據的挖掘。關係資料庫之父埃德加在1970年提出一個關係模型,以關係代數為核心運算,用二維表形式表示實體和實體間的聯繫。

關係代數是關係資料庫的形式化理論和約束,先有頂層設計和數據結構,后填入清洗后的數據。數據圍繞結構轉,數據圍繞程序轉。用戶無需關心數據的獲取、存儲、分析以及提取過程。

隨著資料庫產業的膨大,人們對資料庫已經不太滿足了,於是把databases說成大數據,這便遇到了兩個不可迴避的挑戰,第一個挑戰是由於關係代數的形式化約束過於苛刻,無法表示現實數據;第二個挑戰是隨著數據量的增大,關係代數運算性能急劇下降。

因此,客戶端伺服器結構和雲計算結構蓬勃產生,這時已經沒有了關於代數那樣嚴格的形式化約束,依靠的主要是規範、標準,所有媒體均以實體形式存在,甚至是軟體,實體通過超鏈接產生聯繫。

數據的反面

不同學科領域有不同的數據想象規則和標準,如同其各自有其方法論和實踐演化路線。

數據掩蓋了價值觀念。數據從來都不可能是「原始」的,數據總是依照某人的傾向和價值觀念而被構建出來的。

數據分析的結果看似客觀公正,但其實價值選擇貫穿了從構建到解讀的全過程。數據貌似中立,但事實上數據不完全是一種自然存在,而是人類想象和加工的結果。



熱門推薦

本文由 yidianzixun 提供 原文連結

寵物協尋 相信 終究能找到回家的路
寫了7763篇文章,獲得2次喜歡
留言回覆
回覆
精彩推薦