課程分享第2期｜呂本富：大數據及大數據分析

北京大學公共傳播與社會發展研究中心（Centerfor Public Communication and Social Development）成立於2012年，秉持北大學術精神和人文關懷，在社會發展的大視野下致力於公共傳播領域的學術研究、國際交流、媒體培訓和公益合作，旨在搭建政界、學界、企業界、媒體同仁、公益同仁跨界交流、融通合作的平台，以公共傳播推動社會發展，以社會發展豐富公共傳播。編者按

如果說互聯網是一座寶藏，那麼大數據就是打開這座寶藏的鑰匙。新事物出現所帶來的實現更美好事物的可能性，不僅需要我們的歡呼，更需要我們細緻的思考，還有超乎想象力地運用。北大公共傳播研修班 2017年春季課程，特邀請科學院大學經管學院教授、博士生導師呂本富為大家講授4期《大數據分析》課程，梳理大數據相關技術及其原理，啟迪大家把握歷史未來發展脈絡，更為深刻地去認識「媒介與社會變遷」這一命題。本期為大家推送的是呂本富老師北大公共傳播班第二課的精華。

請輸入標題 bcdef

名師簡介

國家創新與發展戰略研究會副理事長

科學院大學經管學院教授博士生導師

主要研究領域：網路經濟和網路空間戰略、創新創業管理、管理智慧與謀略。在網路空間和創新創業研究方面，主要承擔國家創新與發展研究會的政策研究工作；在智慧與謀略方面，主要研究傳統智慧與博弈論結合。

請輸入標題 abcdefg

全量數據

N=「所有」？

樣本的代表性

大數據的切割問題

數據源的級別和類別

數據清洗

全量數據

大數據時代，帶來了從「樣本數據」到「全量數據」的轉變。

從數量上來看，全量數據帶給我們視角上的宏觀與高遠，這將使我們可以站在更高的層級全貌看待問題，看見曾經被淹沒的數據價值，發現藏匿在整體中有趣的細節，從而使得大數據的分析過程成為驚喜的發現過程和問題域的拓展過程。

N=「所有」？

海量數據的「冷思考」。

在海量數據面前，我們必須要搞清楚數據中漏掉了哪些人和哪些事，尤其當我們面對的是一堆混亂的現實數據的時候。

Kaiser Fung是一名數據分析師和《數字感知》這本書的作者，他提醒人們不要簡單地假定自己掌握了所有有關的數據：「N=所有常常是對數據的一種假設，而不是現實。」

樣本的代表性

大數據的情景和適用性

由於不太可能搜集到全數據，「大規模、精準、細化」的大數據，必須注意情景和樣本的適用性。

需要注意採樣分析的不足：

通過採樣分析的精確性隨著採樣隨機性的增加而大幅提高，但與樣本數量的增加關係不大。

隨機樣本的基礎是採樣的絕對隨機性，隨機樣本帶給我們的只能是事先預設問題的答案。這種缺乏延展性的結果，無疑會使我們錯失更多的問題。

現實數據全集

沒有全集數據，數據都在孤島里。

全集太貴，大數據信息密度低，是貧礦，投入產出比不見得好。

宏觀分析中採樣還是有用的，蓋洛普用5000個樣本勝過幾百萬調查的做法還是有實踐意義。

採樣要有隨機性、代表性，採訪火車上的民工得出都買到票的結論不是好採樣，現在只做固定電話採樣調查也不行了(行動電話是大頭)，在國外基於Twitter採樣也發現不完全具有代表性(老年人沒被包括)。

採樣的缺點是有百分之幾的偏差，更會丟失黑天鵝的信號，因此在全集數據存在且可分析的前提下，全量是首選。

小數據 Small Data 是指需要新的應用方式才能體現出的具有高價值的個體的、高效率的、個性化的信息資產。大數據無法取代以抽樣調查和實驗研究為代表的傳統的「小數據」研究。

1、小數據可以被製造

大數據只能被動地挖掘、收集已經客觀發生了的行為信息，而抽樣調查和實驗研究則可以「製造」數據。從這個意義上來說，小數據比大數據更適合進行具有理論意義和理論突破的研究。

2、抽樣樣本在特定情況下比某些「大數據」更具有代表性

抽樣調查就是以總人口為基礎，用科學的方法，隨機抽取樣本。好的隨機樣本應該符合總人口的基本特徵。而通過網路收集的大數據，無論數量再龐大，也不過是總人口中的一個特定群體，即網路用戶。

3、小數據研究在因果關係的分析上別有特點

在很多情況下，大數據只存在相關性，而不是因果關係。但實驗研究獲得的小數據往往又不具有代表性。近年來學者開始將實驗研究植入到抽樣調查中，從而解決了大數據研究無法解決的因果關係和普遍性的雙重問題。

4、小數據能更好地規避學術倫理的問題

大數據表面上很容易獲得，但真正獲得有價值、可以根據自己的理論興趣作分析的多變數大數據，就會涉及個人的隱私、商業或政府的機密以及個人權利、經濟利益等敏感性問題，因此大數據永遠也達不到完全的公開和透明，相反，抽樣調查和實驗得到的數據所有權屬於研究者，使用起來不受他人限制。數據類型數據切割的必要性

1、很多分析要求對數據進行切割，比如，從時間維度的切割可以反映輿情的消長（trends），是制定決策時非常重要的情報，大數據一切隔往往就成了小數據，沒有語言學上比較細緻的分析來彌補，輿情分析就不靠譜，沒有足夠的置信度。

2、大數據陷阱

數據如果不進行處理，即使容量再大，也是數據本身。如果放棄對「為什麼」的追求，也就放棄了對wisdom的追求。Wisdom是人類與機器本質的區別。

3、大數據是前沿，小數據仍是主流

目前在科研中，小數據仍然是主流。

如何切割大數據

適用範圍：研究需要的小數據需要代表總體，且包含總體個體重的全部信息。

方式有以下五種：

1、廣度優選法

基本思想：從網路中選擇初始節點放入先進先出隊列，而後搜索與之相鄰的所有節點。這一方法可以徹底搜索整個網路，加之易於編程實現，因而在多個領域得到廣泛應用。

2、「點—邊」構造法

「點—邊」構造法是隨即點抽樣法與隨機邊抽樣法及其系列改進方法的總稱，隨機點抽樣法與隨機邊抽樣法的基本思想都是以等概率不放回的方式隨機抽取一定數量的節點或邊，而後對這些節點或邊的關係進行分析從而導出抽樣網。

除此之外，還有：用戶均勻抽樣法、同伴推動採樣法以及隨機行走法。

理解二：小數據就是大數據眾多維度中的一維

方式有以下三種：

1、水平分割

水平分割根據某些條件將數據放到兩個或多個獨立的表中。通常用來水平分割的條件有：日期時間維度、地區維度等。

例如，某個公司銷售記錄數據量太大，我們可以對它按月進行水平分割。

2、垂直分割

將原始表分成多個只包含較少列的表。

3、庫表散列

表列與水平分割相似，採用Hash演算法把數據分散到各個分列表中。

「數據源等級」（data hierarchy）

等級0：數據存在很多錯誤，需要進行認真的校驗和檢查！（大部分的毛數據都如此……）等級1：原生數據集……對明顯錯誤已經修正

等級2：增值數據集合，那些已經標準化/編碼的，根據一些認可的框架或流程進行一致性矯正。（需要重要的領域專家知識/培訓和判斷經驗）

等級3：整合數據資源，若干增值數據集合，這類資源的重要價值是多種相關數據集合之間的清晰鏈接，或已經編碼或標註為軟體可以產生的鏈接。

等級4：「Digging Enabler」或「Digging Key」的關鍵數據/分類資源……這些需要擴展的領域專業經驗，並使用或分析多種來源或相關文獻來創建。他們利用大量額外的挖掘活動來完成實際的項目，超越了創建這些數據的研究者。可以為更廣泛研究社團提供「規範文檔」：地名詞典、結構化的職業編碼系統、數據交叉分類等。

數據源的類別

有七種劃分類別：

1、行為數據和結果數據（behavioraldata and results data）

行為數據是決策前的各種表現：搜索、瀏覽、交互等，結果數據是決策后的成果：交易量、價格等。

2、微觀數據和宏觀數據（microdata and macro data）

熱力學類型的宏觀數據，比如P、V、T，反應了一個事物的趨勢和可能，動力學類型的微觀數據，比如速率、類目等，反應了一個事物的實現性。

3、高階數據和低階數據（high-orderdata and low-order data）

經濟系統中引入高階變數和低階變數，即未來變數和滯后變數，則經濟系統就很容易動態化，很容易引入動力學分析。

4、高維數據和變維數據（high-dimensionaldata and variable-dimensional data）

高維數據包括三種：其一，因變數是高維的向量，即一個變數可以影響很多變數；其二，自變數是高維的向量，影響一個變數變動的因子有很多；其三，因變數和自變數都是高維的向量。

5、寬度數據和長度數據（dimensiondata and time series data）

數據的顆粒度越細越有價值，數據的長度和寬度的精細化程度，有很大差異。

在某種情況下，需要把長度數據（時間序列）變成寬度數據，比如，信用卡的刷卡記錄是細化的長度數據，如果發掘其價值，必須變成立體型數據，才有價值。

6、真數據和假數據（Truedata and false data）

真數據中包含假信息，比如，網站購物記錄中，有關性別的記錄有很多虛假信息，因為很多女人為男人買東西。假數據中的真信息，同樣是購物記錄，在情人節的前一天，有很多男性購買了很多女性用品，但假中帶真。

7、高頻數據和低頻數據（frequencydata and low-frequency data）

高頻數據的研究就是對時間尺度極小的，如微妙、秒、分鐘、小時或者天等尺度上的數據加以研究，低頻數據的研究就是對時間尺度極大的，如十年、半個世紀以及一個世紀等尺度上的數據加以研究。

數據清洗

三類需要清洗的數據：

1、殘缺數據

必要信息缺失，比如，學籍表中，學生的學號、學生姓名與明細表不符等。

2、錯誤數據

產生的原因是業務系統不健全和系統使用者操作不規範，在接收輸入后沒有進行判斷直接寫入後台資料庫而導致的數據錯誤，比如數值數據輸入成全形數字字元等數。

3、重複數據

在數據採集結果庫中多次出現的數據。除此之外，還會對數據處理過程中產生的「二次數據」進行雜訊、重複或錯誤處理。

1、分析數據源的數據是否滿足業務規則和定義，是否存在非正常的數據結構；

2、讀取採集后的結果集，進行數據屬性適配；

3、獲取數據清洗規則；

4、進行數據匹配；

5、正常數據放入清洗結果集，異常數據放入異常結果集；

6、把結果集入庫，並記錄清洗結果。

ETL

ETL，是英文Extract-Transform-Load 的縮寫，用來描述將數據從來源端經過抽取（extract）、轉換（transform）、載入（load）至目的端的過程。ETL一詞較常用在數據倉庫，但其對象並不限於數據倉庫：

1、提取

通過介面提取源數據，參照元數據來決定提取何處的數據和怎樣提取

數據範圍過濾、欄位過濾、條件過濾、格式轉換、付預設值、類型變換、代碼轉換等

2、轉換

開發者將提取的數據，按照業務需要轉換為目標數據結構，並進行匯總

欄位合併拆分、數據翻譯、數據聚合、數據合併、行列轉變、唯一性檢查等

3、載入

載入經轉換和匯總的數據到目標數據倉庫，可實現SQL或批量載入

科學模型

科學模型是定量化的基礎，是科學實驗的補充手段，是預測的工具，是推進科學技術發展的依據。

科學的兩個主要目標：解釋（說明）與預測。大數據方法的解釋能力弱（比如，Google翻譯不懂語法），大數據方法預測能力強（特別適合做情報分析）。

模型與現實有差距的原因：模型結果落後於實際的發展；建立模型沒有抽取到重要因素或是因素間的關係不合理；忽視了人的因素；沒有考慮系統的穩定性。

統計模型統計是人類思維的一個歸納過程。統計數據產生模型：對於數據源，統計先從現實世界收集數據（信息），如觀測路口的交通。而根據數據作出判斷，稱為模型。模型是從數據產生的。但是，模型也需要根據新的信息來改進，不存在完美的模型。模型的最終結局都是被更能夠說明現實世界的新模型所取代。變數和數據數據是關於變數的觀測值。

定量變數或數量變數(quantitative variable)：當變數按照隨機規律所取的值是數量時該變數稱為定量變數或數量變數m因為是隨機的，也稱為隨機變數(random variable)，如身高體重，購買某商品的人數等等。

定性變數或屬性變數或分類變數(qualitative variable，或categoricalvariable)：象性別，觀點之類的取非數量值的變數，這些定性變數也可以由定量變數來描述，如男女生的數目，持有某觀點的人數比例等等。

啞元（dummy variable）變數：定性變數只有用數量來描述時，才有可能建立數學模型，並使用計算機來分析。數據中它們通常用啞元代表，比如性別用0、1代表，三種收入用0、1、2代表(或用字母代表)。變數間的關係挖掘

1、定量變數間的關係

在可控制的試驗中，較容易找到因果關係；比如治療方式和療效的關係等

但是，一般來說，變數之間有關係這個事實並不意味著一定存在明確的因果關係。

只要有關係，即使不是因果關係也不妨礙人們利用這種關係來進行推斷。

簡單的辦法（諸如畫圖）可以得到一些信息，但不一定能夠給出滿意的答案。

需要更多的工具和手段來進行數值分析得到更加嚴格和精確的解答。

2、定性變數間的關係

如果要得到更加精確的結論，就要進行進一步的分析和計算，包括列聯表分析或多項分佈對數線性模型的內容。

3、定性和定量變數間的混和關係

有些數據不是僅有定性變數或僅有定量變數，需要知道包括定性和定量兩種變數的一些變數之間的關係。

互聯網金融機構基於大數據的信用風險評分模型和傳統金融機構採用的信用風險評分模型在數據來源、變數生成、模型方法、應用方式、應用目標上均存在一定差異。

1、數據來源及數據特徵的差異

傳統信用風險評分模型的數據來源主要是三大類：客戶向金融機構提交的個人申請信息、金融機構內部積累的客戶歷史數據、人民銀行徵信中心等外部機構提供的數據。數據的主要特點是數據質量和信息價值密度高、維度相對單一、可驗證性較差、數據採集渠道規範性較好。

大數據時代的客戶信息來源更加多元化，各互聯網金融機構掌控的生態體系內積累的客戶信息，以及通過外部各種渠道採集的客戶信息。其數據特徵包括：一是數據較為稀疏；二是價值密度相對較低；三是數據覆蓋維度廣；四是單變數風險區分能力弱；五是數據來源規範性不足。

2、模型變數生成和挑選方式的差異

傳統金融機構往往在變數挑選過程中開展多輪定量和定性分析。在篩選模型變數的過程中，除了參考變數的區分能力等定量維度，往往還需要參考機構內部業務專家的意見。

大數據時代，由於原始數據體量較大，通過變數本身衍生、變數之間衍生后產生更多候選變數。在單個模型內，相近的候選變數可多達數百乃至上萬個。由於缺乏專家團隊支持，通常採用挑選規則等方式自動化挑選候選變數，人工干預和專家審核較少。同時，由於模型變數數量龐大和數據質量較差，容易出現模型變數未經嚴格數據清洗程序就進入模型的情況，對模型表現造成影響。

3、建模技術方法的差異

傳統的信用風險評分模型以Logistic回歸方法為核心。Logistic方法處理二分類因變數的數據有獨特的優勢，同時模型關於數據分佈的假定較弱，在數據為非正態分佈時，也有較好的表現。

大數據信用風險評分模型更多採用了神經網路(NeuralNetwork)、支持向量機(SupportVectorMachine)、隨機森林(RandomForest)等演算法。這些機器學習方法在解決特定問題時具有優勢，如有些方法適用於處理稀疏的數據;有些能更好地解決模型過度擬合問題;有些能處理大量的輸入變數，預測準確度較高，能有效提升模型表現。

等等七種類型的差異。

大數據模型演算法

1、記憶基礎推理法

記憶基礎推理法最主要的概念是用已知的案例（case）來預測未來案例的一些屬性（attribute），通常找尋最相似的案例來做比較。

2、市場購物籃分析

購物籃分析最主要的目的在於找出什麼樣的東西應該放在一起？商業上的應用在藉由顧客的購買行為來了解是什麼樣的顧客以及這些顧客為什麼買這些產品，找出相關的聯想（association）規則，企業藉由這些規則的挖掘獲得利益與建立競爭優勢。

3、決策樹（Decision Trees）

決策樹在解決歸類與預測上有著極強的能力，它以法則的方式表達，而這些法則則以一連串的問題表示出來，經由不斷詢問問題最終能導出所需的結果。

4、基因演算法（GeneticAlgorithm）

基因演算法學習細胞演化的過程，細胞間可經由不斷的選擇、複製、交配、突變產生更佳的新細胞。

5、群集偵測技術

它的目標為找出數據中以前未知的相似群體，在許許多多的分析中，剛開始都運用到群集偵測技術，以作為研究的開端。

6、連結分析（Link Analysis）

連結分析是以數學中之圖形理論（graph theory）為基礎，藉由記錄之間的關係發展出一個模式，它是以關係為主體，由人與人、物與物或是人與物的關係發展出相當多的應用。

7、類神經網路（NeuralNetworks）

類神經網路是以重複學習的方法，將一串例子交與學習，使其歸納出一足以區分的樣式。

8、在線分析處理

聯機分析處理是共享多維信息的、針對特定問題的聯機數據訪問和分析的快速軟體技術。

9、區別分析（DiscriminantAnalysis）

若因變數由兩個群體所構成，稱之為雙群體—區別分析（Two-GroupDiscriminant Analysis）；若由多個群體構成，則稱之為多元區別分析。

10、羅吉斯回歸分析

當區別分析中群體不符合常態分配假設時，羅吉斯回歸分析是一個很好的替代方法。羅吉斯回歸分析並非預測事件（event）是否發生，而是預測該事件的機率。

本文為北大公共傳播首發版權歸作者所有如需轉載請聯繫授權歡迎合作｜投稿[email protected]