Zi 字媒體

2017-07-25T20:27:27+00:00

数据科学实战.pdf [R語言] PDF: https://github.com/jash-git/Jash-good-idea-20200304-001 你可以在这里下载本书随附的资料（数据集、练习题等）：https://github.com/oreillymedia/doing_data_scien 作者介紹 …………………………………………………………………………………………………………………………… XII 關於封面圖 ………………………………………………………………………………………………………………………XIII 前言 …………………………………………………………………………………………………………………………………..XIV 第1 章　簡介：什麼是資料科學 ………………………………………………………………………………………..1 1.1　大資料和資料科學的喧囂 ……………………………………………………………………………………………1 1.2　沖出迷霧 ……………………………………………………………………………………………………………………2 1.3　為什麼是現在 ……………………………………………………………………………………………………………..3 1.4　資料科學的現狀和歷史 ……………………………………………………………………………………………….5 1.5　資料科學的知識結構 …………………………………………………………………………………………………..8 1.6　思維實驗：元定義 …………………………………………………………………………………………………….10 1.7　什麼是資料科學家 …………………………………………………………………………………………………….11 1.7.1　學術界對資料科學家的定義 …………………………………………………………………………..12 1.7.2　工業界對資料科學家的定義 …………………………………………………………………………..12 第2 章　統計推斷、探索性資料分析和資料科學工作流程 …………………………………………..14 2.1　大資料時代的統計學思考 ………………………………………………………………………………………….14 2.1.1　統計推斷 ……………………………………………………………………………………………………….15 2.1.2　總體和樣本 ……………………………………………………………………………………………………16 2.1.3　大資料的總體和樣本 ……………………………………………………………………………………..17 2.1.4　大資料意味著大膽的假設 ………………………………………………………………………………19 2.1.5　建模 ………………………………………………………………………………………………………………21 2.2　探索性資料分析 ………………………………………………………………………………………………………..26 2.2.1　探索性資料分析的哲學 ………………………………………………………………………………….27 VI ｜目錄 2.2.2　練習：探索性資料分析 ………………………………………………………………………………….29 2.3　資料科學的工作流程 …………………………………………………………………………………………………31 2.4　思維實驗：如何模擬混沌 ………………………………………………………………………………………….34 2.5　案例學習：RealDirect ………………………………………………………………………………………………..35 2.5.1　RealDirect 是如何賺錢的 ………………………………………………………………………………..36 2.5.2　練一練：RealDirect 公司的資料策略 ………………………………………………………………36 第3 章　演算法 ……………………………………………………………………………………………………………………..39 3.1　機器學習演算法 ……………………………………………………………………………………………………………40 3.2　三大基本演算法 ……………………………………………………………………………………………………………41 3.2.1　線性回歸模型 ………………………………………………………………………………………………..42 3.2.2　k 近鄰模型（k-NN） ……………………………………………………………………………………….55 3.2.3　k 均值演算法 …………………………………………………………………………………………………….64 3.3　練習：機器學習演算法基礎 ………………………………………………………………………………………….68 3.4　總結 …………………………………………………………………………………………………………………………72 3.5　思維實驗：關於統計學家的自動化 ……………………………………………………………………………73 第4 章　垃圾郵件篩檢程式、樸素貝葉斯與資料清理……………………………………………………….74 4.1　思維實驗：從實例中學習 ………………………………………………………………………………………….74 4.1.1　線性回歸為何不適用 ……………………………………………………………………………………..75 4.1.2　k 近鄰效果如何 ……………………………………………………………………………………………..77 4.2　樸素貝葉斯模型 ………………………………………………………………………………………………………..78 4.2.1　貝葉斯法則 ……………………………………………………………………………………………………79 4.2.2　個別單詞的篩檢程式 …………………………………………………………………………………………80 4.2.3　直通樸素貝葉斯 …………………………………………………………………………………………….82 4.3　拉普拉斯平滑法 ………………………………………………………………………………………………………..83 4.4　對比樸素貝葉斯和k 近鄰 ………………………………………………………………………………………….85 4.5　Bash 代碼示例 …………………………………………………………………………………………………………..85 4.6　網頁抓取：API 和其他工具 ………………………………………………………………………………………87 4.7　Jake 的練習題：文章分類問題中的樸素貝葉斯模型 …………………………………………………..88 第5 章　邏輯回歸 ………………………………………………………………………………………………………………92 5.1　思維實驗 ………………………………………………………………………………………………………………….93 5.2　分類器 ……………………………………………………………………………………………………………………..94 5.2.1　執行時間 ……………………………………………………………………………………………………….95 5.2.2　你自己 …………………………………………………………………………………………………………..95 5.2.3　模型的可解釋性 …………………………………………………………………………………………….95 5.2.4　可擴展性 ……………………………………………………………………………………………………….96 目錄｜ VII 5.3　邏輯回歸：一個來自M6D 的真實案例研究 ………………………………………………………………96 5.3.1　點擊模型 ……………………………………………………………………………………………………….96 5.3.2　模型背後 ……………………………………………………………………………………………………….97 5.3.3　α 和 β 的參數估計 ………………………………………………………………………………………….99 5.3.4　牛頓法 …………………………………………………………………………………………………………101 5.3.5　隨機梯度下降法 …………………………………………………………………………………………..101 5.3.6　操練 …………………………………………………………………………………………………………….101 5.3.7　模型評價 ……………………………………………………………………………………………………..102 5.4　練習題 ……………………………………………………………………………………………………………………105 第6 章　時間戳記資料與金融建模 …………………………………………………………………………………….110 6.1　Kyle Teague 與GetGlue 公司 ……………………………………………………………………………………110 6.2　時間戳記 ……………………………………………………………………………………………………………………112 6.2.1　探索性資料分析（EDA） ………………………………………………………………………………113 6.2.2　指標和新變數 ………………………………………………………………………………………………117 6.2.3　下一步怎麼做 ………………………………………………………………………………………………117 6.3　輪到Cathy O’Neill 了 ……………………………………………………………………………………………….118 6.4　思維實驗 ………………………………………………………………………………………………………………..118 6.5　金融建模 ………………………………………………………………………………………………………………..119 6.5.1　樣本期內外以及因果關係 …………………………………………………………………………….120 6.5.2　金融資料處理 ………………………………………………………………………………………………121 6.5.3　對數收益率 ………………………………………………………………………………………………….123 6.5.4　實例：標準普爾指數 ……………………………………………………………………………………124 6.5.5　如何衡量波動率 …………………………………………………………………………………………..126 6.5.6　指數平滑法 ………………………………………………………………………………………………….128 6.5.7　金融模型的回饋 …………………………………………………………………………………………..128 6.5.8　聊聊回歸模型 ………………………………………………………………………………………………130 6.5.9　先驗信息量 ………………………………………………………………………………………………….130 6.5.10　一個小例子 ………………………………………………………………………………………………..131 6.6　練習：GetGlue 提供的時間戳記資料 …………………………………………………………………………..134 第7 章　從資料到結論 …………………………………………………………………………………………………….136 7.1　William Cukierski …………………………………………………………………………………………………….136 7.1.1　背景介紹：資料科學競賽 …………………………………………………………………………….136 7.1.2　背景介紹：眾包模式 ……………………………………………………………………………………137 7.2　Kaggle 模式 …………………………………………………………………………………………………………….139 7.2.1　Kaggle 的參賽者 …………………………………………………………………………………………..140 7.2.2　Kaggle 的客戶 ………………………………………………………………………………………………141 VIII ｜目錄 7.3　思維實驗：關於作業自動評分系統 ………………………………………………………………………….143 7.4　特徵選擇 ………………………………………………………………………………………………………………..145 7.4.1　例子：留住用戶 …………………………………………………………………………………………..146 7.4.2　過濾型 …………………………………………………………………………………………………………149 7.4.3　包裝型 …………………………………………………………………………………………………………149 7.4.4　決策樹與嵌入型變數選擇 …………………………………………………………………………….151 7.4.5　熵 ……………………………………………………………………………………………………………….153 7.4.6　決策樹演算法 ………………………………………………………………………………………………….155 7.4.7　如何在決策樹模型中處理連續性變數 …………………………………………………………..156 7.4.8　隨機森林 ……………………………………………………………………………………………………..157 7.4.9　用戶黏性：模型的預測能力與可解釋性 ……………………………………………………….159 7.5　David Huffaker：穀歌社會學研究的新方法 ………………………………………………………………160 7.5.1　從描述性統計到預測模型 …………………………………………………………………………….161 7.5.2　穀歌的社交研究 …………………………………………………………………………………………..163 7.5.3　隱私保護 ……………………………………………………………………………………………………..163 7.5.4　思維實驗：如何消除用戶的顧慮 ………………………………………………………………….164 第8 章　構建面向大量使用者的推薦引擎 …………………………………………………………………………165 8.1　一個真實的推薦引擎 ……………………………………………………………………………………………….166 8.1.1　最近鄰演算法回顧 …………………………………………………………………………………………..167 8.1.2　最近鄰模型的已知問題 ………………………………………………………………………………..168 8.1.3　超越近鄰模型：基於機器學習的分類模型 ……………………………………………………169 8.1.4　高維度問題 ………………………………………………………………………………………………….171 8.1.5　奇異值分解（SVD） ……………………………………………………………………………………..172 8.1.6　關於SVD 的重要特性 ………………………………………………………………………………….172 8.1.7　主成分分析（PCA） ………………………………………………………………………………………173 8.1.8　交替最小二乘法 …………………………………………………………………………………………..174 8.1.9　固定矩陣V，更新矩陣U ……………………………………………………………………………..175 8.1.10　關於這些演算法的一點思考 …………………………………………………………………………..176 8.2　思維實驗：如何過濾模型中的泡沫 ………………………………………………………………………….176 8.3　練習：搭建自己的推薦系統 …………………………………………………………………………………….176 第9 章　數據視覺化與欺詐偵測 …………………………………………………………………………………….179 9.1　資料視覺化的歷史 …………………………………………………………………………………………………..179 9.1.1　Gabriel Tarde ………………………………………………………………………………………………..180 9.1.2　Mark 的思維實驗 ………………………………………………………………………………………….181 9.2　到底什麼是資料科學 ……………………………………………………………………………………………….181 9.2.1　Processing …………………………………………………………………………………………………….182 目錄｜ IX 9.2.2　Franco Moretti ………………………………………………………………………………………………182 9.3　一個資料視覺化的方案實例 …………………………………………………………………………………….183 9.4　Mark 的資料視覺化專案 ………………………………………………………………………………………….186 9.4.1　《紐約時報》大廳裡的視覺化：Moveable Type ………………………………………………186 9.4.2　螢幕上的生命：Cascade 視覺化項目 …………………………………………………………….188 9.4.3　Cronkite 廣場專案 ………………………………………………………………………………………..189 9.4.4　eBay 與圖書網購 ………………………………………………………………………………………….190 9.4.5　公共劇場裡的“莎士比亞機” ……………………………………………………………………….192 9.4.6　這些展覽的目的是什麼 ………………………………………………………………………………..193 9.5　資料科學和風險 ………………………………………………………………………………………………………193 9.5.1　關於Square 公司 ………………………………………………………………………………………….194 9.5.2　支付風險 ……………………………………………………………………………………………………..194 9.5.3　模型效果的評估問題 ……………………………………………………………………………………197 9.5.4　建模小貼士 ………………………………………………………………………………………………….200 9.6　數據視覺化在Square ……………………………………………………………………………………………….203 9.7　Ian 的思維實驗 ………………………………………………………………………………………………………..204 9.8　關於資料視覺化 ………………………………………………………………………………………………………204 第10 章　社交網路與資料新聞學 …………………………………………………………………………………..207 10.1　Morning Analytics 與社交網路 ………………………………………………………………………………..207 10.2　社交網路分析 ………………………………………………………………………………………………………..209 10.3　關於社交網路分析的相關術語 ……………………………………………………………………………….209 10.3.1　如何衡量向心性 ………………………………………………………………………………………..210 10.3.2　使用哪種向心性測度 …………………………………………………………………………………211 10.4　思維實驗 ……………………………………………………………………………………………………………….212 10.5　Morningside Analytics …………………………………………………………………………………………….212 10.6　從統計學的角度看社交網路分析 ……………………………………………………………………………215 10.6.1　網路的表示方法與特徵值向心度 ……………………………………………………………….215 10.6.2　隨機網路的第一個例子：Erdos-Renyi 模型 ………………………………………………..217 10.6.3　隨機網路的第二個例子：指數隨機網路圖模型 ………………………………………….217 10.7　資料新聞學 ……………………………………………………………………………………………………………220 10.7.1　關於資料新聞學的歷史回顧 ………………………………………………………………………220 10.7.2　資料新聞報告的寫作：來自專家的建議 …………………………………………………….220 第11 章　因果關係研究 ………………………………………………………………………………………………….222 11.1　相關性並不代表因果關係 ………………………………………………………………………………………223 11.1.1　對因果關係提問 ………………………………………………………………………………………..223 11.1.2　干擾因數：一個關於線上約會網站的例子 …………………………………………………224 X ｜目錄 11.2　OK Cupid 的發現 …………………………………………………………………………………………………..225 11.3　黃金準則：隨機化臨床實驗 …………………………………………………………………………………..226 11.4　A/B 測試 ……………………………………………………………………………………………………………….228 11.5　退一步求其次：關於觀察性研究 ……………………………………………………………………………229 11.5.1　辛普森悖論 ……………………………………………………………………………………………….230 11.5.2　魯賓因果關係模型 …………………………………………………………………………………….231 11.5.3　因果關係的視覺化 …………………………………………………………………………………….232 11.5.4　定義：因果關係 ………………………………………………………………………………………..233 11.6　三個小建議 ……………………………………………………………………………………………………………235 第12 章　流行病學 ………………………………………………………………………………………………………….236 12.1　Madigan 的學術背景 ………………………………………………………………………………………………236 12.2　思維實驗 ……………………………………………………………………………………………………………….237 12.3　統計學在現代 ………………………………………………………………………………………………………..238 12.4　醫學文獻與觀察性研究 ………………………………………………………………………………………….238 12.5　分層法不解決干擾因數的問題 ……………………………………………………………………………….239 12.6　就沒有更好的辦法嗎 ……………………………………………………………………………………………..241 12.7　研究性實驗（OMOP） ……………………………………………………………………………………………242 12.8　最後的思維實驗 …………………………………………………………………………………………………….246 第13 章　從競賽中學到的：資料洩漏和模型評價 ………………………………………………………247 13.1　Claudia 作為資料科學家的知識結構 ………………………………………………………………………247 13.1.1　首席資料科學家的生活 ……………………………………………………………………………..248 13.1.2　作為一名女資料科學家 ……………………………………………………………………………..248 13.2　資料採擷競賽 ………………………………………………………………………………………………………..249 13.3　如何成為出色的建模者 ………………………………………………………………………………………….250 13.4　數據洩漏 ……………………………………………………………………………………………………………….250 13.4.1　市場預測 …………………………………………………………………………………………………..251 13.4.2　亞馬遜案例學習：出手闊綽的顧客 ……………………………………………………………251 13.4.3　珠寶抽樣問題 ……………………………………………………………………………………………251 13.4.4　IBM 客戶鎖定 …………………………………………………………………………………………..252 13.4.5　乳腺癌檢測 ……………………………………………………………………………………………….253 13.4.6　預測肺炎 …………………………………………………………………………………………………..253 13.5　如何避免資料洩漏 …………………………………………………………………………………………………254 13.6　模型評價 ……………………………………………………………………………………………………………….255 13.6.1　準確度重要嗎 ……………………………………………………………………………………………256 13.6.2　概率的重要性，不是非0 即1 ……………………………………………………………………256 13.7　如何選擇演算法 ………………………………………………………………………………………………………..259 目錄｜ XI 13.8　最後一個例子 ………………………………………………………………………………………………………..259 13.9　臨別感言 ……………………………………………………………………………………………………………….260 第14 章　資料工程：MapReduce、Pregel、Hadoop ………………………………………………..261 14.1　關於David Crawshaw …………………………………………………………………………………………….262 14.2　思維實驗 ……………………………………………………………………………………………………………….262 14.3　MapReduce …………………………………………………………………………………………………………….263 14.4　單詞頻率問題 ………………………………………………………………………………………………………..264 14.5　其他MapReduce 案例 …………………………………………………………………………………………….267 14.6　Pregel ……………………………………………………………………………………………………………………268 14.7　關於Josh Wills ………………………………………………………………………………………………………269 14.8　思維實驗 ……………………………………………………………………………………………………………….269 14.9　給資料科學家的話 …………………………………………………………………………………………………269 14.9.1　資料豐富和資料匱乏 …………………………………………………………………………………270 14.9.2　設計模型 …………………………………………………………………………………………………..270 14.10　算算Hadoop 的經濟賬 …………………………………………………………………………………………270 14.10.1　Hadoop 簡介 ………………………………………………………………………………………….271 14.10.2　Cloudera ………………………………………………………………………………………………..271 14.11　Josh 的工作流程 …………………………………………………………………………………………………..272 14.12　如何開始使用Hadoop ………………………………………………………………………………………….272 第15 章　聽聽學生們怎麼說 ………………………………………………………………………………………….273 15.1　重在過程 ……………………………………………………………………………………………………………….273 15.2　不再簡單 ……………………………………………………………………………………………………………….274 15.3　援助之手 ……………………………………………………………………………………………………………….275 15.4　殊途同歸 ……………………………………………………………………………………………………………….277 15.5　逢山開路，遇水架橋 ……………………………………………………………………………………………..279 15.6　作品展示 ……………………………………………………………………………………………………………….279 第16 章　下一代資料科學家、自大狂和職業道德 ………………………………………………………281 16.1　前面都講了些什麼 …………………………………………………………………………………………………281 16.2　什麼是資料科學（再問一次） …………………………………………………………………………………282 16.3　誰是下一代的資料科學家 ………………………………………………………………………………………283 16.3.1　成為解決問題的人 …………………………………………………………………………………….284 16.3.2　培養軟技能 ……………………………………………………………………………………………….284 16.3.3　成為提問者 ……………………………………………………………………………………………….285 16.4　做一個有道德感的資料科學家 ……………………………………………………………………………….286 16.5　對於職業生涯的建議 ……………………………………………………………………………………………..289 作者介绍 …………………………………………………………………………………………………………………………… XII 关于封面图 ………………………………………………………………………………………………………………………XIII 前言 …………………………………………………………………………………………………………………………………..XIV 第1 章　简介：什么是数据科学 ………………………………………………………………………………………..1 1.1　大数据和数据科学的喧嚣 ……………………………………………………………………………………………1 1.2　冲出迷雾 ……………………………………………………………………………………………………………………2 1.3　为什么是现在 ……………………………………………………………………………………………………………..3 1.4　数据科学的现状和历史 ……………………………………………………………………………………………….5 1.5　数据科学的知识结构 …………………………………………………………………………………………………..8 1.6　思维实验：元定义 …………………………………………………………………………………………………….10 1.7　什么是数据科学家 …………………………………………………………………………………………………….11 1.7.1　学术界对数据科学家的定义 …………………………………………………………………………..12 1.7.2　工业界对数据科学家的定义 …………………………………………………………………………..12 第2 章　统计推断、探索性数据分析和数据科学工作流程 …………………………………………..14 2.1　大数据时代的统计学思考 ………………………………………………………………………………………….14 2.1.1　统计推断 ……………………………………………………………………………………………………….15 2.1.2　总体和样本 ……………………………………………………………………………………………………16 2.1.3　大数据的总体和样本 ……………………………………………………………………………………..17 2.1.4　大数据意味着大胆的假设 ………………………………………………………………………………19 2.1.5　建模 ………………………………………………………………………………………………………………21 2.2　探索性数据分析 ………………………………………………………………………………………………………..26 2.2.1　探索性数据分析的哲学 ………………………………………………………………………………….27 VI ｜目录 2.2.2　练习：探索性数据分析 ………………………………………………………………………………….29 2.3　数据科学的工作流程 …………………………………………………………………………………………………31 2.4　思维实验：如何模拟混沌 ………………………………………………………………………………………….34 2.5　案例学习：RealDirect ………………………………………………………………………………………………..35 2.5.1　RealDirect 是如何赚钱的 ………………………………………………………………………………..36 2.5.2　练一练：RealDirect 公司的数据策略 ………………………………………………………………36 第3 章　算法 ……………………………………………………………………………………………………………………..39 3.1　机器学习算法 ……………………………………………………………………………………………………………40 3.2　三大基本算法 ……………………………………………………………………………………………………………41 3.2.1　线性回归模型 ………………………………………………………………………………………………..42 3.2.2　k 近邻模型（k-NN） ……………………………………………………………………………………….55 3.2.3　k 均值算法 …………………………………………………………………………………………………….64 3.3　练习：机器学习算法基础 ………………………………………………………………………………………….68 3.4　总结 …………………………………………………………………………………………………………………………72 3.5　思维实验：关于统计学家的自动化 ……………………………………………………………………………73 第4 章　垃圾邮件过滤器、朴素贝叶斯与数据清理……………………………………………………….74 4.1　思维实验：从实例中学习 ………………………………………………………………………………………….74 4.1.1　线性回归为何不适用 ……………………………………………………………………………………..75 4.1.2　k 近邻效果如何 ……………………………………………………………………………………………..77 4.2　朴素贝叶斯模型 ………………………………………………………………………………………………………..78 4.2.1　贝叶斯法则 ……………………………………………………………………………………………………79 4.2.2　个别单词的过滤器 …………………………………………………………………………………………80 4.2.3　直通朴素贝叶斯 …………………………………………………………………………………………….82 4.3　拉普拉斯平滑法 ………………………………………………………………………………………………………..83 4.4　对比朴素贝叶斯和k 近邻 ………………………………………………………………………………………….85 4.5　Bash 代码示例 …………………………………………………………………………………………………………..85 4.6　网页抓取：API 和其他工具 ………………………………………………………………………………………87 4.7　Jake 的练习题：文章分类问题中的朴素贝叶斯模型 …………………………………………………..88 第5 章　逻辑回归 ………………………………………………………………………………………………………………92 5.1　思维实验 ………………………………………………………………………………………………………………….93 5.2　分类器 ……………………………………………………………………………………………………………………..94 5.2.1　运行时间 ……………………………………………………………………………………………………….95 5.2.2　你自己 …………………………………………………………………………………………………………..95 5.2.3　模型的可解释性 …………………………………………………………………………………………….95 5.2.4　可扩展性 ……………………………………………………………………………………………………….96 目录｜ VII 5.3　逻辑回归：一个来自M6D 的真实案例研究 ………………………………………………………………96 5.3.1　点击模型 ……………………………………………………………………………………………………….96 5.3.2　模型背后 ……………………………………………………………………………………………………….97 5.3.3　α 和 β 的参数估计 ………………………………………………………………………………………….99 5.3.4　牛顿法 …………………………………………………………………………………………………………101 5.3.5　随机梯度下降法 …………………………………………………………………………………………..101 5.3.6　操练 …………………………………………………………………………………………………………….101 5.3.7　模型评价 ……………………………………………………………………………………………………..102 5.4　练习题 ……………………………………………………………………………………………………………………105 第6 章　时间戳数据与金融建模 …………………………………………………………………………………….110 6.1　Kyle Teague 与GetGlue 公司 ……………………………………………………………………………………110 6.2　时间戳 ……………………………………………………………………………………………………………………112 6.2.1　探索性数据分析（EDA） ………………………………………………………………………………113 6.2.2　指标和新变量 ………………………………………………………………………………………………117 6.2.3　下一步怎么做 ………………………………………………………………………………………………117 6.3　轮到Cathy O’Neill 了 ……………………………………………………………………………………………….118 6.4　思维实验 ………………………………………………………………………………………………………………..118 6.5　金融建模 ………………………………………………………………………………………………………………..119 6.5.1　样本期内外以及因果关系 …………………………………………………………………………….120 6.5.2　金融数据处理 ………………………………………………………………………………………………121 6.5.3　对数收益率 ………………………………………………………………………………………………….123 6.5.4　实例：标准普尔指数 ……………………………………………………………………………………124 6.5.5　如何衡量波动率 …………………………………………………………………………………………..126 6.5.6　指数平滑法 ………………………………………………………………………………………………….128 6.5.7　金融模型的反馈 …………………………………………………………………………………………..128 6.5.8　聊聊回归模型 ………………………………………………………………………………………………130 6.5.9　先验信息量 ………………………………………………………………………………………………….130 6.5.10　一个小例子 ………………………………………………………………………………………………..131 6.6　练习：GetGlue 提供的时间戳数据 …………………………………………………………………………..134 第7 章　从数据到结论 …………………………………………………………………………………………………….136 7.1　William Cukierski …………………………………………………………………………………………………….136 7.1.1　背景介绍：数据科学竞赛 …………………………………………………………………………….136 7.1.2　背景介绍：众包模式 ……………………………………………………………………………………137 7.2　Kaggle 模式 …………………………………………………………………………………………………………….139 7.2.1　Kaggle 的参赛者 …………………………………………………………………………………………..140 7.2.2　Kaggle 的客户 ………………………………………………………………………………………………141 VIII ｜目录 7.3　思维实验：关于作业自动评分系统 ………………………………………………………………………….143 7.4　特征选择 ………………………………………………………………………………………………………………..145 7.4.1　例子：留住用户 …………………………………………………………………………………………..146 7.4.2　过滤型 …………………………………………………………………………………………………………149 7.4.3　包装型 …………………………………………………………………………………………………………149 7.4.4　决策树与嵌入型变量选择 …………………………………………………………………………….151 7.4.5　熵 ……………………………………………………………………………………………………………….153 7.4.6　决策树算法 ………………………………………………………………………………………………….155 7.4.7　如何在决策树模型中处理连续性变量 …………………………………………………………..156 7.4.8　随机森林 ……………………………………………………………………………………………………..157 7.4.9　用户黏性：模型的预测能力与可解释性 ……………………………………………………….159 7.5　David Huffaker：谷歌社会学研究的新方法 ………………………………………………………………160 7.5.1　从描述性统计到预测模型 …………………………………………………………………………….161 7.5.2　谷歌的社交研究 …………………………………………………………………………………………..163 7.5.3　隐私保护 ……………………………………………………………………………………………………..163 7.5.4　思维实验：如何消除用户的顾虑 ………………………………………………………………….164 第8 章　构建面向大量用户的推荐引擎 …………………………………………………………………………165 8.1　一个真实的推荐引擎 ……………………………………………………………………………………………….166 8.1.1　最近邻算法回顾 …………………………………………………………………………………………..167 8.1.2　最近邻模型的已知问题 ………………………………………………………………………………..168 8.1.3　超越近邻模型：基于机器学习的分类模型 ……………………………………………………169 8.1.4　高维度问题 ………………………………………………………………………………………………….171 8.1.5　奇异值分解（SVD） ……………………………………………………………………………………..172 8.1.6　关于SVD 的重要特性 ………………………………………………………………………………….172 8.1.7　主成分分析（PCA） ………………………………………………………………………………………173 8.1.8　交替最小二乘法 …………………………………………………………………………………………..174 8.1.9　固定矩阵V，更新矩阵U ……………………………………………………………………………..175 8.1.10　关于这些算法的一点思考 …………………………………………………………………………..176 8.2　思维实验：如何过滤模型中的泡沫 ………………………………………………………………………….176 8.3　练习：搭建自己的推荐系统 …………………………………………………………………………………….176 第9 章　数据可视化与欺诈侦测 …………………………………………………………………………………….179 9.1　数据可视化的历史 …………………………………………………………………………………………………..179 9.1.1　Gabriel Tarde ………………………………………………………………………………………………..180 9.1.2　Mark 的思维实验 ………………………………………………………………………………………….181 9.2　到底什么是数据科学 ……………………………………………………………………………………………….181 9.2.1　Processing …………………………………………………………………………………………………….182 目录｜ IX 9.2.2　Franco Moretti ………………………………………………………………………………………………182 9.3　一个数据可视化的方案实例 …………………………………………………………………………………….183 9.4　Mark 的数据可视化项目 ………………………………………………………………………………………….186 9.4.1　《纽约时报》大厅里的可视化：Moveable Type ………………………………………………186 9.4.2　屏幕上的生命：Cascade 可视化项目 …………………………………………………………….188 9.4.3　Cronkite 广场项目 ………………………………………………………………………………………..189 9.4.4　eBay 与图书网购 ………………………………………………………………………………………….190 9.4.5　公共剧场里的“莎士比亚机” ……………………………………………………………………….192 9.4.6　这些展览的目的是什么 ………………………………………………………………………………..193 9.5　数据科学和风险 ………………………………………………………………………………………………………193 9.5.1　关于Square 公司 ………………………………………………………………………………………….194 9.5.2　支付风险 ……………………………………………………………………………………………………..194 9.5.3　模型效果的评估问题 ……………………………………………………………………………………197 9.5.4　建模小贴士 ………………………………………………………………………………………………….200 9.6　数据可视化在Square ……………………………………………………………………………………………….203 9.7　Ian 的思维实验 ………………………………………………………………………………………………………..204 9.8　关于数据可视化 ………………………………………………………………………………………………………204 第10 章　社交网络与数据新闻学 …………………………………………………………………………………..207 10.1　Morning Analytics 与社交网络 ………………………………………………………………………………..207 10.2　社交网络分析 ………………………………………………………………………………………………………..209 10.3　关于社交网络分析的相关术语 ……………………………………………………………………………….209 10.3.1　如何衡量向心性 ………………………………………………………………………………………..210 10.3.2　使用哪种向心性测度 …………………………………………………………………………………211 10.4　思维实验 ……………………………………………………………………………………………………………….212 10.5　Morningside Analytics …………………………………………………………………………………………….212 10.6　从统计学的角度看社交网络分析 ……………………………………………………………………………215 10.6.1　网络的表示方法与特征值向心度 ……………………………………………………………….215 10.6.2　随机网络的第一个例子：Erdos-Renyi 模型 ………………………………………………..217 10.6.3　随机网络的第二个例子：指数随机网络图模型 ………………………………………….217 10.7　数据新闻学 ……………………………………………………………………………………………………………220 10.7.1　关于数据新闻学的历史回顾 ………………………………………………………………………220 10.7.2　数据新闻报告的写作：来自专家的建议 …………………………………………………….220 第11 章　因果关系研究 ………………………………………………………………………………………………….222 11.1　相关性并不代表因果关系 ………………………………………………………………………………………223 11.1.1　对因果关系提问 ………………………………………………………………………………………..223 11.1.2　干扰因子：一个关于在线约会网站的例子 …………………………………………………224 X ｜目录 11.2　OK Cupid 的发现 …………………………………………………………………………………………………..225 11.3　黄金准则：随机化临床实验 …………………………………………………………………………………..226 11.4　A/B 测试 ……………………………………………………………………………………………………………….228 11.5　退一步求其次：关于观察性研究 ……………………………………………………………………………229 11.5.1　辛普森悖论 ……………………………………………………………………………………………….230 11.5.2　鲁宾因果关系模型 …………………………………………………………………………………….231 11.5.3　因果关系的可视化 …………………………………………………………………………………….232 11.5.4　定义：因果关系 ………………………………………………………………………………………..233 11.6　三个小建议 ……………………………………………………………………………………………………………235 第12 章　流行病学 ………………………………………………………………………………………………………….236 12.1　Madigan 的学术背景 ………………………………………………………………………………………………236 12.2　思维实验 ……………………………………………………………………………………………………………….237 12.3　统计学在现代 ………………………………………………………………………………………………………..238 12.4　医学文献与观察性研究 ………………………………………………………………………………………….238 12.5　分层法不解决干扰因子的问题 ……………………………………………………………………………….239 12.6　就没有更好的办法吗 ……………………………………………………………………………………………..241 12.7　研究性实验（OMOP） ……………………………………………………………………………………………242 12.8　最后的思维实验 …………………………………………………………………………………………………….246 第13 章　从竞赛中学到的：数据泄漏和模型评价 ………………………………………………………247 13.1　Claudia 作为数据科学家的知识结构 ………………………………………………………………………247 13.1.1　首席数据科学家的生活 ……………………………………………………………………………..248 13.1.2　作为一名女数据科学家 ……………………………………………………………………………..248 13.2　数据挖掘竞赛 ………………………………………………………………………………………………………..249 13.3　如何成为出色的建模者 ………………………………………………………………………………………….250 13.4　数据泄漏 ……………………………………………………………………………………………………………….250 13.4.1　市场预测 …………………………………………………………………………………………………..251 13.4.2　亚马逊案例学习：出手阔绰的顾客 ……………………………………………………………251 13.4.3　珠宝抽样问题 ……………………………………………………………………………………………251 13.4.4　IBM 客户锁定 …………………………………………………………………………………………..252 13.4.5　乳腺癌检测 ……………………………………………………………………………………………….253 13.4.6　预测肺炎 …………………………………………………………………………………………………..253 13.5　如何避免数据泄漏 …………………………………………………………………………………………………254 13.6　模型评价 ……………………………………………………………………………………………………………….255 13.6.1　准确度重要吗 ……………………………………………………………………………………………256 13.6.2　概率的重要性，不是非0 即1 ……………………………………………………………………256 13.7　如何选择算法 ………………………………………………………………………………………………………..259 目录｜ XI 13.8　最后一个例子 ………………………………………………………………………………………………………..259 13.9　临别感言 ……………………………………………………………………………………………………………….260 第14 章　数据工程：MapReduce、Pregel、Hadoop ………………………………………………..261 14.1　关于David Crawshaw …………………………………………………………………………………………….262 14.2　思维实验 ……………………………………………………………………………………………………………….262 14.3　MapReduce …………………………………………………………………………………………………………….263 14.4　单词频率问题 ………………………………………………………………………………………………………..264 14.5　其他MapReduce 案例 …………………………………………………………………………………………….267 14.6　Pregel ……………………………………………………………………………………………………………………268 14.7　关于Josh Wills ………………………………………………………………………………………………………269 14.8　思维实验 ……………………………………………………………………………………………………………….269 14.9　给数据科学家的话 …………………………………………………………………………………………………269 14.9.1　数据丰富和数据匮乏 …………………………………………………………………………………270 14.9.2　设计模型 …………………………………………………………………………………………………..270 14.10　算算Hadoop 的经济账 …………………………………………………………………………………………270 14.10.1　Hadoop 简介 ………………………………………………………………………………………….271 14.10.2　Cloudera ………………………………………………………………………………………………..271 14.11　Josh 的工作流程 …………………………………………………………………………………………………..272 14.12　如何开始使用Hadoop ………………………………………………………………………………………….272 第15 章　听听学生们怎么说 ………………………………………………………………………………………….273 15.1　重在过程 ……………………………………………………………………………………………………………….273 15.2　不再简单 ……………………………………………………………………………………………………………….274 15.3　援助之手 ……………………………………………………………………………………………………………….275 15.4　殊途同归 ……………………………………………………………………………………………………………….277 15.5　逢山开路，遇水架桥 ……………………………………………………………………………………………..279 15.6　作品展示 ……………………………………………………………………………………………………………….279 第16 章　下一代数据科学家、自大狂和职业道德 ………………………………………………………281 16.1　前面都讲了些什么 …………………………………………………………………………………………………281 16.2　什么是数据科学（再问一次） …………………………………………………………………………………282 16.3　谁是下一代的数据科学家 ………………………………………………………………………………………283 16.3.1　成为解决问题的人 …………………………………………………………………………………….284 16.3.2　培养软技能 ……………………………………………………………………………………………….284 16.3.3　成为提问者 ……………………………………………………………………………………………….285 16.4　做一个有道德感的数据科学家 ……………………………………………………………………………….286 16.5　对于职业生涯的建议 ……………………………………………………………………………………………..289

本文由jashliaoeuwordpress提供原文連結

一點資訊

寫了 5860316篇文章，獲得 23313次喜歡

精彩推薦

推薦搜尋

Zi 字媒體

查看更多推薦