當前最大的流行語是「大數據」和「數據科學」。建立在大數據基礎上的數據科學正在迅速成為一個非常熱門的話題。
圖片來源: 點擊這裡
什麼是真正定義了科學的數據科學 -什麼是那些進行數據科學需要基本的真正的 科學,我們可以建立數據科學的數學基礎和計算機科學基礎?
以下是一套基本原理:
數據科學基礎
介紹
大數據/分析/數據科學學科領域最易說「我做數據科學」。然而,就數據科學的基礎知識而言,我們需要提出以下關鍵問題:「數據」究竟是什麼,我們試圖用數據做什麼,以及如何應用科學原理來實現數據目標?
什麼是數據?
數據科學的目標
科學方法
概率與統計
世界是一個概率性的,所以我們使用概率論的數據 - 這意味著,考慮到一定的前提條件,數據將只在一段時間內以特定的方式出現在你身邊 。要正確應用數據科學, 必須 熟悉和舒適的概率和統計學。
數據的兩個特徵
統計數據示例
概率
概率分佈
與統計分佈的連接
統計屬性(平均值,模式,中位數,時刻,標準偏差等)
共同概率分佈(離散,二項式,正態)
其他概率分佈(Chi-square,Poisson)
聯合條件概率
貝葉斯規則
貝葉斯推論
決策理論
決策是數據科學的關鍵基礎之一。無論是在科學,工程或商業領域應用,我們正在努力通過數據做出決策。數據本身是無用的,除非它告訴我們一些東西,這意味著 我們正在作出關於它告訴我們的決定。我們如何想出這些決定?決策過程有哪些因素?使用數據做出決策的最佳方法是什麼?
假設檢驗
二元假設檢驗
似然比和對數似然比
貝葉斯風險
Neyman - 皮爾遜標準
ROC曲線
M-元假設檢驗
最優決策
估計理論
有時我們對數據進行表徵 - 平均值,參數估計等。從數據估計本質上是決策的延伸,這是決策理論的一個自然的一部分。
估計作為擴展假設M檢驗
無偏估計
最小均方誤差(MMSE)
最大似然估計(MLE)
最大后驗估計(MAP)
卡爾曼濾波器
坐標系
為了將各種數據元素合併成一個共同的決策框架,我們需要知道如何對齊數據。了解協調系統及其使用方式對於將不同的數據整合在一起構成堅實的基礎很重要。
坐標系
歐幾里德空間
正交坐標系
正交坐標系的屬性(角度,點積,坐標變換等)
笛卡爾坐標系
極坐標系
圓柱坐標系
球面坐標系
坐標系之間的轉換
線性變換
一旦我們了解坐標系統,我們就可以了解為什麼要轉換數據以獲得基礎信息。本節介紹如何通過各種類型的轉換(包括流行的傅里葉變換)將數據轉換成其他有用的數據產品。
線性變換簡介
線性變換特性
矩陣乘法
傅里葉變換
傅里葉變換的屬性(時頻關係,位移不變性,光譜特性,Parseval定理,卷積定理等)
離散和連續傅里葉變換
不確定性原則和混淆
小波和其他變換
計算對數據的影響
數據科學經常被忽視的方面是我們應用的演算法對我們正在尋找的信息的影響。僅僅應用演算法和計算來創建分析和其他數據產品對數據驅動的有效決策能力有影響。介紹數據科學的先進方面。
計算的數學表示法
可逆計算(雙目標映射)
不可逆計算
脈衝響應函數
概率分佈的變換(由於加法,減法,乘法,除法,任意計算等)
決策制定
原型編碼/編程
數據科學的關鍵要素之一就是實踐者願意用數據「弄髒他們的手」。這意味著能夠編寫訪問,處理和可視化科學和工業中重要語言的數據的程序。本節將介紹這些重要內容。
編程介紹
數據類型,變數和函數
數據結構(數組等)
循環,比較,If-Then-Else
功能
腳本語言與可編譯語言
SQL
SAS
R語言
Python
C ++
圖論
圖表是說明不同數據元素之間的連接的方法,它們在當今互聯的世界中很重要。
圖論簡介
無向圖
定向圖
各種圖形數據結構
路由和網路問題
演算法
數據科學的關鍵在於理解使用演算法來計算重要的數據導出指標。本節包含了流行的數據處理演算法。
演算法介紹
遞歸演算法
串列,并行和分散式演算法
徹底搜索
分治與征服(二進位搜索)
漸變搜索
排序演算法
線性規劃
貪婪演算法
啟髮式演算法
隨機演算法
圖的最短路徑演算法
機器學習
數據科學基礎課程在沒有機器學習的情況下將不會完成。然而,重要的是要知道這些技術是建立在前面部分描述的基本原理之上的。本節將為從業者了解有用和受歡迎的機器學習技術以及為什麼應用它們。
機器學習簡介
線性分類器(Logistic回歸,樸素貝葉斯分類器,支持向量機)
決策樹(隨機森林)
貝葉斯網路
隱馬爾可夫模型
期望最大化
人工神經網路與深度學習
矢量量化
K均值聚類評估