Zi 字媒體

2017-07-25T20:27:27+00:00

機器學習 & 人工智慧(深度學習) & 大數據分析完整實際步驟收藏資料來源: https://mp.weixin.qq.com/s/D62NWBn-lFoXpRlvdecyNQ 需求討論 -> 抓取(提取)數據 -> 數據清洗過濾 -> 數據整合(合併) -> 缺失處理 -> 特徵(提取)工程 -> 模型(選取)建立其中: 01.【數據清洗過濾 -> 數據整合(合併) -> 缺失處理 -> 特徵(提取)工程】一般都是統計/經驗手段取得 02.特徵提取前要執行降維動作 03. 李航《统计学习方法》、《Python數據分析與挖掘實戰》、實用機器學習、数据科学入门有上述所有步驟對應理論 + PYTHON實作 //—————————–// 書本範例~模型選擇對應整理: ▲線性回歸 [ https://bit.ly/3cwRdjx ] 從一個地方移動到另一個地方所需的時間預測下個月某種產品的銷售情況血液中的酒精含量對協調能力的影響預測每個月禮品卡的銷售情況，並改善年收入的估算 ▲Logistic 回歸 [ https://bit.ly/3cwRdjx ] 預測客戶流失信用評分和欺詐檢測評價市場營銷活動的效果 ▲貝式分類(Bayes) 男/女分類特徵: 身高、體重、腳掌長度郵件分類情感分析和文本分類類似於Netflix、Amazon 這樣的推薦系統人臉識別 ▲K-NN 試紙好壞分類特徵: 耐酸度、強度手寫數字分類 ▲向量機SVM 花草植物分類特徵: 花萼長度、花萼寬度、花瓣寬度、花瓣長度行人偵測發現患有糖尿病等常見疾病的人手寫字符識別文本分類——將文章按照話題分類股票市場價格預測 ▲決策樹信用貸款特徵: 年紀、薪水、房屋、車、信用[每一種都分等級] 醫療判斷做出投資決策預測客戶流失找出可能拖欠銀行貸款的人在「建造」和「購買」兩種選擇間進行抉擇銷售主管的資質審核 ▲AdaBoost 座標分類 ▲梯度提升樹同區房屋估價特徵: 面積、房間數 ▲隨機森林同區房屋估價特徵: 面積、房間數預測高危患者預測零件在生產中的故障預測拖欠貸款的人 ▲神經網路花草植物分類特徵: 花萼長度、花萼寬度、花瓣寬度、花瓣長度行人偵測 //—————————–// 主要分類與預測算法運用場合介紹 [Python數據分析與挖掘實戰 P84、103] 回归分析: 01.比较基础的线性分类模型,很多时候是简单有效的选择 02.确定预测属性(数值型)与其他变量间相互依赖的定量关系最常用的统计学方法。包括线性回归、非线性回归、Logistic回归、岭回归、主成分回归、偏最小二乘回回归分析归等模型决策树: 01.基于“分类讨论、逐步细化”思想的分类模型,模型直观,易解释,如前面5.1.4节中可以直接给出决策图 02.采用自顶向下的递归方式,在内部节点进行属性值的比较,并根据不同的属性值决策树从该节点向下分支,最终得到的叶节点是学习划分的类人工神经网络: 01.具有强大的拟合能力,可以用于拟合、分类等,它有很多个增强版本,如递神经网络、卷积神经网络、自编码器等,这些是深度学习的模型基础 02.一种模仿大脑神经网络结构和功能而建立的信息处理系统,表示神经网人工神经网络络的输入与输出变量之间关系的模型贝叶斯网络: 01.基于概率思想的简单有效的分类模型,能够给出容易理解的概率解释 02.又称信度网络,是Bayes方法的扩展,是目前不确定知识表达和推理领域最贝叶斯网络有效的理论模型之一支持向量机: 01.强大的模型,可以用来回归、预测、分类等,而根据选取不同的核函数。模型可以是线性的/非线性的 02.一种通过某种非线性映射,把低维的非线性可分转化为高维的线性可分,支持向量机在高维空间进行线性分析的算法 ~~~~~~~~~~~~~~~~~~ 回歸分析: 01.比較基礎的線性分類模型,很多時候是簡單有效的選擇 02.確定預測屬性(數值型)與其他變量間相互依賴的定量關係最常用的統計學方法。包括線性回歸、非線性回歸、Logistic回歸、嶺回歸、主成分回歸、偏最小二乘回回歸分析歸等模型決策樹: 01.基於“分類討論、逐步細化”思想的分類模型,模型直觀,易解釋,如前面5.1.4節中可以直接給出決策圖 02.採用自頂向下的遞歸方式,在內部節點進行屬性值的比較,並根據不同的屬性值決策樹從該節點向下分支,最終得到的葉節點是學習劃分的類人工神經網絡: 01.具有強大的擬合能力,可以用於擬合、分類等,它有很多個增強版本,如遞神經網絡、卷積神經網絡、自編碼器等,這些是深度學習的模型基礎 02.一種模仿大腦神經網絡結構和功能而建立的信息處理系統,表示神經網人工神經網絡絡的輸入與輸出變量之間關係的模型貝葉斯網絡(貝式分類): 01.基於概率思想的簡單有效的分類模型,能夠給出容易理解的概率解釋 02.又稱信度網絡,是Bayes方法的擴展,是目前不確定知識表達和推理領域最貝葉斯網絡有效的理論模型之一支持向量機: 01.強大的模型,可以用來回歸、預測、分類等,而根據選取不同的核函數。模型可以是線性的/非線性的 02.是一種通過某種非線性映射,把低維的非線性可分轉化為高維的線性可分,支持向量機在高維空間進行線性分析的算法 //—————————–// 演算法評價 [Python數據分析與挖掘實戰 P100~102] 絕對誤差 E=Y-Y’ 相對誤差 E=(Y-Y’)/Y E=(Y-Y’)/Y*100% 平均絕對誤差 MAE=1/n * Σ(Y-Y’) 均方誤差 MSE=1/n * Σ((Y-Y’)*(Y-Y’)) 均方根誤差 RMSE=√( 1/n * Σ((Y-Y’)*(Y-Y’)) ) 平均絕對百分比誤差 MAPE=1/n * Σ|(Y-Y’)/Y| 辨識準確度 Accuracy=(TP+FP)/(TP+TN+FP+FN) 識別精確度 Precision=TP/(TP+FP)*100% 反饋率 Recall=TP/(TP+TN) 其中 Y:期望值/目標值 Y’:估測值/運算結果 TP (True Positives):正確的肯定表示正確肯定的分類數。 TN (True Negatives):正確的否定表示正確否定的分類數。 FP (False Positives):錯誤的肯定表示錯誤肯定的分類數。 FN (False Negatives):錯誤的否定表示錯誤否定的分類數。 //—————————–// 心得: 01.模型選擇都先比對和書本類似的先測試 02.如果上述效果很差，就使用OPEN CV 依序測試找尋最佳解又或者直接使用神經網路硬幹

本文由jashliaoeuwordpress提供原文連結

一點資訊

寫了 5860316篇文章，獲得 23313次喜歡

精彩推薦

推薦搜尋

Zi 字媒體

查看更多推薦