search
尋找貓咪~QQ 地點 桃園市桃園區 Taoyuan , Taoyuan

機器學習 & 人工智慧(深度學習) & 大數據分析 完整實際步驟 收藏 – jashliao部落格

機器學習 & 人工智慧(深度學習) & 大數據分析 完整實際步驟 收藏


資料來源: https://mp.weixin.qq.com/s/D62NWBn-lFoXpRlvdecyNQ





需求討論 -> 抓取(提取)數據 -> 數據清洗過濾 -> 數據整合(合併) -> 缺失處理 -> 特徵(提取)工程 -> 模型(選取)建立





其中: 

01.【 數據清洗過濾 -> 數據整合(合併) -> 缺失處理 -> 特徵(提取)工程 】 一般都是 統計/經驗 手段取得 

02.特徵提取 前要執行 降維 動作

03. 李航《统计学习方法》 、《Python數據分析與挖掘實戰》實用機器學習 数据科学入门 有上述所有步驟對應理論 + PYTHON實作


//—————————–//

書本範例~模型選擇對應整理:


線性回歸 [ https://bit.ly/3cwRdjx ]
    從一個地方移動到另一個地方所需的時間
    預測下個月某種產品的銷售情況
    血液中的酒精含量對協調能力的影響
    預測每個月禮品卡的銷售情況,並改善年收入的估算

Logistic 回歸 [ https://bit.ly/3cwRdjx ]
    預測客戶流失
    信用評分和欺詐檢測
    評價市場營銷活動的效果


貝式分類(Bayes)
    男/女分類
        特徵: 身高、體重、腳掌長度
    郵件分類

    情感分析和文本分類
    類似於Netflix、Amazon 這樣的推薦系統
    人臉識別

K-NN
    試紙好壞分類
        特徵: 耐酸度、強度
    手寫數字分類


向量機SVM
    花草植物分類
        特徵: 花萼長度、花萼寬度、花瓣寬度、花瓣長度
    行人偵測

    發現患有糖尿病等常見疾病的人
    手寫字符識別
    文本分類——將文章按照話題分類
    股票市場價格預測

決策樹
    信用貸款
        特徵: 年紀、薪水、房屋、車、信用[每一種都分等級]    
    醫療判斷

    做出投資決策
    預測客戶流失
    找出可能拖欠銀行貸款的人
    在「建造」和「購買」兩種選擇間進行抉擇
    銷售主管的資質審核

AdaBoost
    座標分類
    
梯度提升樹
    同區房屋估價
        特徵: 面積、房間數


隨機森林
    同區房屋估價
        特徵: 面積、房間數

    預測高危患者
    預測零件在生產中的故障
    預測拖欠貸款的人

▲神經網路
    花草植物分類
        特徵: 花萼長度、花萼寬度、花瓣寬度、花瓣長度
    行人偵測


//—————————–//

主要分類與預測算法 運用 場合 介紹 [Python數據分析與挖掘實戰 P84、103]

回归分析:

    01.比较基础的线性分类模型,很多时候是简单有效的选择

    02.确定预测属性(数值型)与其他变量间相互依赖的定量关系最常用的统计学方法。包括线性回归、非线性回归、Logistic回归、岭回归、主成分回归、偏最小二乘回 回归分析归等模型


决策树:

    01.基于“分类讨论、逐步细化”思想的分类模型,模型直观,易解释,如 前面5.1.4节中可以直接给出决策图

    02.采用自顶向下的递归方式,在内部节点进行属性值的比较,并根据不同的属性值决策树从该节点向下分支,最终得到的叶节点是学习划分的类

人工神经网络:

    01.具有强大的拟合能力,可以用于拟合、分类等,它有很多个增强版本,如递神经网络、卷积神经网络、自编码器等,这些是深度学习的模型基础

    02.一种模仿大脑神经网络结构和功能而建立的信息处理系统,表示神经网人工神经网络络的输入与输出变量之间关系的模型

贝叶斯网络:

    01.基于概率思想的简单有效的分类模型,能够给出容易理解的概率解释

    02.又称信度网络,是Bayes方法的扩展,是目前不确定知识表达和推理领域最贝叶斯网络有效的理论模型之一

支持向量机:

    01.强大的模型,可以用来回归、预测、分类等,而根据选取不同的核函数。模型可以是线性的/非线性的

    02.一种通过某种非线性映射,把低维的非线性可分转化为高维的线性可分,支持向量机在高维空间进行线性分析的算法

~~~~~~~~~~~~~~~~~~

回歸分析:

    01.比較基礎的線性分類模型,很多時候是簡單有效的選擇

    02.確定預測屬性(數值型)與其他變量間相互依賴的定量關係最常用的統計學方法。包括線性回歸、非線性回歸、Logistic回歸、嶺回歸、主成分回歸、偏最小二乘回 回歸分析歸等模型

決策樹:

    01.基於“分類討論、逐步細化”思想的分類模型,模型直觀,易解釋,如 前面5.1.4節中可以直接給出決策圖

    02.採用自頂向下的遞歸方式,在內部節點進行屬性值的比較,並根據不同的屬性值決策樹從該節點向下分支,最終得到的葉節點是學習劃分的類

人工神經網絡:

    01.具有強大的擬合能力,可以用於擬合、分類等,它有很多個增強版本,如遞神經網絡、卷積神經網絡、自編碼器等,這些是深度學習的模型基礎

    02.一種模仿大腦神經網絡結構和功能而建立的信息處理系統,表示神經網人工神經網絡絡的輸入與輸出變量之間關係的模型

貝葉斯網絡(貝式分類):

    01.基於概率思想的簡單有效的分類模型,能夠給出容易理解的概率解釋

    02.又稱信度網絡,是Bayes方法的擴展,是目前不確定知識表達和推理領域最貝葉斯網絡有效的理論模型之一

支持向量機:

    01.強大的模型,可以用來回歸、預測、分類等,而根據選取不同的核函數。模型可以是線性的/非線性的

    02.是一種通過某種非線性映射,把低維的非線性可分轉化為高維的線性可分,支持向量機在高維空間進行線性分析的算法
//—————————–//
演算法評價 [Python數據分析與挖掘實戰 P100~102]

絕對誤差
E=Y-Y’

相對誤差
E=(Y-Y’)/Y
E=(Y-Y’)/Y*100%

平均絕對誤差
MAE=1/n * Σ(Y-Y’)

均方誤差
MSE=1/n * Σ((Y-Y’)*(Y-Y’))

均方根誤差
RMSE=√( 1/n * Σ((Y-Y’)*(Y-Y’)) )

平均絕對百分比誤差
MAPE=1/n * Σ|(Y-Y’)/Y|

辨識準確度
Accuracy=(TP+FP)/(TP+TN+FP+FN)

識別精確度
Precision=TP/(TP+FP)*100%

反饋率
Recall=TP/(TP+TN)

其中
Y:期望值/目標值
Y’:估測值/運算結果
TP (True Positives):正確的肯定表示正確肯定的分類數。
TN (True Negatives):正確的否定表示正確否定的分類數。
FP (False Positives):錯誤的肯定表示錯誤肯定的分類數。
FN (False Negatives):錯誤的否定表示錯誤否定的分類數。
//—————————–//


心得:

    01.模型選擇都先比對和書本類似的先測試

    02.如果上述效果很差,就使用OPEN CV 依序測試找尋最佳解 又或者 直接使用神經網路硬幹





熱門推薦

本文由 jashliaoeuwordpress 提供 原文連結

寵物協尋 相信 終究能找到回家的路
寫了7763篇文章,獲得2次喜歡
留言回覆
回覆
精彩推薦