Zi 字媒體

常用機器學習演算法優缺點及其應用領域

2021/12/25

yidianzixun

決策樹

一、決策樹優點

1、決策樹易於理解和解釋，可以可視化分析，容易提取出規則。

2、可以同時處理標稱型和數值型數據。

3、測試數據集時，運行速度比較快。

4、決策樹可以很好的擴展到大型資料庫中，同時它的大小獨立於資料庫大小。

二、決策樹缺點

1、對缺失數據處理比較困難。

2、容易出現過擬合問題。

3、忽略數據集中屬性的相互關聯。

4、ID3演算法計算信息增益時結果偏向數值比較多的特徵。

三、改進措施

1、對決策樹進行剪枝。可以採用交叉驗證法和加入正則化的方法。

2、使用基於決策樹的combination演算法，如bagging演算法，randomforest演算法，可以解決過擬合的問題

四、應用領域

企業管理實踐，企業投資決策，由於決策樹很好的分析能力，在決策過程應用較多。

KNN演算法

一、KNN演算法的優點

1、KNN是一種在線技術，新數據可以直接加入數據集而不必進行重新訓練

2、KNN理論簡單，容易實現

二、KNN演算法的缺點

1、對於樣本容量大的數據集計算量比較大。

2、樣本不平衡時，預測偏差比較大。如：某一類的樣本比較少，而其它類樣本比較多。

3、KNN每一次分類都會重新進行一次全局運算。

4、k值大小的選擇。

三、KNN演算法應用領域

文本分類、模式識別、聚類分析，多分類領域

支持向量機（SVM）

一、 SVM優點

1、解決小樣本下機器學習問題。

2、解決非線性問題。

3、無局部極小值問題。（相對於神經網路等演算法）

4、可以很好的處理高維數據集。

5、泛化能力比較強。

二、SVM缺點

1、對於核函數的高維映射解釋力不強，尤其是徑向基函數。

2、對缺失數據敏感。

三、SVM應用領域

文本分類、圖像識別、主要二分類領域

AdaBoost演算法

一、 AdaBoost演算法優點

1、很好的利用了弱分類器進行級聯。

2、可以將不同的分類演算法作為弱分類器。

3、AdaBoost具有很高的精度。

4、相對於bagging演算法和Random Forest演算法，AdaBoost充分考慮的每個分類器的權重。

二、Adaboost演算法缺點

1、AdaBoost迭代次數也就是弱分類器數目不太好設定，可以使用交叉驗證來進行確定。

2、數據不平衡導致分類精度下降。

3、訓練比較耗時，每次重新選擇當前分類器最好切分點。

三、AdaBoost應用領域

模式識別、計算機視覺領域，用於二分類和多分類場景

樸素貝葉斯演算法

一、樸素貝葉斯演算法優點

1、對大數量訓練和查詢時具有較高的速度。即使使用超大規模的訓練集，針對每個項目通常也只會有相對較少的特徵數，並且對項目的訓練和分類也僅僅是特徵概率的數學運算而已。

2、支持增量式運算。即可以實時的對新增的樣本進行訓練。

3、樸素貝葉斯對結果解釋容易理解。

二、樸素貝葉斯缺點

1、由於使用了樣本屬性獨立性的假設，所以如果樣本屬性有關聯時其效果不好。

三、樸素貝葉斯應用領域

欺詐檢測中使用較多
一封電子郵件是否是垃圾郵件
一篇文章應該分到科技、政治，還是體育類
一段文字表達的是積極的情緒還是消極的情緒？
人臉識別

Logistic回歸演算法

一、logistic回歸優點

1、計算代價不高，易於理解和實現

二、logistic回歸缺點

1、容易產生欠擬合。

2、分類精度不高。

三、logistic回歸應用領域

用於二分類領域，可以得出概率值，適用於根據分類概率排名的領域，如搜索排名等。
Logistic回歸的擴展softmax可以應用於多分類領域，如手寫字識別等。
信用評估
測量市場營銷的成功度
預測某個產品的收益
特定的某天是否會發生地震
人工神經網路

一、神經網路優點

1、分類準確度高，學習能力極強。

2、對雜訊數據魯棒性和容錯性較強。

3、有聯想能力，能逼近任意非線性關係。

二、神經網路缺點

1、神經網路參數較多，權值和閾值。

2、黑盒過程，不能觀察中間結果。

3、學習過程比較長，有可能陷入局部極小值。

三、人工神經網路應用領域

目前深度神經網路已經應用與計算機視覺，自然語言處理，語音識別等領域並取得很好的效果。

桃園 qq 地點貓咪桃園市 taoyuan xuan 根部尾巴有大桃園旅遊景點