3C科技 娛樂遊戲 美食旅遊 時尚美妝 親子育兒 生活休閒 金融理財 健康運動 寰宇綜合

Zi 字媒體

2017-07-25T20:27:27+00:00
加入好友
決策樹一、 決策樹優點1、決策樹易於理解和解釋,可以可視化分析,容易提取出規則。2、可以同時處理標稱型和數值型數據。3、測試數據集時,運行速度比較快。4、決策樹可以很好的擴展到大型資料庫中,同時它的大小獨立於資料庫大小。二、決策樹缺點1、對缺失數據處理比較困難。2、容易出現過擬合問題。3、忽略數據集中屬性的相互關聯。4、ID3演算法計算信息增益時結果偏向數值比較多的特徵。三、改進措施1、對決策樹進行剪枝。可以採用交叉驗證法和加入正則化的方法。2、使用基於決策樹的combination演算法,如bagging演算法,randomforest演算法,可以解決過擬合的問題四、應用領域企業管理實踐,企業投資決策,由於決策樹很好的分析能力,在決策過程應用較多。KNN演算法一、KNN演算法的優點1、KNN是一種在線技術,新數據可以直接加入數據集而不必進行重新訓練2、KNN理論簡單,容易實現二、KNN演算法的缺點1、對於樣本容量大的數據集計算量比較大。2、樣本不平衡時,預測偏差比較大。如:某一類的樣本比較少,而其它類樣本比較多。3、KNN每一次分類都會重新進行一次全局運算。4、k值大小的選擇。三、KNN演算法應用領域文本分類、模式識別、聚類分析,多分類領域支持向量機(SVM)一、 SVM優點1、解決小樣本下機器學習問題。2、解決非線性問題。3、無局部極小值問題。(相對於神經網路等演算法)4、可以很好的處理高維數據集。5、泛化能力比較強。二、SVM缺點1、對於核函數的高維映射解釋力不強,尤其是徑向基函數。2、對缺失數據敏感。三、SVM應用領域文本分類、圖像識別、主要二分類領域AdaBoost演算法一、 AdaBoost演算法優點1、很好的利用了弱分類器進行級聯。2、可以將不同的分類演算法作為弱分類器。3、AdaBoost具有很高的精度。4、相對於bagging演算法和Random Forest演算法,AdaBoost充分考慮的每個分類器的權重。二、Adaboost演算法缺點1、AdaBoost迭代次數也就是弱分類器數目不太好設定,可以使用交叉驗證來進行確定。2、數據不平衡導致分類精度下降。3、訓練比較耗時,每次重新選擇當前分類器最好切分點。三、AdaBoost應用領域模式識別、計算機視覺領域,用於二分類和多分類場景樸素貝葉斯演算法一、 樸素貝葉斯演算法優點1、對大數量訓練和查詢時具有較高的速度。即使使用超大規模的訓練集,針對每個項目通常也只會有相對較少的特徵數,並且對項目的訓練和分類也僅僅是特徵概率的數學運算而已。2、支持增量式運算。即可以實時的對新增的樣本進行訓練。3、樸素貝葉斯對結果解釋容易理解。二、樸素貝葉斯缺點1、由於使用了樣本屬性獨立性的假設,所以如果樣本屬性有關聯時其效果不好。三、樸素貝葉斯應用領域欺詐檢測中使用較多一封電子郵件是否是垃圾郵件一篇文章應該分到科技、政治,還是體育類一段文字表達的是積極的情緒還是消極的情緒?人臉識別Logistic回歸演算法一、logistic回歸優點1、計算代價不高,易於理解和實現二、logistic回歸缺點1、容易產生欠擬合。2、分類精度不高。三、logistic回歸應用領域用於二分類領域,可以得出概率值,適用於根據分類概率排名的領域,如搜索排名等。Logistic回歸的擴展softmax可以應用於多分類領域,如手寫字識別等。信用評估測量市場營銷的成功度預測某個產品的收益特定的某天是否會發生地震人工神經網路一、 神經網路優點1、分類準確度高,學習能力極強。2、對雜訊數據魯棒性和容錯性較強。3、有聯想能力,能逼近任意非線性關係。二、神經網路缺點1、神經網路參數較多,權值和閾值。2、黑盒過程,不能觀察中間結果。3、學習過程比較長,有可能陷入局部極小值。三、人工神經網路應用領域目前深度神經網路已經應用與計算機視覺,自然語言處理,語音識別等領域並取得很好的效果。

本文由yidianzixun提供 原文連結

寫了 5860316篇文章,獲得 23313次喜歡
精彩推薦