Zi 字媒體

機器學習實戰：Python信用卡欺詐檢測

2021/12/25

【先鋒導讀】對信用卡交易數據建立檢測模型，使用Python庫進行預處理與機器學習建模工作，代碼通俗易懂。包括數據預處理與清洗，模型調參與評估等詳細數據分析與建模流程。

故事背景與Python環境

故事背景：原始數據為個人交易記錄，但是考慮數據本身的隱私性，已經對原始數據進行了類似PCA的處理，現在已經把特徵數據提取好了，接下來的目的就是如何建立模型使得檢測的效果達到最好，這裡我們雖然不需要對數據做特徵提取的操作，但是面對的挑戰還是蠻大的。

數據分析與建模可不是體力活，時間就是金錢我的朋友（魔獸玩家都懂的！）如果你用Python來把玩數據，那麼這些就是你的核武器啦。簡單介紹一下這幾位朋友！ Numpy-科學計算庫 主要用來做矩陣運算，什麼？你不知道哪裡會用到矩陣，那麼這樣想吧，咱們的數據就是行（樣本）和列（特徵）組成的，那麼數據本身不就是一個矩陣嘛。 Pandas-數據分析處理庫 很多小夥伴都在說用Python處理數據很容易，那麼容易在哪呢？其實有了pandas很複雜的操作我們也可以一行代碼去解決掉！ Matplotlib-可視化庫 無論是分析還是建模，光靠好記性可不行，很有必要把結果和過程可視化的展示出來。 Scikit-Learn-機器學習庫 非常實用的機器學習演算法庫，這裡面包含了基本你覺得你能用上所有機器學習演算法啦。但還遠不止如此，還有很多預處理和評估的模塊等你來挖掘的！

首先我們用pandas將數據讀進來並顯示最開始的5行，看見木有！用pandas讀取數據就是這麼簡單！這裡的數據為了考慮用戶隱私等，已經通過PCA處理過了，現在大家只需要把數據當成是處理好的特徵就好啦！（數據和代碼下載見文末）

數據分析

接下來我們核心的目的就是去檢測在數據樣本中哪些是具有欺詐行為的！

千萬不要著急去用機器學習演算法建模做這個分類問題。首先我們來觀察一下數據的分佈情況，在數據樣本中有明確的label列指定了class為0代表正常情況，class為1代表發生了欺詐行為的樣本。從上圖中可以看出來。。。等等，你不是說有兩種情況嗎，為啥圖上只有class為0的樣本啊？再仔細看看，納尼。。。class為1的並不是木有，而是太少了，少到基本看不出來了，那麼此時我們面對一個新的挑戰，樣本極度不均衡，接下來我們首先要解決這個問題，這個很常見也是很頭疼的問題。

這裡我們提出兩種解決方案 也是數據分析中最常用的兩種方法，下採樣和過採樣！

先挑個軟柿子捏，下採樣比較簡單實現，咱們就先搞定第一種方案！下採樣的意思就是說，不是兩類數據不均衡嗎，那我讓你們同樣少（也就是1有多少個 0就消減成多少個），這樣不就均衡了嗎。

很簡單的實現方法，在屬於0的數據中，進行隨機的選擇，就選跟class為1的那類樣本一樣多就好了，那麼現在我們已經得到了兩組都是非常少的數據，接下來就可以建模啦！不過在建立任何一個機器學習模型之前不要忘了一個常規的操作，就是要把數據集切分成訓練集和測試集，這樣會使得後續驗證的結果更為靠譜。

在訓練邏輯回歸的模型中做了一件非常常規的事情，就是對於一個模型，咱們再選擇一個演算法的時候伴隨著很多的參數要調節，那麼如何找到最合適的參數可不是一件簡單的事，依靠經驗值並不是十分靠譜，通常情況下我們需要大量的實驗也就是不斷去嘗試最終得出這些合適的參數。（代碼有些長就不貼了，建議直接看源碼）

邏輯回歸模型

萬能的邏輯回歸，解決分類問題的最佳演算法

在使用機器學習演算法的時候，很重要的一部就是參數的調節，在這裡我們選擇使用最經典的分類演算法，邏輯回歸！千萬別把邏輯回歸當成是回歸演算法，它就是最實用的二分類演算法！這裡我們需要考慮的c參數就是正則化懲罰項的力度，那麼如何選擇到最好的參數呢？這裡我們就需要交叉驗證啦，然後用不同的C參數去跑相同的數據，目的就是去看看啥樣的C參數能夠使得最終模型的效果最好！可以到不同的參數對最終的結果產生的影響還是蠻大的，這裡最好的方法就是用驗證集去尋找了！

模型已經造出來了，那麼怎麼評判哪個模型好，哪個模型不好呢？我們這裡需要好好想一想！

一般都是用精度來衡量，也就是常說的準確率，但是我們來想一想，我們的目的是什麼呢？是不是要檢測出來那些異常的樣本呀！換個例子來說，假如現在醫院給了我們一個任務要檢測出來1000個病人中，有癌症的那些人。那麼假設數據集中1000個人中有990個無癌症，只有10個有癌症，我們需要把這10個人檢測出來。假設我們用精度來衡量，那麼即便這10個人沒檢測出來，也是有 990/1000 也就是99%的精度，但是這個模型卻沒任何價值！這點是非常重要的，因為不同的評估方法會得出不同的答案，一定要根據問題的本質，去選擇最合適的評估方法。

同樣的道理，這裡我們採用recall來計算模型的好壞，也就是說那些異常的樣本我們的檢測到了多少，這也是咱們最初的目的！這裡通常用混淆矩陣來展示。

這個圖就非常漂亮了！（並不是說畫的好而是展示的很直接）從圖中可以清晰的看到原始數據中樣本的分佈以及我們的模型的預測結果，那麼recall是怎麼算出來的呢？就是用我們的檢測到的個數（137）去除以總共異常樣本的個數（10+137），用這個數值來去評估我們的模型。利用混淆矩陣我們可以很直觀的考察模型的精度以及recall，也是非常推薦大家在評估模型的時候不妨把這個圖亮出來可以幫助咱們很直觀的看清楚現在模型的效果以及存在的問題。

這可還木有完事，我們剛才只是在下採樣的數據集中去進行測試的，那麼這份測試還不能完全可信，因為它並不是原始的測試集，我們需要在原始的，大量的測試集中再次去衡量當前模型的效果。可以看到效果其實還不錯，但是哪塊有些問題呢，是不是我們誤殺了很多呀，有些樣本並不是異常的，但是並我們錯誤的當成了異常的，這個現象其實就是下採樣策略本身的一個缺陷。

對於邏輯回歸演算法來說，我們還可以指定這樣一個閾值，也就是說最終結果的概率是大於多少我們把它當成是正或者負樣本。不用的閾值會對結果產生很大的影響。

上圖中我們可以看到不用的閾值產生的影響還是蠻大的，閾值較小，意味著我們的模型非常嚴格寧肯錯殺也不肯放過，這樣會使得絕大多數樣本都被當成了異常的樣本，recall很高，精度稍低 當閾值較大的時候我們的模型就稍微寬鬆些啦，這個時候會導致recall很低，精度稍高，綜上當我們使用邏輯回歸演算法的時候，還需要根據實際的應用場景來選擇一個最恰當的閾值！

過採樣數據生成策略

SMOTE演算法生成大量異常數據

說完了下採樣策略，我們繼續嘮一下過採樣策略，跟下採樣相反，現在咱們的策略是要讓class為0和1的樣本一樣多，也就是我們需要去進行數據的生成啦。

SMOTE演算法是用的非常廣泛的數據生成策略，流程可以參考上圖，還是非常簡單的，下面我們使用現成的庫來幫助我們完成過採樣數據生成策略。

演算法流程如下：

(1)對於少數類中每一個樣本x，以歐氏距離為標準計算它到少數類樣本集中所有樣本的距離，得到其k近鄰。 (2)根據樣本不平衡比例設置一個採樣比例以確定採樣倍率N，對於每一個少數類樣本x，從其k近鄰中隨機選擇若干個樣本，假設選擇的近鄰為xn。 (3)對於每一個隨機選出的近鄰xn，分別與原樣本按照如下的公式構建新的樣本。

很簡單的幾步操作我們就完成過採樣策略，那麼現在正負樣本就是一樣多的啦，都有那麼20多W個，現在我們再通過混淆矩陣來看一下，邏輯回歸應用於過採樣樣本的效果。數據增強的應用面已經非常廣了，對於很多機器學習或者深度學習問題，這已經成為了一個常規套路啦！

我們對比一下下採樣和過採樣的效果，可以說recall的效果都不錯，都可以檢測到異常樣本，但是下採樣是不是誤殺的比較少呀，所以如果我們可以進行數據生成，那麼在處理樣本數據不均衡的情況下，過採樣是一個可以嘗試的方案！

總結：對於一個機器學習案例來說，一份數據肯定伴隨著很多的挑戰和問題，那麼最為重要的就是我們該怎麼解決這一系列的問題，大牛們不見得代碼寫的比咱們強但是他們卻很清楚如何去解決問題。今天咱們講述了一個以檢測任務為背景的案例，其中涉及到如何處理樣本不均衡問題，以及模型評估選擇的方法，最後給出了邏輯回歸在不用閾值下的結果。這裡也是希望同學們可以通過案例多多積攢經驗，早日成為大牛。

註：

本文由 數據先鋒 投稿數據猿發布。

歡迎更多大數據企業、愛好者投稿數據猿，來稿請直接投遞至：[email protected]

桃園 qq 地點貓咪桃園市 taoyuan xuan 根部尾巴有大桃園旅遊景點