Python機器學習實戰：信用卡欺詐檢測

故事背景：原始資料為個人交易記錄，但是考慮資料本身的隐私性，已經對原始資料進行了類似pca的處理，現在已經把特征資料提取好了，接下來的目的就是如何建立模型使得檢測的效果達到最好，這裡我們雖然不需要對資料做特征提取的操作，但是面對的挑戰還是蠻大的。

import pandas as pd

import matplotlib.pyplot as plt

import numpy as np

from sklearn.cross_validation import train_test_split

from sklearn.linear_model import logisticregression

from sklearn.cross_validation import kfold, cross_val_score

from sklearn.metrics import confusion_matrix,recall_score,classification_report

資料分析與模組化可不是體力活，時間就是金錢我的朋友(魔獸玩家都懂的!)如果你用python來把玩資料，那麼這些就是你的核武器啦。簡單介紹一下這幾位朋友!

numpy-科學計算庫主要用來做矩陣運算，什麼?你不知道哪裡會用到矩陣，那麼這樣想吧，咱們的資料就是行(樣本)和列(特征)組成的，那麼資料本身不就是一個矩陣嘛。

pandas-資料分析處理庫很多小夥伴都在說用python處理資料很容易，那麼容易在哪呢?其實有了pandas很複雜的操作我們也可以一行代碼去解決掉!

matplotlib-可視化庫無論是分析還是模組化，光靠好記性可不行，很有必要把結果和過程可視化的展示出來。

scikit-learn-機器學習庫非常實用的機器學習算法庫，這裡面包含了基本你覺得你能用上所有機器學習算法啦。但還遠不止如此，還有很多預處理和評估的子產品等你來挖掘的!

data = pd.read_csv("creditcard.csv") data.head()

首先我們用pandas将資料讀進來并顯示最開始的5行，看見木有!用pandas讀取資料就是這麼簡單!這裡的資料為了考慮使用者隐私等，已經通過pca處理過了，現在大家隻需要把資料當成是處理好的特征就好啦!

接下來我們核心的目的就是去檢測在資料樣本中哪些是具有欺詐行為的!

count_classes = pd.value_counts(data['class'], sort = true).sort_index()

count_classes.plot(kind = 'bar')

plt.title("fraud class histogram")

plt.xlabel("class")

plt.ylabel("frequency"

千萬不要着急去用機器學習算法模組化做這個分類問題。首先我們來觀察一下資料的分布情況，在資料樣本中有明确的label列指定了class為0代表正常情況，class為1代表發生了欺詐行為的樣本。從上圖中可以看出來。。。等等，你不是說有兩種情況嗎，為啥圖上隻有class為0的樣本啊?再仔細看看，納尼。。。class為1的并不是木有，而是太少了，少到基本看不出來了，那麼此時我們面對一個新的挑戰，樣本極度不均衡，接下來我們首先要解決這個問題，這個很常見也是很頭疼的問題。

這裡我們提出兩種解決方案也是資料分析中最常用的兩種方法，下采樣和過采樣!

先挑個軟柿子捏，下采樣比較簡單實作，咱們就先搞定第一種方案!下采樣的意思就是說，不是兩類資料不均衡嗎，那我讓你們同樣少(也就是1有多少個 0就消減成多少個)，這樣不就均衡了嗎。

很簡單的實作方法，在屬于0的資料中，進行随機的選擇，就選跟class為1的那類樣本一樣多就好了，那麼現在我們已經得到了兩組都是非常少的資料，接下來就可以模組化啦!不過在建立任何一個機器學習模型之前不要忘了一個正常的操作，就是要把資料集切分成訓練集和測試集，這樣會使得後續驗證的結果更為靠譜。

在訓練邏輯回歸的模型中做了一件非常正常的事情，就是對于一個模型，咱們再選擇一個算法的時候伴随着很多的參數要調節，那麼如何找到最合适的參數可不是一件簡單的事，依靠經驗值并不是十分靠譜，通常情況下我們需要大量的實驗也就是不斷去嘗試最終得出這些合适的參數。

不同c參數對應的最終模型效果：

c parameter: 0.01

iteration 1 : recall score = 0.958904109589

iteration 2 : recall score = 0.917808219178

iteration 3 : recall score = 1.0

iteration 4 : recall score = 0.972972972973

iteration 5 : recall score = 0.954545454545

mean recall score 0.960846151257

c parameter: 0.1

iteration 1 : recall score = 0.835616438356

iteration 2 : recall score = 0.86301369863

iteration 3 : recall score = 0.915254237288

iteration 4 : recall score = 0.932432432432

iteration 5 : recall score = 0.878787878788

mean recall score 0.885020937099

c parameter: 1

iteration 3 : recall score = 0.966101694915

iteration 4 : recall score = 0.945945945946

iteration 5 : recall score = 0.893939393939

mean recall score 0.900923434357

c parameter: 10

iteration 1 : recall score = 0.849315068493

iteration 4 : recall score = 0.959459459459

mean recall score 0.906365863087

c parameter: 100

iteration 1 : recall score = 0.86301369863

mean recall score 0.909105589115

best model to choose from cross validation is with c parameter = 0.01

在使用機器學習算法的時候，很重要的一部就是參數的調節，在這裡我們選擇使用最經典的分類算法，邏輯回歸!千萬别把邏輯回歸當成是回歸算法，它就是最實用的二分類算法!這裡我們需要考慮的c參數就是正則化懲罰項的力度，那麼如何選擇到最好的參數呢?這裡我們就需要交叉驗證啦，然後用不同的c參數去跑相同的資料，目的就是去看看啥樣的c參數能夠使得最終模型的效果最好!可以到不同的參數對最終的結果産生的影響還是蠻大的，這裡最好的方法就是用驗證集去尋找了!

模型已經造出來了，那麼怎麼評判哪個模型好，哪個模型不好呢?我們這裡需要好好想一想!

一般都是用精度來衡量，也就是常說的準确率，但是我們來想一想，我們的目的是什麼呢?是不是要檢測出來那些異常的樣本呀!換個例子來說，假如現在醫院給了我們一個任務要檢測出來1000個病人中，有癌症的那些人。那麼假設資料集中1000個人中有990個無癌症，隻有10個有癌症，我們需要把這10個人檢測出來。假設我們用精度來衡量，那麼即便這10個人沒檢測出來，也是有

990/1000

也就是99%的精度，但是這個模型卻沒任何價值!這點是非常重要的，因為不同的評估方法會得出不同的答案，一定要根據問題的本質，去選擇最合适的評估方法。

同樣的道理，這裡我們采用recall來計算模型的好壞，也就是說那些異常的樣本我們的檢測到了多少，這也是咱們最初的目的!這裡通常用混淆矩陣來展示。

這個圖就非常漂亮了!(并不是說畫的好而是展示的很直接)從圖中可以清晰的看到原始資料中樣本的分布以及我們的模型的預測結果，那麼recall是怎麼算出來的呢?就是用我們的檢測到的個數(137)去除以總共異常樣本的個數(10+137)，用這個數值來去評估我們的模型。利用混淆矩陣我們可以很直覺的考察模型的精度以及recall，也是非常推薦大家在評估模型的時候不妨把這個圖亮出來可以幫助咱們很直覺的看清楚現在模型的效果以及存在的問題。

這可還木有完事，我們剛才隻是在下采樣的資料集中去進行測試的，那麼這份測試還不能完全可信，因為它并不是原始的測試集，我們需要在原始的，大量的測試集中再次去衡量目前模型的效果。可以看到效果其實還不錯，但是哪塊有些問題呢，是不是我們誤殺了很多呀，有些樣本并不是異常的，但是并我們錯誤的當成了異常的，這個現象其實就是下采樣政策本身的一個缺陷。

對于邏輯回歸算法來說，我們還可以指定這樣一個門檻值，也就是說最終結果的機率是大于多少我們把它當成是正或者負樣本。不用的門檻值會對結果産生很大的影響。

上圖中我們可以看到不用的門檻值産生的影響還是蠻大的，門檻值較小，意味着我們的模型非常嚴格甯肯錯殺也不肯放過，這樣會使得絕大多數樣本都被當成了異常的樣本，recall很高，精度稍低

當門檻值較大的時候我們的模型就稍微寬松些啦，這個時候會導緻recall很低，精度稍高，綜上當我們使用邏輯回歸算法的時候，還需要根據實際的應用場景來選擇一個最恰當的門檻值!

說完了下采樣政策，我們繼續唠一下過采樣政策，跟下采樣相反，現在咱們的政策是要讓class為0和1的樣本一樣多，也就是我們需要去進行資料的生成啦。

smote算法是用的非常廣泛的資料生成政策，流程可以參考上圖，還是非常簡單的，下面我們使用現成的庫來幫助我們完成過采樣資料生成政策。

很簡單的幾步操作我們就完成過采樣政策，那麼現在正負樣本就是一樣多的啦，都有那麼20多w個，現在我們再通過混淆矩陣來看一下，邏輯回歸應用于過采樣樣本的效果。資料增強的應用面已經非常廣了，對于很多機器學習或者深度學習問題，這已經成為了一個正常套路啦!

我們對比一下下采樣和過采樣的效果，可以說recall的效果都不錯，都可以檢測到異常樣本，但是下采樣是不是誤殺的比較少呀，是以如果我們可以進行資料生成，那麼在處理樣本資料不均衡的情況下，過采樣是一個可以嘗試的方案!

總結：對于一個機器學習案例來說，一份資料肯定伴随着很多的挑戰和問題，那麼最為重要的就是我們該怎麼解決這一系列的問題，大牛們不見得代碼寫的比咱們強但是他們卻很清楚如何去解決問題。今天咱們講述了一個以檢測任務為背景的案例，其中涉及到如何處理樣本不均衡問題，以及模型評估選擇的方法，最後給出了邏輯回歸在不用門檻值下的結果。這裡也是希望同學們可以通過案例多多積攢經驗，早日成為大牛。

作者：佚名

來源：51cto

Python機器學習實戰：信用卡欺詐檢測

繼續閱讀

libsvm for python 安裝

學習軟體測試基礎測試第七天

Zeppelin 配置通路 REST APIApache Zeppelin Configuration REST API

【Torch】最簡潔logging使用指南

筆試面試題目：滑動視窗(二)

27. Remove Element(清單)題目代碼

資料結構與算法（27）——排序（二）

Dijkstra--簡易版（最短路徑）

GitHub連夜封殺！這份阿裡 10W 字内部 Java 字面試手冊到底有多強？

Cloud Studio初體驗

使用 ctypes 進行 Python 和 C 的混合程式設計

【python】【資料處理】畫多元資料分布圖

【python】netconf協定對接管理裝置

「Python 網絡自動化」NETCONF —— Python 使用 NETCONF 管理配置 H3C 網絡裝置

在python中建立excel并寫入

hdu7108哈希