天天看點

【機器學習PAI實踐十二】機器學習算法基于信用卡消費記錄做信用評分

如果你是做網際網路金融的,那麼一定聽說過評分卡。評分卡是信用風險評估領域常用的模組化方法,評分卡并不簡單對應于某一種機器學習算法,而是一種通用的模組化架構,将原始資料通過分箱後進行特征工程變換,繼而應用于線性模型進行模組化的一種方法。

評分卡模組化理論常被用于各種信用評估領域,比如信用卡風險評估、貸款發放等業務。另外,在其它領域評分卡常被用來作為分數評估,比如常見的客服品質打分、芝麻信用分打分等等。在本文中,我們将通過一個案例為大家講解如何通過PAI平台的金融闆塊元件,搭建出一套評分卡模組化方案。

本實驗案例可在機器學習PAI平台使用,包含整個實驗流程和資料:

【機器學習PAI實踐十二】機器學習算法基于信用卡消費記錄做信用評分
【機器學習PAI實踐十二】機器學習算法基于信用卡消費記錄做信用評分

這是一份國外某機構開源的資料集,資料的内容包括每個使用者的一些性别、教育、婚姻、年齡等屬性,同時也包含使用者過去一段時間的信用卡消費情況和賬單情況。payment_next_month是目标隊列,表示使用者是否償還信用卡賬單,1表示償還,0表示沒有償還。

資料供30000條。

先來看下實驗圖:

【機器學習PAI實踐十二】機器學習算法基于信用卡消費記錄做信用評分

現在對一些關鍵節點進行介紹:

(1)拆分

将輸入資料集分為兩部分,一部分用來訓練模型,另一部分用來預測評估。

(2)分箱

分箱元件類似于onehot編碼,可以将資料按照分布映射成更高次元的特征。我們以age這個字段為例,分箱元件可以按照資料在不同區間的分布進行分享操作,分箱結果如圖:

【機器學習PAI實踐十二】機器學習算法基于信用卡消費記錄做信用評分

最終分箱元件的輸出如圖,每個字段都被分箱到多個區間上:

【機器學習PAI實踐十二】機器學習算法基于信用卡消費記錄做信用評分

(3)樣本穩定指數PSI

樣本穩定指數是衡量樣本變化所産生的偏移量的一種重要名額,通常用來衡量樣本的穩定程度,比如樣本在兩個月份之間的變化是否穩定。通常變量的PSI值在0.1以下表示變化不太顯著,在0.1到0.25之間表示有比較顯著的變化,大于0.25表示變量變化比較劇烈,需要特殊關注。

本案例中,可以綜合比較拆分前後以及分箱結果的樣本穩定程度,傳回每個特征的PSI數值:

【機器學習PAI實踐十二】機器學習算法基于信用卡消費記錄做信用評分

(4)評分卡訓練

評分卡訓練的結果圖如下:

【機器學習PAI實踐十二】機器學習算法基于信用卡消費記錄做信用評分

評分卡的精髓是将複雜的比較難了解的一些模型權重用符合業務标準的分數表示。

intercepy表示的是截距

Unscaled是原始的權重值

Scaled是分數更改名額,比如對于pay_0這個特征,如果特征落在(-1,0]之間分數就減29,如果特征落在(0,1]之間分數就加上27.

importance表示每個特征對于結果的影響大小,數值越大表示影響越大

(5)評分卡預測

展示每個預測結果的最終評分,在本案例中表示的是每個使用者的信用評分。

【機器學習PAI實踐十二】機器學習算法基于信用卡消費記錄做信用評分

基于使用者的信用卡消費記錄,最終通過評分卡模型的訓練,我們在評分卡預測中可以拿到每個使用者的最終信用評分,這個評分可以應用到其它的各種貸款或者金融相關的征信領域中去。

作者微信公衆号(與作者讨論):

【機器學習PAI實踐十二】機器學習算法基于信用卡消費記錄做信用評分

繼續閱讀