巴塞爾協定定義了金融風險類型:市場風險、作業風險、信用風險。信用風險ABC模型有進件申請評分、行為評分、催收評分。
————————————————————————————————————
一、資料準備
1、排除一些特定的模組化客戶
用于模組化的客戶或者申請者必須是日常審批過程中接觸到的,需要排除以下兩類人:
異常行為:銷戶、按條例拒絕、特殊賬戶;
特殊賬戶:出國、卡丢失/失竊、死亡、未成年、員工賬戶、VIP;
其他:欺詐(根據反欺詐評分)、主動銷戶者(流失評分)
2、解釋名額的選取
(1)申請評分所需名額
信用風險中,申請評分所采納的名額有很多,譬如可以參考FICO信用分中的一些,參考:筆記︱金融風險控制基礎常識——巴塞爾協定+信用評分卡Fico信用分
其中2.1FICO信用分的計算方法給出了一些評判标準
(2)行為評分所需名額
圖檔來自CDA-DSC課程中。
3、目标變量的确立
對于預測模組化,定義目标變量是最重要、對模組化結果影響最大的一步。銀行業信用評分解決方案預設的目标時間定義選擇二分類變量為:不良/逾期、良好。
不良/逾期:觀察視窗内,觀察視窗内,60/90/120天算逾期日期;
良好:從未或截止逾期;從未或在觀察期内截止逾期
其中關于不良/逾期需要界定以下兩項内容:确定違約日期時長、觀察視窗期設定。
————————————————————————————————————
二、确定違約日期時長、觀察視窗期設定
其中有兩個時期,觀察視窗期、預測視窗期。預測視窗期時間由賬齡分析擷取,觀察視窗期大約就是預測視窗的3-5倍。巴塞爾協定中規定預測視窗期一般為12個月,是以一般實務中以12個月為視窗期。在已知預測視窗期之下,通過轉移矩陣了解違約期具體時長。
(PS:雖然做了總結,但是還沒明白老師上課所講的,為什麼這麼做?怎麼出結果?)
評論區網友Love_sf留言:
視窗期為一年12個月,觀察視窗為預測視窗的3-5倍,即觀察視窗為9個月,預測視窗3個月,或者觀察視窗為10個月,預測視窗2個月,定義M2+或者M3+作為違約使用者,這樣才能用來模組化預測壞使用者出現機率。
1、違約日期的确定——轉移矩陣
不同賬期客戶轉移到更壞機率不同,選取顯著變化的節點。
圖中可以看出,第一個月不還拖欠到下一個月的機率為M0=7.96%,第二個月不還拖欠到下個月的有M1=57.26%,M2=64.48%,M3=79%,M4=83.77%。
從這裡可以看出,第五個月是一個拐點,說明第五月之後就很難催到賬務。是以,催帳日期可以選擇3月。同時,超過5月包括5月的都屬于違約行為。
2、違約視窗期設定——賬齡分析
一般情況下巴塞爾協定硬性要求12個月及以上作為視窗期。一般情況下,觀察視窗=3-5倍的預測視窗。
決定信用評等模型開發所需資料期間長度,一般會從最新資料的留存時點開始推算,利用賬齡分析觀察目标客戶的違約成熟期長度,借此設定觀察期長度(預測視窗的時間長度)。比如200901開卡的人,第10個月,穩定成熟了,績效時間可以确定為10-12個月;200902開卡的人,第11個月,穩定成熟了,11-12個月。
————————————————————————————————————
三、資料重編碼——WOE轉換
由于制作評分卡的某些需要,通常會在建立評分模型時将自變量(連續+離散都可以)做離散化處理(等寬切割,等高切割,或者利用決策樹來切割),但是模型本身沒辦法很好地直接接受分類自變量的輸入。是以信用評分卡中常用的WOE轉換。
WOE轉換=分箱法=Logit值,與等深、等寬不同是根據被解釋變量來重新定義一個WOE值(R語言︱噪聲資料處理、資料分組——分箱法(離散化、等級化))。
WOE的公式就是:WOE=ln(好客戶占比/壞客戶占比)*100%=優勢比
好客戶占比=數量(x︱y=好)/總人數
WOE轉化的優勢:提升模型的預測效果,提高模型的可了解性。
1、WOE與違約機率具有某種線性關系
進而通過這種WOE編碼可以發現自變量與目标變量之間的非線性關系(例如U型或者倒U型關系)。提升預測效果
2、WOE變量出現負值情況。
在此基礎上,我們可以預料到模型拟合出來的自變量系數應該都是正數,如果結果中出現了負數,應當考慮是否是來自自變量多重共線性的影響。
3、标準化的功能。
WOE編碼之後,自變量其實具備了某種标準化的性質,也就是說,自變量内部的各個取值之間都可以直接進行比較(WOE之間的比較),而不同自變量之間的各種取值也可以通過WOE進行直接的比較。
4、WOE能反映自變量的貢獻情況。
自變量内部WOE值的變異(波動)情況,結合模型拟合出的系數,構造出各個自變量的貢獻率及相對重要性。一般地,系數越大,woe的方差越大,則自變量的貢獻率越大(類似于某種方差貢獻率),這也能夠很直覺地了解。
5、異常值處理。
很多極值變量通過WOE可以變為非異常值.
譬如解決分類之後,一些案例個數過少的情況。案例個數過少的情況一般情況下可以合并,也可以用WOE轉化來實作。
轉化之後可能值變成這個樣子,跳躍很大,可以作為用蓋帽法等方法解決。
——————————————————————————————————————————
延伸案例一:機器學習算法基于信用卡消費記錄做信用評分
文章來源雲栖社群,作者傲海
資料集介紹
這是一份國外某機構開源的資料集,資料的内容包括每個使用者的一些性别、教育、婚姻、年齡等屬性,同時也包含使用者過去一段時間的信用卡消費情況和賬單情況。payment_next_month是目标隊列,表示使用者是否償還信用卡賬單,1表示償還,0表示沒有償還。 資料供30000條。 資料集下載下傳位址:https://www.kaggle.com/uciml/default-of-credit-card-clients-dataset 實驗流程 先來看下實驗圖:
現在對一些關鍵節點進行介紹: (1)拆分 将輸入資料集分為兩部分,一部分用來訓練模型,另一部分用來預測評估。 (2)分箱 分箱元件類似于onehot編碼,可以将資料按照分布映射成更高次元的特征。我們以age這個字段為例,分箱元件可以按照資料在不同區間的分布進行分享操作,分箱結果如圖:
最終分箱元件的輸出如圖,每個字段都被分箱到多個區間上:
(3)樣本穩定指數PSI 樣本穩定指數是衡量樣本變化所産生的偏移量的一種重要名額,通常用來衡量樣本的穩定程度,比如樣本在兩個月份之間的變化是否穩定。通常變量的PSI值在0.1以下表示變化不太顯著,在0.1到0.25之間表示有比較顯著的變化,大于0.25表示變量變化比較劇烈,需要特殊關注。 本案例中,可以綜合比較拆分前後以及分箱結果的樣本穩定程度,傳回每個特征的PSI數值:
(4)評分卡訓練 評分卡訓練的結果圖如下:
評分卡的精髓是将複雜的比較難了解的一些模型權重用符合業務标準的分數表示。
- intercepy表示的是截距
- Unscaled是原始的權重值
- Scaled是分數更改名額,比如對于pay_0這個特征,如果特征落在(-1,0]之間分數就減29,如果特征落在(0,1]之間分數就加上27.
- importance表示每個特征對于結果的影響大小,數值越大表示影響越大
(5)評分卡預測 展示每個預測結果的最終評分,在本案例中表示的是每個使用者的信用評分。
結論總結 基于使用者的信用卡消費記錄,最終通過評分卡模型的訓練,我們在評分卡預測中可以拿到每個使用者的最終信用評分,這個評分可以應用到其它的各種貸款或者金融相關的征信領域中去。評分卡相對于其他的模型的預測的優勢是将計算結果權重直接沉澱成直覺的分數,通過這樣的評分看模型,可以快速的了解每個使用者的信用分,每個客服人員的服務評分,每個手機的測評分數等等。