天天看點

風控模組化還在用IV特征分箱“老方法”,何不試下這個更有效的實操

對于金融信貸産品,客戶違約預測是始終是風控模型體系的關鍵任務,隻有将客戶群體的風險控制在合理範圍内,才能有效實作業務的綜合收益。圍繞信貸業務的風控模組化,最經典的算法莫過于邏輯回歸,由于其理論依據明确,且業務解釋性較好,一直是金融信貸業務資料模組化的通用方法。以貸前風控的客戶違約預測場景為例,模型目标為是否違約兩種情況,選擇邏輯回歸二分類算法來構模組化型是一個首要選項。

在采用邏輯回歸建立模型的過程中,由于當模型訓練的拟合效果達到最佳時,入模特征的數量往往集中在10~15個範圍,是以為了較大程度保證模型拟合的效果,我們通常會采用特征工程的相關方法,來選取性能表現較好的變量作為模型訓練變量池。例如特征的相關性、預測性、穩定性、重要性等次元,其中特征預測性指的是特征資訊值IV(Information Value),即通過IV值大小來衡量特征對目标的區分度。但是,通過特征分箱輸出名額IV隻是我們習慣采用的一種特征分析方法,實際上随着特征分箱過程的實作,很容易得到特征各分箱區間的WOE值(Weight Of Evidence),而這個名額除了可用于分析特征分布趨勢的單調性情況之外,還有一個非常重要的資料轉化功能,那就是将原始資料進行WOE編碼,可以有效提升模型訓練的拟合效果。

為了更直覺說明特征分箱的效果,這裡舉個樣例進行描述,現有某特征經分箱處理後(分箱數量5),輸出的特征分箱資料如圖1所示。我們經常關注的是分箱iv列,取值越大說明對應分箱區間好壞差異越明顯,通過對各區間iv求和可得到特征整體IV值(0.013)。對于前邊3列(number、range、woe),若從樣本資料的形式來講,可以稱為特征分箱後可輸出的3種資料,分别為标簽資料、原始資料、WOE資料。

風控模組化還在用IV特征分箱“老方法”,何不試下這個更有效的實操

編輯

添加圖檔注釋,不超過 140 字(可選)

圖1 特征分箱資料分布

本文将要介紹的重點内容,并非“老生常談”的特征IV值,而是以上描述的特征分箱後3種類型資料,對模型拟合效果的性能差異。為了便于大家對此内容的深入了解,我們圍繞信貸業務常見的違約預測模型場景,通過模組化來詳細探究下特征分箱輸出資料(原始、标簽、WOE)的不同效果。

首先,我們簡要介紹下模組化場景,現有一批存量信貸使用者樣本,在一定觀察點相應的觀察期與表現期視窗提取了相關特征X與目标Y資料。其中,X資料是使用者觀察期的曆史行為表現,Y資料是使用者表現期的貸後還款狀态,具體為是否違約。本文選取的模組化資料包含6000條樣本與6個字段,部分資料樣例如圖2所示,其中ID為樣本主鍵,含義為使用者訂單号;Var01~Var4為特征變量,取值均為數值型;Target為目标變量,取值二分類(1/0),代表使用者貸後是否出現違約,二者比例約為2:3,非樣本不平衡情況。

風控模組化還在用IV特征分箱“老方法”,何不試下這個更有效的實操

編輯

添加圖檔注釋,不超過 140 字(可選)

圖2 模組化資料樣例

現以樣本其中一個特征為例(Var1),來介紹下特征分箱後可輸出的3種類型資料,這裡選用常見的等頻分箱方式來實作特征離散,分箱數量設定為10,具體過程詳見知識星球代碼詳情。,輸出結果如圖4所示。

風控模組化還在用IV特征分箱“老方法”,何不試下這個更有效的實操

編輯

添加圖檔注釋,不超過 140 字(可選)

圖4 特征分箱結果

針對以上特征分箱結果,我們可以看到目前特征的IV值為0.099,說明此變量對目标的預測能力尚可,明顯高于實際業務通常定義的門檻值0.02,可将其選入模型拟合的變量池。我們再來看特征分箱索引值number與分箱編碼值woe,若原始資料需轉換為此類資料,可結合特征相應區間range生成具體規則,進而在源資料上應用即可。例如,當606<Var1<=611,則Var1_num=2,Var1_woe=0.253548。按照這樣的資料轉換邏輯,我們可以将特征Var1的資料轉換規則編寫詳見知識星球代碼詳情。

對于其他特征Var2~Var4,與以上原理邏輯相同,這裡不再重複贅述,所有特征的資料轉換規則詳見本文附帶代碼,轉換後的模組化資料包含3種類型,分别為原始資料data(無需轉換)、分箱索引資料data_num、分箱WOE資料data_woe,最終生成的資料樣例如圖6、圖7所示。

風控模組化還在用IV特征分箱“老方法”,何不試下這個更有效的實操

編輯

添加圖檔注釋,不超過 140 字(可選)

圖6 特征分箱索引資料

風控模組化還在用IV特征分箱“老方法”,何不試下這個更有效的實操

編輯

添加圖檔注釋,不超過 140 字(可選)

圖7 特征分箱WOE資料

接下來我們根據以上資料來分别建立邏輯回歸模型,算法參數均采用統一預設值。同時,為了量化對比各模型的訓練效果,我們輸出模型評價名額Accuracy、AUC、KS,具體實作過程詳見知識星球代碼詳情。。

通過以上模型訓練與評估過程,輸出3種不同類型資料情況下的模型性能名額結果(Accuracy、AUC、KS),模型具體效果表現如圖9所示。

風控模組化還在用IV特征分箱“老方法”,何不試下這個更有效的實操

編輯

添加圖檔注釋,不超過 140 字(可選)

圖9 模型效果對比

由上圖可以看出,經過特征分箱的轉換資料(索引資料、WOE資料),在相同模型算法參數的條件下,訓練得到模型的效果均比原始資料表現較好。同時,WOE資料場景下的模型效果要優于索引資料,這個結論在Accuracy、AUC、KS各名額上都有展現。是以,采用邏輯回歸建構風控模型時,例如本例的客戶違約預測模型,我們通過特征分箱方式對變量進行分析時,根據輸出的特征IV值用于字段篩選隻是一種常用方法,而更重要的是對原始資料進行woe轉換,這樣有利于模型訓練拟合效果的提升。

綜合以上内容,我們圍繞信貸違約預測的模組化場景,通過特征分箱可輸出的3種不同類型資料,來對比分析模型訓練拟合的效果,最終也證明了WOE資料對模型性能有較明顯的提升作用。為了便于大家對以上内容的進一步了解與熟悉,本文額外附帶了Python代碼與樣本資料,詳情請移至知識星球檢視相關内容。

風控模組化還在用IV特征分箱“老方法”,何不試下這個更有效的實操

編輯

添加圖檔注釋,不超過 140 字(可選)

風控模組化還在用IV特征分箱“老方法”,何不試下這個更有效的實操

編輯

添加圖檔注釋,不超過 140 字(可選)

風控模組化還在用IV特征分箱“老方法”,何不試下這個更有效的實操

編輯切換為居中

添加圖檔注釋,不超過 140 字(可選)

...

~原創文章