風控模組化還在用IV特征分箱“老方法”，何不試下這個更有效的實操

對于金融信貸産品，客戶違約預測是始終是風控模型體系的關鍵任務，隻有将客戶群體的風險控制在合理範圍内，才能有效實作業務的綜合收益。圍繞信貸業務的風控模組化，最經典的算法莫過于邏輯回歸，由于其理論依據明确，且業務解釋性較好，一直是金融信貸業務資料模組化的通用方法。以貸前風控的客戶違約預測場景為例，模型目标為是否違約兩種情況，選擇邏輯回歸二分類算法來構模組化型是一個首要選項。

在采用邏輯回歸建立模型的過程中，由于當模型訓練的拟合效果達到最佳時，入模特征的數量往往集中在10~15個範圍，是以為了較大程度保證模型拟合的效果，我們通常會采用特征工程的相關方法，來選取性能表現較好的變量作為模型訓練變量池。例如特征的相關性、預測性、穩定性、重要性等次元，其中特征預測性指的是特征資訊值IV（Information Value），即通過IV值大小來衡量特征對目标的區分度。但是，通過特征分箱輸出名額IV隻是我們習慣采用的一種特征分析方法，實際上随着特征分箱過程的實作，很容易得到特征各分箱區間的WOE值（Weight Of Evidence），而這個名額除了可用于分析特征分布趨勢的單調性情況之外，還有一個非常重要的資料轉化功能，那就是将原始資料進行WOE編碼，可以有效提升模型訓練的拟合效果。

為了更直覺說明特征分箱的效果，這裡舉個樣例進行描述，現有某特征經分箱處理後（分箱數量5），輸出的特征分箱資料如圖1所示。我們經常關注的是分箱iv列，取值越大說明對應分箱區間好壞差異越明顯，通過對各區間iv求和可得到特征整體IV值（0.013）。對于前邊3列（number、range、woe），若從樣本資料的形式來講，可以稱為特征分箱後可輸出的3種資料，分别為标簽資料、原始資料、WOE資料。

編輯

添加圖檔注釋，不超過 140 字（可選）

圖1 特征分箱資料分布

本文将要介紹的重點内容，并非“老生常談”的特征IV值，而是以上描述的特征分箱後3種類型資料，對模型拟合效果的性能差異。為了便于大家對此内容的深入了解，我們圍繞信貸業務常見的違約預測模型場景，通過模組化來詳細探究下特征分箱輸出資料（原始、标簽、WOE）的不同效果。

首先，我們簡要介紹下模組化場景，現有一批存量信貸使用者樣本，在一定觀察點相應的觀察期與表現期視窗提取了相關特征X與目标Y資料。其中，X資料是使用者觀察期的曆史行為表現，Y資料是使用者表現期的貸後還款狀态，具體為是否違約。本文選取的模組化資料包含6000條樣本與6個字段，部分資料樣例如圖2所示，其中ID為樣本主鍵，含義為使用者訂單号；Var01~Var4為特征變量，取值均為數值型；Target為目标變量，取值二分類（1/0），代表使用者貸後是否出現違約，二者比例約為2:3，非樣本不平衡情況。

編輯

添加圖檔注釋，不超過 140 字（可選）

圖2 模組化資料樣例

現以樣本其中一個特征為例（Var1），來介紹下特征分箱後可輸出的3種類型資料，這裡選用常見的等頻分箱方式來實作特征離散，分箱數量設定為10，具體過程詳見知識星球代碼詳情。，輸出結果如圖4所示。

編輯

添加圖檔注釋，不超過 140 字（可選）

圖4 特征分箱結果

針對以上特征分箱結果，我們可以看到目前特征的IV值為0.099，說明此變量對目标的預測能力尚可，明顯高于實際業務通常定義的門檻值0.02，可将其選入模型拟合的變量池。我們再來看特征分箱索引值number與分箱編碼值woe，若原始資料需轉換為此類資料，可結合特征相應區間range生成具體規則，進而在源資料上應用即可。例如，當606<Var1<=611，則Var1_num=2，Var1_woe=0.253548。按照這樣的資料轉換邏輯，我們可以将特征Var1的資料轉換規則編寫詳見知識星球代碼詳情。

對于其他特征Var2~Var4，與以上原理邏輯相同，這裡不再重複贅述，所有特征的資料轉換規則詳見本文附帶代碼，轉換後的模組化資料包含3種類型，分别為原始資料data（無需轉換）、分箱索引資料data_num、分箱WOE資料data_woe，最終生成的資料樣例如圖6、圖7所示。

編輯

添加圖檔注釋，不超過 140 字（可選）

圖6 特征分箱索引資料

編輯

添加圖檔注釋，不超過 140 字（可選）

圖7 特征分箱WOE資料

接下來我們根據以上資料來分别建立邏輯回歸模型，算法參數均采用統一預設值。同時，為了量化對比各模型的訓練效果，我們輸出模型評價名額Accuracy、AUC、KS，具體實作過程詳見知識星球代碼詳情。。

通過以上模型訓練與評估過程，輸出3種不同類型資料情況下的模型性能名額結果（Accuracy、AUC、KS），模型具體效果表現如圖9所示。

編輯

添加圖檔注釋，不超過 140 字（可選）

圖9 模型效果對比

由上圖可以看出，經過特征分箱的轉換資料（索引資料、WOE資料），在相同模型算法參數的條件下，訓練得到模型的效果均比原始資料表現較好。同時，WOE資料場景下的模型效果要優于索引資料，這個結論在Accuracy、AUC、KS各名額上都有展現。是以，采用邏輯回歸建構風控模型時，例如本例的客戶違約預測模型，我們通過特征分箱方式對變量進行分析時，根據輸出的特征IV值用于字段篩選隻是一種常用方法，而更重要的是對原始資料進行woe轉換，這樣有利于模型訓練拟合效果的提升。

綜合以上内容，我們圍繞信貸違約預測的模組化場景，通過特征分箱可輸出的3種不同類型資料，來對比分析模型訓練拟合的效果，最終也證明了WOE資料對模型性能有較明顯的提升作用。為了便于大家對以上内容的進一步了解與熟悉，本文額外附帶了Python代碼與樣本資料，詳情請移至知識星球檢視相關内容。

編輯

添加圖檔注釋，不超過 140 字（可選）

編輯

添加圖檔注釋，不超過 140 字（可選）

編輯切換為居中

添加圖檔注釋，不超過 140 字（可選）

...

~原創文章