天天看點

風控信用評分-(scorecard)記分卡開發流程,詳細介紹分數校準原理calibratio

難道你知道你的信用評分?您是否被拒絕信用,不知道為什麼?每個曾經借過錢申請信用卡、買車、買房或任何其他個人貸款的人都有信用檔案。貸方使用信用評分來确定誰有資格獲得貸款、利率是多少以及信用額度是多少。信用評分越高,貸方對客戶的信譽就越有信心。但是,信用評分不是正常信用報告的一部分。有一個數學公式可以将信用報告中的資料轉換成一個三位數的數字,供貸方用來做出信用決策,但機構用來計算信用評分的确切公式是一個秘密。
風控信用評分-(scorecard)記分卡開發流程,詳細介紹分數校準原理calibratio

該項目的目的是使用信用評分技術來評估向特定客戶貸款的風險并建構邏輯回歸記分卡(評分卡)模型。信用評分意味着應用統計模型為信用申請配置設定風險評分,它是一種基于預測模型的人工智能形式,可評估客戶違約信用義務、拖欠或資不抵債的可能性。

接下來,将詳細介紹如何使用信用評分來建構消費者信用評分卡。分析将包括探索性資料分析、變量選擇、模型建構和評分。

探索性資料分析

本項目中使用的信用評分資料集來自 Kaggle。在每個模組化過程的開始,要問的第一個問題是我們試圖通過模型預測什麼。在信用評分中,這是預測變量/因變量。它的二進制值為 1 或 0。值為 1 表示借款人拖欠并在過去 2 年拖欠貸款,而值為 0 表示借款人是好客戶并償還債務過去兩年準時。此處的因變量是“SeriousDiqin2yrs”,如下表第二列所示。

風控信用評分-(scorecard)記分卡開發流程,詳細介紹分數校準原理calibratio

                        圖 1. 探索資料——缺失值和異常值

大多數金融行業資料包含缺失值或對特定特征沒有意義的值是很常見的。如表所示,該資料集也有缺失值和異常值。由于我們使用邏輯回歸模型處理客戶信用度的估計,是以我們使用中位數估算缺失值并删除不合邏輯的值。

例如,'age' 變量是一個從 0 到 100 的連續變量。有一些記錄,其值為 0,這沒有意義,要成為借款人,該人必須是 18 歲的成年人年。是以,我們将這些值視為缺失值并選擇删除這些值。此外,“RevolvingUtilizationOfUnsecuredLines”功能是無擔保債務總額與無擔保信用額度總額的比率,此功能的值應介于 0 和 1 之間,但某些記錄的值大于 1。在這種情況下,“RevolvingUtilizationOfUnsecuredLines”功能中存在異常值,我們選擇使用頂部編碼方法對異常值進行預處理,這意味着所有高于上限的值将被任意設定為上限。

離散化預測器/分箱

分箱是指将數字特征轉換為分類特征以及重新分組和合并分類特征的過程。在記分卡的開發過程中,為什麼需要binning?原因是一些特征值很少會出現,如果不組合在一起會導緻不穩定。是以,将具有相似預測強度的相似屬性分組将提高記分卡的準确性。下面顯示了分組“年齡”功能的示例。

風控信用評分-(scorecard)記分卡開發流程,詳細介紹分數校準原理calibratio

                   圖 2. 分組“年齡”特征的示例  

記分卡——模型建構

在建構記分卡模型之前,還需要兩個額外的步驟。一個是計算Weight of Evidence,另一個是根據WoE 值計算Information Value(IV)。

為了驗證分箱結果,我們使用 WOE 值。在将連續變量分成幾個類别或将每個特征的離散變量分成幾個類别後,我們可以計算證據權重 (WoE) 值,然後将分類值替換為 WoE 值,WoE 值可以稍後用于構模組化型。有關 WoE 計算的詳細資訊,請參見以下部分。

證據權重 (WoE)

WoE 衡量特征的屬性在區分好賬戶和壞賬戶方面的強度,并基于每個組級别的好申請者與壞申請者的比例. 負值表示特定分組隔離的不良申請人比例高于優秀申請人。它是衡量每個屬性中商品和不良品比例差異的名額。例如,具有該屬性的人的好壞和負 WoE 值的幾率更差,因為該組中的申請人呈現更大的信用風險。對于特征 WOE 的每個組 i,計算如下:

風控信用評分-(scorecard)記分卡開發流程,詳細介紹分數校準原理calibratio

                                                圖 3. 'age' 特征的 WoE 結果示例

一旦我們完成對變量的分組和計算 WoE,我們将按資訊值(IV)對變量進行排序以篩選和選擇變量。關于 IV 計算的詳細資訊在以下部分。

資訊價值(IV)

資訊價值來自資訊論,并使用以下公式進行衡量。資訊值用于評估特征整體預測能力。

風控信用評分-(scorecard)記分卡開發流程,詳細介紹分數校準原理calibratio

IV 是變量選擇的一個友善的經驗法則。

風控信用評分-(scorecard)記分卡開發流程,詳細介紹分數校準原理calibratio

請注意,NumberRealEstateLoansOrLines 的資訊值為 0.116,這幾乎不落在中等預測變量的範圍内,而且是不可預測的。通常,選擇具有中等和強預測能力的變量進行模型開發。是以,我們進行特征選擇,根據IV值從9個特征中選擇8個特征,如下面紅色高亮框所示。

風控信用評分-(scorecard)記分卡開發流程,詳細介紹分數校準原理calibratio

記分卡開發

我們使用邏輯回歸模型處理評分函數的模組化和客戶信用度的估計。回歸系數用于縮放記分卡。縮放記分卡是指使記分卡符合特定的分數範圍。記分卡開發的大圖如下所示。

風控信用評分-(scorecard)記分卡開發流程,詳細介紹分數校準原理calibratio
分數縮放

縮放記分卡是指使記分卡符合特定範圍的分數,并使用回歸系數來縮放記分卡。Logistic 回歸模型是線性模型,其中 logit 轉換的預測機率是預測變量值的線性函數。是以,以這種方式導出的最終記分卡模型具有理想的品質,即最終信用評分(信用風險)是預測變量的線性函數,并且對模型參數應用了一些額外的變換,一個簡單的分數線性函數可以粗編碼後與每個預測器類值相關聯。是以,最終的信用評分是可以從記分卡中擷取的單個評分值的簡單總和。

對于每個屬性,其證據權重 (WoE) 及其特征的回歸系數現在可以相乘,以給出該屬性的分數。然後,申請人的總分将與該申請人預測的壞/好幾率的對數成正比。

風控信用評分-(scorecard)記分卡開發流程,詳細介紹分數校準原理calibratio
分數縮放/分數校準機制

在積分卡或評分卡模組化中,我們通常會把邏輯回歸輸出的機率分(probability)轉換為整數分(Score),稱之為評分卡分數校準,英文釋義為calibration。更标準或學術釋義為尺度變換,英文為scaling。隻是很多書籍和網際網路傳播文章中并不嚴格區分校準和尺度變換,統稱為風險校準。

常見信用評分就是最終以這種形式呈現,例如:

    1. 芝麻分的分值範圍為350~950,分值越高代表信用越好,相應違約率相對較低,較高的芝麻分可以幫助使用者獲得更高效、更優質的服務。

    2. FICO分的分值範圍為300~850,分數越高, 說明客戶的信用風險越小。

風控信用評分-(scorecard)記分卡開發流程,詳細介紹分數校準原理calibratio

但我們可能并不清楚這些問題:分數校準的概念是什麼?為什麼要做分數校準?分數校準的原理是什麼?如何做分數校準?在哪些場景裡需要做分數校準?

我們選擇對分數進行縮放,使得總分 600 分對應于 50 比 1 的好/壞賠率,而 20 分的增加對應于好/壞賠率的兩倍。

  • 标度——标度的選擇不影響記分卡的預測強度
  • “點數使賠率翻倍”(pdo = 20)
  • factor(因子) = pdo / ln(2)
  • Offset = Score — {Factor * ln(Odds)}
風控信用評分-(scorecard)記分卡開發流程,詳細介紹分數校準原理calibratio

備注:不要死記硬背上述公式,否則容易引起錯誤。

odds

odds通常翻譯為賠率,可定義為壞客戶機率/好客戶機率,也可以定義為好客戶機率/壞客戶機率,不同定義會影響到其它公式的正負号。

如果定義odds為壞客戶機率/好客戶機率,即p/(1-p), p為壞客戶機率

odds>1,表示壞客戶機率高于好客戶機率

odds<1,表示壞客戶機率低于好客戶機率

odds=1,表示壞客戶機率等于好客戶機率

odds是評分卡的核心機率,其一發而動全身,下面截圖是對odds和客戶校準分數關系的推理過程

風控信用評分-(scorecard)記分卡開發流程,詳細介紹分數校準原理calibratio

(圖檔來自:python信用評分卡模組化(附代碼)https://ke.qq.com/course/3063615?tuin=dcbf0ba

pdo

pdo為Points to Double the Odds的縮寫,表示odds翻一倍時候,增加分數例如,如果賠率從 100:1 增加到 200:1,分數會改變多少分。PDO 的常見預設值為 20,因為它會産生人們傾向于喜歡的信用評分範圍。

Po

Po中文釋義為基本分數;刻度使得比率時分數

A值

A值為好會客戶信用分臨界點(offset),公式為:

P0 + B*np.log(theta0)

例如A值為6.718,當客戶張三信用分score為10分時,大于A,表示好客戶

當客戶李四信用分score為5分時,小于A,表示壞客戶

風控信用評分-(scorecard)記分卡開發流程,詳細介紹分數校準原理calibratio

B值

B值為刻度因子(Factor)公式為:

PDO/np.log(2)

我們看看PDO,B值和score信用分三者之間關系

PDO越大,B值越大,score信用分跨度範圍越大,例如350-950

PDO越小,B值越小,score信用分跨度範圍越小,例如450-800

np.log

np是numpy縮寫,np.log表示無理數e為底數的對數函數。無理數e=2.718。下面圖檔是用python繪制e為底數的對數函數可視化圖檔

風控信用評分-(scorecard)記分卡開發流程,詳細介紹分數校準原理calibratio

我們再來看看odd與log(odds)關系:

odds>1,表示壞客戶機率高于好客戶機率0<log(odds)<1

odds<1,表示壞客戶機率低于好客戶機率對數情況:-1<LOG(odds)<0

odds=1,表示壞客戶機率等于好客戶機率對數情況:LOG(odds)=0

score

通過解釋上述所有評分卡相關變量意義和評分卡尺度變換後,最後我們可以計算使用者信用分數。ln(Odds)和Score之間是呈現線性關系。

score為該客戶信用分數;校準分數,其公式為

A-B*np.log(odds)

風控信用評分-(scorecard)記分卡開發流程,詳細介紹分數校準原理calibratio

為什麼評分卡最終選擇了邏輯回歸?其中一個原因是,邏輯回歸本身具有良好的校準度,其輸出機率與真實機率之間存在良好的一緻性。是以,我們也就可以直接把機率分數線形映射為整數分數。

Platt Scaling-其它機器學習算法分數校準

如果我們用機器學習模型(如XGBoost、随機森林等)來風控模組化,又希望把機率對标到真實機率,那麼我們就可以考慮Platt Scaling。

Platt Scaling是一種将分類輸出轉換為機率分布的方法。例如:如果訓練資料集中的因變量為 0 & 1,則使用此方法可以将其轉換為機率。

風控信用評分-(scorecard)記分卡開發流程,詳細介紹分數校準原理calibratio

如上圖,藍線更接近灰線,表明 Platt Scaling 實際上減少了 Log Loss 誤差名額。這裡要注意的最重要的一點是,使用 Platt Scaling 不會對其他名額(如準确性accuracy、AUC 等)産生明顯影響。

記分卡的決定

以下是使用分數公式的一個計算分數結果

風控信用評分-(scorecard)記分卡開發流程,詳細介紹分數校準原理calibratio

一般來說,截止分數會因一種貸款而異,也因貸方而異。有些貸款要求最低分數為 620,而有些貸款可能接受低于 620 的分數。是以,在獲得截止分數後,我們就可以決定是否準許貸款。下面來自線上的記分卡示例可以更好地了解它的工作原理。

風控信用評分-(scorecard)記分卡開發流程,詳細介紹分數校準原理calibratio
風控信用評分-(scorecard)記分卡開發流程,詳細介紹分數校準原理calibratio

結論

總的來說,預測模型通過利用客戶的曆史資料、同行組資料和其他資料來預測該客戶在未來的違約機率,進而從中學習。評分卡模型不僅可以識别“好”客戶和“壞”客戶,還可以預測好壞”客戶的機率,給與類似FICO350-850的信用評分。有了評分卡預測的違約機率和信用分數,以及其他業務線考慮因素,如預期準許率、利潤、流失和損失,業務線(如商品貸,汽車貸,現金貸)可以決策是否發放貸款給使用者。

難點

評分卡難點包含如何決定cutoff,評分卡公式了解。之前很多學生回報評分卡校準分數公式難以了解,其實這是由其本身難度決定。

評分卡公式包含A,B,po,pdo,賠率odds,對數函數ln,無理數e,邏輯回歸算法等諸多概念,橫跨數學,統計學,機器學習算法等領域。

要深入了解評分卡校準分數公式,需要不斷了解每個名額意義,練習測試計算。光聽我的課程還不夠的,熟能生巧,一邊聽,還要一邊看,這樣才能深入了解上述概念。

信用評分-(scorecard)記分卡開發流程和分數校準原理calibration就為大家介紹到這裡了,歡迎各位同學報名<python金融風控評分卡模型和資料分析微專業課>,通過教學視訊更好了解上述概念和學習更多相關知識

風控信用評分-(scorecard)記分卡開發流程,詳細介紹分數校準原理calibratio
風控信用評分-(scorecard)記分卡開發流程,詳細介紹分數校準原理calibratio
風控信用評分-(scorecard)記分卡開發流程,詳細介紹分數校準原理calibratio
風控信用評分-(scorecard)記分卡開發流程,詳細介紹分數校準原理calibratio
風控信用評分-(scorecard)記分卡開發流程,詳細介紹分數校準原理calibratio
風控信用評分-(scorecard)記分卡開發流程,詳細介紹分數校準原理calibratio
風控信用評分-(scorecard)記分卡開發流程,詳細介紹分數校準原理calibratio
風控信用評分-(scorecard)記分卡開發流程,詳細介紹分數校準原理calibratio
風控信用評分-(scorecard)記分卡開發流程,詳細介紹分數校準原理calibratio
風控信用評分-(scorecard)記分卡開發流程,詳細介紹分數校準原理calibratio
風控信用評分-(scorecard)記分卡開發流程,詳細介紹分數校準原理calibratio
風控信用評分-(scorecard)記分卡開發流程,詳細介紹分數校準原理calibratio
風控信用評分-(scorecard)記分卡開發流程,詳細介紹分數校準原理calibratio
風控信用評分-(scorecard)記分卡開發流程,詳細介紹分數校準原理calibratio
風控信用評分-(scorecard)記分卡開發流程,詳細介紹分數校準原理calibratio
風控信用評分-(scorecard)記分卡開發流程,詳細介紹分數校準原理calibratio
風控信用評分-(scorecard)記分卡開發流程,詳細介紹分數校準原理calibratio
風控信用評分-(scorecard)記分卡開發流程,詳細介紹分數校準原理calibratio
風控信用評分-(scorecard)記分卡開發流程,詳細介紹分數校準原理calibratio

版權聲明:文章來自公衆号(python風控模型),未經許可,不得抄襲。遵循CC 4.0 BY-SA版權協定,轉載請附上原文出處連結及本聲明。

繼續閱讀