天天看點

金融科技|風控模組化技術方案

風控模組化的技術方案

1

邏輯回歸模型

在銀行的傳統評分卡模組化中,應用的也是邏輯回歸模型。邏輯回歸本質上是一個線性分類模型。如果特征和标簽并不是單調的增減關系,必須要做特征的分箱處理,及把特征值的主值區間劃分為若幹段,1個連續值特征會變為n個0-1取值的one-hot特征。對于金融科技公司在模組化所遇到的大量的弱特征,如何挖掘多個特征之間的互補性,産生組合的分箱特征是一個技術挑戰。暴力的NxN組合甚至更高維的特征組合,将導緻特征次元的組合爆炸,依賴于模型和算力來進行模型挑選,是一個耗費機器算法的方案。而人工了解特征之間的相關性和互補性後,進行特征的分箱組合的方法,在海量特征次元面前基本不可行。

2

樹模型

Xgboost、GBDT、和RandomForest都是應用多棵決策樹模型的組合,來對特征進行切分組合并得到最終每一塊小的高維空間的拟合得分。首先,樹模型能夠自動的從資料裡得到特征的分箱邊界和分箱特征的組合,例如如果我們選擇樹深度為3,那麼得到的樹模型的每一顆樹的從根到葉子節點的路徑是3個分箱特征的組合。其次,Xgboost和GBDT考慮了樹和樹之間的互補性,在特征選擇上傾向選互補性強的特征組合。此外,樹模型也是一個能很好處理上千甚至上萬次元的連續值特征資料的模組化方法。是以,在處理大量的高次元弱特征資料時樹模型有很廣泛的應用,并取得了出色的實際效果。

3

樹模型和邏輯回歸模型的結合

因為樹模型能夠很好的發掘特征的非線性特性和分箱特征的組合關系,而邏輯回歸模型在分箱特征上有不弱于樹模型的資料拟合能力,但有着計算簡單和訓練疊代快速的優勢。是以,利用樹模型在海量曆史資料上訓練得到一個模型來進行特征的分箱、離散化和二值化,然後利用邏輯回歸模型基于分箱特征用最新的樣本資料對模型進行增量更新,是一個可以充分利用樹模型的特征組合挖掘能力和邏輯回歸模型的快速疊代更新能力的技術方案。

4

深度學習模型

基于深度學習的技術路線會面臨兩個挑戰。一方面,深度學習模型都有很高的模型複雜度,需要大規模的樣本資料,而風控領域要擷取大規模的樣本資料的成本極高。而且,不同時間段、不同機構的放款資料是否具有穩定可發掘的模式、可互相遷移,也有待模組化試驗檢驗。另一方面,如前所述風控特征資料的次元間是平行的,不存在鄰近關系,較難利用CNN和RNN這樣具有較好實體含義的深度學習模型,而簡單的堆砌若幹個全連接配接層在高維特征資料上是很難得到一個穩定的模型。

總之,金融風控模型是一個既傳統又新鮮的技術問題。銀行的風控模型已經随着銀行業的發展應用了數十年。而網際網路金融面臨的如何組合大量的弱特征資料對于使用者的逾期行為給一個準确的預測,是一個新出現的技術課題,技術方案也在快速的疊代演進中。