业务背景
信用评估是被当前社会广泛关注的领域,特别是在金融行业,如果可以通过每个用户的历史交易数据以及用户画像数据确定用户的个人信用,将有助于银行设置个人借贷额度,确定潜在风险。本文将介绍在金融风控领域如何进行用户画像,使用什么样的算法可以计算出每个用户的信用指标。
业务痛点
评分卡是金融领域经典的计算用户信用的算法,目前许多金融机构缺少云端可处理大规模样本数据的评分卡算法。
解决方案
PAI平台提供了一套基于评分卡体系的分箱、样本稳定性评估、评分模型训练和评估算法
1.人力要求:需要具备基础的评分卡建模经验
2.开发周期:1-2天
3.数据要求:最好有超过千条的打标数据,数据包含用户历史交易数据和基本用户画像
数据说明
数据来自国外真实脱敏后的银行消费数据,一共包含30000条样本,其中正常还款的6636个样例,非正常还款23364个样例
特征数据:
参数名称 | 参数描述 |
---|---|
ID | 用户ID |
LIMIT_BAL | 目前用户的额度 |
SEX | 1是男,2是女 |
EDUCATION | 1研究生,2本科,3高中生,其它 |
MARRIAGE | 1结婚,2单身,3其它 |
AGE | 年龄 |
PAY_0 | 9月付款情况:-1 按时付钱,1迟付款一个月,2迟付款两个月...... |
PAY_2~PAY_6 | 同PAY_0,分拆每个月的付款情况 |
BILL_AMT1~BILL_AMT6 | 每个月的具体账单是多少 |
PAY_AMT1~PAY_AMT6 | 上个月偿还的金额是多少 |
目标数据:
payment_next_month | 用户是否还款,1是还款,0是未还款 |
流程说明
进入PAI-Studio产品:
https://pai.data.aliyun.com/console该方案数据和实验环境已经内置于首页模板:
打开实验:
1.拆分
将输入数据集分为两部分,一部分用来训练模型,另一部分用来预测评估。
2.分箱
分箱组件类似于onehot编码,可以将数据按照分布映射成更高维度的特征。以age字段为例,分箱组件可以按照数据在不同区间的分布进行分箱操作,分箱结果如图所示。
最终分箱组件的输出如下图所示,每个字段都被分箱到多个区间上。
3.样本稳定指数PSI
样本稳定指数是衡量样本变化所产生的偏移量的一种重要指标,通常用来衡量样本的稳定程度。比如样本在两个月份之间的变化是否稳定。通常变量的PSI值在0.1以下表示变化不太显著,在0.1到0.25之间表示变化比较显著,大于0.25表示变量变化比较剧烈,需要特殊关注。
本案例中,综合比较拆分前后以及分箱结果的样本稳定程度,返回每个特征的PSI数值,如下图所示:
4.评分卡训练
评分卡训练的结果图如下所示:
评分卡的精髓是将复杂的模型权重用符合业务标准的分数表示。
- intercepy:截距。
- Unscaled:原始的权重值。
- Scaled:分数更改指标,比如对于pay_0这个特征,如果特征落在(-1,0]之间分数就减29,如果特征落在(0,1]之间分数就加上27。
- importance:每个特征对于结果的影响大小,数值越大表示影响越大。
5.评分卡预测
每个预测结果的最终评分,本案例中表示的是每个用户的信用评分。
总结
基于用户的信用卡消费记录,通过评分卡模型训练及评分卡预测得到了每个用户的最终信用评分,这个评分可以应用到各种贷款或者金融相关的征信领域中。