基于消费信用评估的风控

业务背景

信用评估是被当前社会广泛关注的领域，特别是在金融行业，如果可以通过每个用户的历史交易数据以及用户画像数据确定用户的个人信用，将有助于银行设置个人借贷额度，确定潜在风险。本文将介绍在金融风控领域如何进行用户画像，使用什么样的算法可以计算出每个用户的信用指标。

业务痛点

评分卡是金融领域经典的计算用户信用的算法，目前许多金融机构缺少云端可处理大规模样本数据的评分卡算法。

解决方案

PAI平台提供了一套基于评分卡体系的分箱、样本稳定性评估、评分模型训练和评估算法

1.人力要求：需要具备基础的评分卡建模经验

2.开发周期：1-2天

3.数据要求：最好有超过千条的打标数据，数据包含用户历史交易数据和基本用户画像

数据说明

数据来自国外真实脱敏后的银行消费数据，一共包含30000条样本，其中正常还款的6636个样例，非正常还款23364个样例

特征数据：

参数名称	参数描述
ID	用户ID
LIMIT_BAL	目前用户的额度
SEX	1是男，2是女
EDUCATION	1研究生，2本科，3高中生，其它
MARRIAGE	1结婚，2单身，3其它
AGE	年龄
PAY_0	9月付款情况：-1 按时付钱，1迟付款一个月，2迟付款两个月......
PAY_2~PAY_6	同PAY_0，分拆每个月的付款情况
BILL_AMT1~BILL_AMT6	每个月的具体账单是多少
PAY_AMT1~PAY_AMT6	上个月偿还的金额是多少

目标数据：


payment_next_month	用户是否还款，1是还款，0是未还款

流程说明

进入PAI-Studio产品：

https://pai.data.aliyun.com/console

该方案数据和实验环境已经内置于首页模板：

打开实验：

1.拆分

将输入数据集分为两部分，一部分用来训练模型，另一部分用来预测评估。

2.分箱

分箱组件类似于onehot编码，可以将数据按照分布映射成更高维度的特征。以age字段为例，分箱组件可以按照数据在不同区间的分布进行分箱操作，分箱结果如图所示。

最终分箱组件的输出如下图所示，每个字段都被分箱到多个区间上。

3.样本稳定指数PSI

样本稳定指数是衡量样本变化所产生的偏移量的一种重要指标，通常用来衡量样本的稳定程度。比如样本在两个月份之间的变化是否稳定。通常变量的PSI值在0.1以下表示变化不太显著，在0.1到0.25之间表示变化比较显著，大于0.25表示变量变化比较剧烈，需要特殊关注。

本案例中，综合比较拆分前后以及分箱结果的样本稳定程度，返回每个特征的PSI数值，如下图所示:

4.评分卡训练

评分卡训练的结果图如下所示：

评分卡的精髓是将复杂的模型权重用符合业务标准的分数表示。

intercepy：截距。
Unscaled：原始的权重值。
Scaled：分数更改指标，比如对于pay_0这个特征，如果特征落在(-1,0]之间分数就减29，如果特征落在（0，1]之间分数就加上27。
importance：每个特征对于结果的影响大小，数值越大表示影响越大。

5.评分卡预测

每个预测结果的最终评分，本案例中表示的是每个用户的信用评分。

总结

基于用户的信用卡消费记录，通过评分卡模型训练及评分卡预测得到了每个用户的最终信用评分，这个评分可以应用到各种贷款或者金融相关的征信领域中。

基于消费信用评估的风控

业务背景

业务痛点

解决方案

数据说明

流程说明

1.拆分

2.分箱

3.样本稳定指数PSI

4.评分卡训练

5.评分卡预测

总结

继续阅读

查找算法之二分查找查找算法之二分查找

查找算法学习之二分查找（Python版本）——BinarySearch

CQ V1.0分词bates(基于双数组tire树)—应该是目前最快的中文分词算法

Command Network(POJ 3164)---定根最小树形图模板题题目描述输入格式输出格式输入样例输出样例分析源程序

开源低带宽语音编解码器

241 Different Ways to Add Parentheses（C代码版）

【趋高机器视觉】机器视觉技术原理解析及解决方案

CSMA/CD1． CSMA/CD的概述2． CSMA 的工作原理3． CSMA/CD控制规程及特点4． CSMA/CD协议5． CSMA/CD的优点6．结束语

极大似然法(ML)与最大期望法(EM)

C++ 第十五周报告1--《冒泡法排序》

笔试面试题目：滑动窗口(二)

数据结构与算法（27）——排序（二）

Dijkstra--简易版（最短路径）

GitHub连夜封杀！这份阿里 10W 字内部 Java 字面试手册到底有多强？

【python】【数据处理】画多维数据分布图

hdu7108哈希