天天看点

数据不平衡解决方法

数据不平衡的解决方法

1:什么是数据不平衡

以二分类举例,数据不平衡是指数据集中正类和负类的比例严重失调,比如正:负为9:1。数据不平衡会导致模型学习偏差,模型会倾向于学习比例高的数据特征,对比例低的数据只学习到很少的特征。

在真实的业务场景中,比如地震预测,地震发生的样例和地震不发生的样例比例失衡,如果模型倾向于预测地震不发生,就会出现模型误判地震发生为不发生的情况,这是不能容忍的,因此解决数据不平衡问题很重要。

2 解决方法

2.1 数据方面

上采样:增加少类样本

下采样:抛弃部分大类样本

2.2 模型方面

设置惩罚机制:增加少类样本预测错误的惩罚

2.3 评价指标

使用:精确率和召回率

2.4 更换损失函数

使用focal_loss

数据不平衡解决方法

继续阅读