数据不平衡的解决方法
1:什么是数据不平衡
以二分类举例,数据不平衡是指数据集中正类和负类的比例严重失调,比如正:负为9:1。数据不平衡会导致模型学习偏差,模型会倾向于学习比例高的数据特征,对比例低的数据只学习到很少的特征。
在真实的业务场景中,比如地震预测,地震发生的样例和地震不发生的样例比例失衡,如果模型倾向于预测地震不发生,就会出现模型误判地震发生为不发生的情况,这是不能容忍的,因此解决数据不平衡问题很重要。
2 解决方法
2.1 数据方面
上采样:增加少类样本
下采样:抛弃部分大类样本
2.2 模型方面
设置惩罚机制:增加少类样本预测错误的惩罚
2.3 评价指标
使用:精确率和召回率
2.4 更换损失函数
使用focal_loss