資料不平衡的解決方法
1:什麼是資料不平衡
以二分類舉例,資料不平衡是指資料集中正類和負類的比例嚴重失調,比如正:負為9:1。資料不平衡會導緻模型學習偏差,模型會傾向于學習比例高的資料特征,對比例低的資料隻學習到很少的特征。
在真實的業務場景中,比如地震預測,地震發生的樣例和地震不發生的樣例比例失衡,如果模型傾向于預測地震不發生,就會出現模型誤判地震發生為不發生的情況,這是不能容忍的,是以解決資料不平衡問題很重要。
2 解決方法
2.1 資料方面
上采樣:增加少類樣本
下采樣:抛棄部分大類樣本
2.2 模型方面
設定懲罰機制:增加少類樣本預測錯誤的懲罰
2.3 評價名額
使用:精确率和召回率
2.4 更換損失函數
使用focal_loss