天天看點

資料不平衡解決方法

資料不平衡的解決方法

1:什麼是資料不平衡

以二分類舉例,資料不平衡是指資料集中正類和負類的比例嚴重失調,比如正:負為9:1。資料不平衡會導緻模型學習偏差,模型會傾向于學習比例高的資料特征,對比例低的資料隻學習到很少的特征。

在真實的業務場景中,比如地震預測,地震發生的樣例和地震不發生的樣例比例失衡,如果模型傾向于預測地震不發生,就會出現模型誤判地震發生為不發生的情況,這是不能容忍的,是以解決資料不平衡問題很重要。

2 解決方法

2.1 資料方面

上采樣:增加少類樣本

下采樣:抛棄部分大類樣本

2.2 模型方面

設定懲罰機制:增加少類樣本預測錯誤的懲罰

2.3 評價名額

使用:精确率和召回率

2.4 更換損失函數

使用focal_loss

資料不平衡解決方法

繼續閱讀