天天看點

[內建學習]Blending與Stacking內建

Blending內建

  1. 将總資料集分為訓練資料集與測試資料集,再将訓練資料集細分成訓練集與驗證集。
  2. 使用訓練集通過SVM、random forests、XGBoost等方法建立K個模型。
  3. 将驗證集資料分别輸入K個模型進行驗證,得到K個結果,這K個結果組成一個新的訓練集。
  4. 将測試集資料分别輸入K個模型得到K個結果,這K個結果組成一個新的測試集。
  5. 使用新的訓練集訓練一個新模型
  6. 将新的測試集輸入新模型中,得到最終預測結果
    [內建學習]Blending與Stacking內建

Stacking內建

由于Blending內建方法存在浪費資料資訊的缺點,這個缺點可以通過交叉驗證的方法進行改進,也就是Stacking內建。

  1. 将訓練資料集分成K份,其中一份作為驗證集,其他K-1份作為訓練集
  2. 使用K-1份訓練集來訓練模型
  3. 通過交叉驗證的方式,可以得到K個模型
    [內建學習]Blending與Stacking內建
  4. 将驗證集分别輸入對應的模型,得到的K個結果組成新的訓練集
  5. 将測試集依次輸入K個模型,得到K個結果組成新的測試集
  6. 利用新的訓練集得到新的模型
  7. 将新的測試集輸入新模型,得到最終預測值

圖像資料處理

a.灰階圖

通過一個像素點矩陣來描述,矩陣中的元素都小于255

b.彩色圖

用RGB三個分量(紅、綠、藍)組成的三個矩陣來表示,R、G、B三個分量的取值範圍均在0-255

處理方法:卷積、頻域變換、去噪、增強、生成

文本資料處理

  1. 通過文本切分、删除特殊字元與停用詞、擴充縮寫詞等方式預處理資料
  2. 利用詞袋模型、TF-IDF模型 、進階詞向量模型、跳字模型、連續詞袋模型等方法進行特征選擇
  3. 将文本轉變成數字特征

參考:

[1]https://zhuanlan.zhihu.com/p/340879728

[2]https://github.com/datawhalechina/ensemble-learning