Blending內建
- 将總資料集分為訓練資料集與測試資料集,再将訓練資料集細分成訓練集與驗證集。
- 使用訓練集通過SVM、random forests、XGBoost等方法建立K個模型。
- 将驗證集資料分别輸入K個模型進行驗證,得到K個結果,這K個結果組成一個新的訓練集。
- 将測試集資料分别輸入K個模型得到K個結果,這K個結果組成一個新的測試集。
- 使用新的訓練集訓練一個新模型
- 将新的測試集輸入新模型中,得到最終預測結果
Stacking內建
由于Blending內建方法存在浪費資料資訊的缺點,這個缺點可以通過交叉驗證的方法進行改進,也就是Stacking內建。
- 将訓練資料集分成K份,其中一份作為驗證集,其他K-1份作為訓練集
- 使用K-1份訓練集來訓練模型
- 通過交叉驗證的方式,可以得到K個模型
- 将驗證集分别輸入對應的模型,得到的K個結果組成新的訓練集
- 将測試集依次輸入K個模型,得到K個結果組成新的測試集
- 利用新的訓練集得到新的模型
- 将新的測試集輸入新模型,得到最終預測值
圖像資料處理
a.灰階圖
通過一個像素點矩陣來描述,矩陣中的元素都小于255
b.彩色圖
用RGB三個分量(紅、綠、藍)組成的三個矩陣來表示,R、G、B三個分量的取值範圍均在0-255
處理方法:卷積、頻域變換、去噪、增強、生成
文本資料處理
- 通過文本切分、删除特殊字元與停用詞、擴充縮寫詞等方式預處理資料
- 利用詞袋模型、TF-IDF模型 、進階詞向量模型、跳字模型、連續詞袋模型等方法進行特征選擇
- 将文本轉變成數字特征
參考:
[1]https://zhuanlan.zhihu.com/p/340879728
[2]https://github.com/datawhalechina/ensemble-learning