天天看点

[集成学习]Blending与Stacking集成

Blending集成

  1. 将总数据集分为训练数据集与测试数据集,再将训练数据集细分成训练集与验证集。
  2. 使用训练集通过SVM、random forests、XGBoost等方法创建K个模型。
  3. 将验证集数据分别输入K个模型进行验证,得到K个结果,这K个结果组成一个新的训练集。
  4. 将测试集数据分别输入K个模型得到K个结果,这K个结果组成一个新的测试集。
  5. 使用新的训练集训练一个新模型
  6. 将新的测试集输入新模型中,得到最终预测结果
    [集成学习]Blending与Stacking集成

Stacking集成

由于Blending集成方法存在浪费数据信息的缺点,这个缺点可以通过交叉验证的方法进行改进,也就是Stacking集成。

  1. 将训练数据集分成K份,其中一份作为验证集,其他K-1份作为训练集
  2. 使用K-1份训练集来训练模型
  3. 通过交叉验证的方式,可以得到K个模型
    [集成学习]Blending与Stacking集成
  4. 将验证集分别输入对应的模型,得到的K个结果组成新的训练集
  5. 将测试集依次输入K个模型,得到K个结果组成新的测试集
  6. 利用新的训练集得到新的模型
  7. 将新的测试集输入新模型,得到最终预测值

图像数据处理

a.灰度图

通过一个像素点矩阵来描述,矩阵中的元素都小于255

b.彩色图

用RGB三个分量(红、绿、蓝)组成的三个矩阵来表示,R、G、B三个分量的取值范围均在0-255

处理方法:卷积、频域变换、去噪、增强、生成

文本数据处理

  1. 通过文本切分、删除特殊字符与停用词、扩展缩写词等方式预处理数据
  2. 利用词袋模型、TF-IDF模型 、高级词向量模型、跳字模型、连续词袋模型等方法进行特征选择
  3. 将文本转变成数字特征

参考:

[1]https://zhuanlan.zhihu.com/p/340879728

[2]https://github.com/datawhalechina/ensemble-learning