Blending集成
- 将总数据集分为训练数据集与测试数据集,再将训练数据集细分成训练集与验证集。
- 使用训练集通过SVM、random forests、XGBoost等方法创建K个模型。
- 将验证集数据分别输入K个模型进行验证,得到K个结果,这K个结果组成一个新的训练集。
- 将测试集数据分别输入K个模型得到K个结果,这K个结果组成一个新的测试集。
- 使用新的训练集训练一个新模型
- 将新的测试集输入新模型中,得到最终预测结果
Stacking集成
由于Blending集成方法存在浪费数据信息的缺点,这个缺点可以通过交叉验证的方法进行改进,也就是Stacking集成。
- 将训练数据集分成K份,其中一份作为验证集,其他K-1份作为训练集
- 使用K-1份训练集来训练模型
- 通过交叉验证的方式,可以得到K个模型
- 将验证集分别输入对应的模型,得到的K个结果组成新的训练集
- 将测试集依次输入K个模型,得到K个结果组成新的测试集
- 利用新的训练集得到新的模型
- 将新的测试集输入新模型,得到最终预测值
图像数据处理
a.灰度图
通过一个像素点矩阵来描述,矩阵中的元素都小于255
b.彩色图
用RGB三个分量(红、绿、蓝)组成的三个矩阵来表示,R、G、B三个分量的取值范围均在0-255
处理方法:卷积、频域变换、去噪、增强、生成
文本数据处理
- 通过文本切分、删除特殊字符与停用词、扩展缩写词等方式预处理数据
- 利用词袋模型、TF-IDF模型 、高级词向量模型、跳字模型、连续词袋模型等方法进行特征选择
- 将文本转变成数字特征
参考:
[1]https://zhuanlan.zhihu.com/p/340879728
[2]https://github.com/datawhalechina/ensemble-learning