机器学习中的数据预处理方法——c++实现

2023-05-20 11:34:29

1.最小-最大规范化

最小-最大规范化对原始数据进行线性变换，变换到[0,1]区间（也可以是其他固定最小最大值的区间）

x[n] = (x[n] - min) / (max - min)

2. 标准化（Standardization or Mean Removal and Variance Scaling)

变换后各维特征有0均值，单位方差。也叫z-score规范化（零均值规范化）。计算方式是将特征值减去均值，除以标准差。

x[n] = (x[n] - mean) / stdev

3. L2-Normalization ( 人脸识别中会用到 )

Normalization主要思想是对每个样本计算其p-范数，然后对该样本中每个元素除以该范数，这样处理的结果是使得每个处理后样本的p-范数（l1-norm,l2-norm）等于1。

p-范数的计算公式：||X||p = ( |x1|^p + |x2|^p +…+ |xn|^p ）^1/p

该方法主要应用于文本分类和聚类中。例如，对于两个TF-IDF向量的l2-norm进行点积，就可以得到这两个向量的余弦相似性。

代码：

#include <iostream>
#include <vector>
#include <algorithm>

//
//常用的标准化方法：min-max标准化、 0均值归一化、 L2规范化
enum NormalizationFlag {
	MIN_MAX = 0,	
	Z_SCORE =1,
	L2 = 2
};
template<typename _Tp> void normalization(_Tp* src, int length, int normalizationFlag=Z_SCORE)
{
	if (normalizationFlag == MIN_MAX) {
		const _Tp min = *std::min_element(src, src + length);
		const _Tp max = *std::max_element(src, src + length);
		for (int i = 0; i < length; ++i)
		{
			src[i] = (src[i]-min) / (max - min);
		}
	}
	else if(normalizationFlag == Z_SCORE){
		_Tp mean = 0;
		for (int i = 0; i < length; ++i) {
			mean += src[i];
		}
		mean = mean / length;	//均值
		_Tp stdev = 0;
		for (int i = 0; i < length; ++i) {
			stdev += (src[i] - mean)*(src[i] - mean);
		}
		stdev = stdev / (length - 1);
		stdev = sqrt(stdev);	//标准差
		for (int i = 0; i < length; ++i) {
			src[i] = (src[i] - mean) / stdev;
		}
	}
	else if (normalizationFlag == L2) {
		_Tp src_p = 0;
		for (int i = 0; i < length; ++i) {
			src_p += src[i]*src[i];
		}
		src_p = sqrt(src_p);	//L2范数
		for (int i = 0; i < length; ++i) {
			src[i] = src[i] / src_p;
		}
	}
}

机器学习中的数据预处理方法——c++实现

继续阅读

【分类算法】什么是分类算法定义分类与聚类分类过程方法

分类算法的评价指标

K-近邻算法以及图像分类应用

weka之NB算法

使用weka的select attribute

weka中分类器算法

在weka中集成自己的算法

【多变量线性回归】学习记录序思路实现终

申请评分模型拒绝推断（RI）方法申请评分模型拒绝推断（RI）方法

【人工智能行业大师访谈1】吴恩达采访 Geoffery Hinton

经典查找算法之二分查找

【趋高机器视觉】机器视觉技术原理解析及解决方案

吴恩达 coursera ML 第七课总结+作业答案前言目录正文模型表示作业答案

XGBoost Plotting API以及GBDT组合特征实践 XGBoost Plotting API以及GBDT组合特征实践

解码器用于语义分割：数据依赖的解码可以实现灵活的特征聚合

2021-2025年中国运动疗法（KT）带行业市场供需与战略研究报告