sklearn.preprocessing中的StandardScaler、normalize、Normalizer和LASSO中的Normalize=True

2023-06-07 07:27:45

在使用以RBF为核函数的SVM时，或使用L1或L2正则化的线性模型时，通常要求各个特征具有相似的方差，否则拥有较大方差的特征将主导梯度下降的过程，从而导致无法得出真正的最优解。因此，在做之前要求对数据进行标准化，即对于每个特征（数据中的每一列）进行标准化

Xi=Xi−X¯¯¯¯sdX X i = X i − X ¯ s d X

from sklearn.preprocessing import StandardScaler
ss = StandardScaler()
X_train = ss.fit_transform(X_train)   #默认按列（feature）标准化
X_test = ss.transform(X_test)

在使用LASSO时，有个选项为Normalize=True，这个操作是类似于对数据进行标准化的操作，也是按列（feature）操作的。正则化处理后，每个特征的L1或L2范数相同，为1

Xi=Xi|X| 或 Xi=Xi∥X∥ X i = X i | X | 或 X i = X i ‖ X ‖

但是，需要注意的是，sklearn.preprocessing中有两个与正则化有关的选项，分别是normalize和Normalizer。它们的原理与上述类似，区别是它们默认按行操作，且Normalizer只能按行操作

from sklearn.preprocessing import normalize,Normalizer
X = normalize(norm='l2',axis=)  #按行操作
X = normalize(norm='l2',axis=)  #按列操作

normalizer = Normalizer(norm='l2').fit(X_train)  #按行操作
X_train = normalizer.transform(X_train)
X_test = normalizer.transform(X_test)

Normalizer需要先fit，fit这一步不会对X_train产生操作，要想生成正则化后的数据，需要transform。该操作对行进行，且不提供指定轴的选项。Normalizer可以将在X_train上训练到的规则应用到X_test的转变上。normalize可以按列操作，但对X_train训练的规则无法转换到X_test上。

因此，貌似Preprocessing中的Normalizer和normalize不适合于对数据进行预处理？

sklearn.preprocessing中的StandardScaler、normalize、Normalizer和LASSO中的Normalize=True

继续阅读

简单文档分类——朴素贝叶斯算法朴素贝叶斯算法简单文档分类实例步骤总结朴素贝叶斯分类调用(sklearn)

【分类算法】什么是分类算法定义分类与聚类分类过程方法

分类算法的评价指标

K-近邻算法以及图像分类应用

weka之NB算法

使用weka的select attribute

weka中分类器算法

在weka中集成自己的算法

【多变量线性回归】学习记录序思路实现终

申请评分模型拒绝推断（RI）方法申请评分模型拒绝推断（RI）方法

【人工智能行业大师访谈1】吴恩达采访 Geoffery Hinton

【趋高机器视觉】机器视觉技术原理解析及解决方案

吴恩达 coursera ML 第七课总结+作业答案前言目录正文模型表示作业答案

XGBoost Plotting API以及GBDT组合特征实践 XGBoost Plotting API以及GBDT组合特征实践

解码器用于语义分割：数据依赖的解码可以实现灵活的特征聚合

2021-2025年中国运动疗法（KT）带行业市场供需与战略研究报告