Sklearn数据预处理：scale, StandardScaler, MinMaxScaler, Normalizer

2023-04-19 03:20:26

一、标准化

去除均值和方差缩放：通过(X-X_mean)/std计算每个属性(每列)，进而使所有数据聚集在0附近，方差为1.

(1)、sklearn.preprocessing.scale()

直接将给定数据进行标准化

from sklearn import preprocessing
import numpy as np
X = np.array([[ 1., -1.,  2.],[ 2.,  0.,  0.],[ 0.,  1., -1.]])
X_scaled = preprocessing.scale(X)

array([[ 0.        , -1.22474487,  1.33630621],
       [ 1.22474487,  0.        , -0.26726124],
       [-1.22474487,  1.22474487, -1.06904497]])

X_scaled.mean(axis=0)
array([ 0.,  0.,  0.])

X_scaled.std(axis=)
array([ ,  ,  ])

(2)、sklearn.preprocessing.StandardScaler()

可保存训练集中的均值、方差参数，然后直接用于转换测试集数据。

scaler = preprocessing.StandardScaler().fit(X)
scaler.transform(X)

array([[ 0.        , -1.22474487,  1.33630621],
       [ 1.22474487,  0.        , -0.26726124],
       [-1.22474487,  1.22474487, -1.06904497]])

scaler.mean_
array([ .        ,  .        ,  ])

scaler.var_
array([ ,  ,  ])

二、缩放到指定范围

将属性缩放到一个指定的最大和最小值（通常是1-0）之间，这样处理可对方差非常小的属性增强其稳定性，也可维持稀疏矩阵中为0的条目。

preprocessing.MinMaxScaler(feature_range=(0, 1), copy=True)

计算公式：

X_std = (X - X.min(axis=0)) / (X.max(axis=0) - X.min(axis=0))

X_scaled = X_std * (max - min) + min

其中

feature_range : tuple (min, max), default=(0, 1)

minmaxscaler = preprocessing.MinMaxScaler().fit(X)
minmaxscaler.transform(X)

array([[ 0.5       ,  0.        ,  1.        ],
       [ 1.        ,  0.5       ,  0.33333333],
       [ 0.        ,  1.        ,  0.        ]])

minmaxscaler.scale_
array([        ,         ,  ])

minmaxscaler.min_ 
 array([ 0.        ,  0.5       ,  0.33333333])

也可直接应用fit_transform(X)实现fit和transform功能。

三、正则化

对每个样本计算其p-范数，再对每个元素除以该范数，这使得每个处理后样本的p-范数（l1-norm,l2-norm）等于1。如果后续要使用二次型等方法计算两个样本之间的相似性会有用。

preprocessing.Normalizer(norm=’l2’, copy=True)

normalizer = preprocessing.Normalizer().fit(X)
normalizer.transform(X)

array([[ 0.40824829, -0.40824829,  0.81649658],
       [ 1.        ,  0.        ,  0.        ],
       [ 0.        ,  0.70710678, -0.70710678]])

几个概念

1-范数：向量各分量绝对值之和

2-范数：向量长度

最大范数：向量各分量绝对值的最大值

p-范数的计算公式：||X||p=(|x1|^p+|x2|^p+…+|xn|^p)^1/p

Sklearn数据预处理：scale, StandardScaler, MinMaxScaler, Normalizer

一、标准化

二、缩放到指定范围

三、正则化

几个概念

继续阅读

XGBoost Plotting API以及GBDT组合特征实践 XGBoost Plotting API以及GBDT组合特征实践

解码器用于语义分割：数据依赖的解码可以实现灵活的特征聚合

YAML简介和PyYAML安全操作YAML支持的类型YAML的优点：yaml的基本语法python操作

2021-2025年中国运动疗法（KT）带行业市场供需与战略研究报告

Small tricks

libsvm for python 安装

学习软件测试基础测试第七天

Zeppelin 配置访问 REST APIApache Zeppelin Configuration REST API

【Torch】最简洁logging使用指南

27. Remove Element(列表)题目代码

Cloud Studio初体验

使用 ctypes 进行 Python 和 C 的混合编程

【python】【数据处理】画多维数据分布图

【python】netconf协议对接管理设备

「Python 网络自动化」NETCONF —— Python 使用 NETCONF 管理配置 H3C 网络设备

在python中创建excel并写入