机器学习-sklearn模块数据预处理

2023-04-19 03:03:52

1.数据标准化，使数据满足高斯分布

preprocessing.scale()

函数

import numpy as np
from sklearn import preprocessing
from scipy.stats import anderson

rain = np.load('rain.npy')
rain =  * rain
rain[rain < ] = /

scaled = preprocessing.scale(rain)
print("rain mean",scaled.mean())
print("rain variance",scaled.var())
print("anderson rain",anderson(scaled))

2.使数据所有样本数值缩放到（-1，1）之间

方法一：

from sklearn import preprocessing

X = [[ , -,  ],
     [ ,  ,  ],
     [ ,  , -]]
X_normalized = preprocessing.normalize(X, norm='l2')

>>> X_normalized                                      
array([[ ..., -...,  ...],
       [   ...,    ...,    ...],
       [   ...,  ..., -...]])

方法二：

XY = [[ 1., -1.,  2.],
     [ 2.,  0.,  0.],
      [ 0.,  1., -1.]]
normalizer = preprocessing.Normalizer().fit(XY)
print(normalizer.transform(XY))

3.二值化数据

>>> X = [[ , -,  ],
...      [ ,  ,  ],
...      [ ,  , -]]

>>> binarizer = preprocessing.Binarizer().fit(X)  # fit does nothing
>>> binarizer
Binarizer(copy=True, threshold=)

>>> binarizer.transform(X)
array([[ ,  ,  ],
       [ ,  ,  ],
       [ ,  ,  ]])

有阈值

>>> binarizer = preprocessing.Binarizer(threshold=)
>>> binarizer.transform(X)
array([[ 0.,  0.,  1.],
       [ 1.,  0.,  0.],
       [ 0.,  0.,  0.]])

4.标签二值化

>>> lb = preprocessing.LabelBinarizer()  
>>> lb.fit([, , , , ])  
LabelBinarizer(neg_label=, pos_label=)  
>>> lb.classes_  
array([, , , ])  
>>> lb.transform([, ])  
array([[1, 0, 0, 0],  
       [0, 0, 0, 1]])

多标签显示

>>> lb.fit_transform([(, ), (,)]) #(,)实例中就包含两个label  
array([[1, 1, 0],  
       [0, 0, 1]])  
>>> lb.classes_  
array([, , ])

机器学习-sklearn模块数据预处理

继续阅读

简单文档分类——朴素贝叶斯算法朴素贝叶斯算法简单文档分类实例步骤总结朴素贝叶斯分类调用(sklearn)

【分类算法】什么是分类算法定义分类与聚类分类过程方法

分类算法的评价指标

K-近邻算法以及图像分类应用

weka之NB算法

使用weka的select attribute

weka中分类器算法

在weka中集成自己的算法

【多变量线性回归】学习记录序思路实现终

申请评分模型拒绝推断（RI）方法申请评分模型拒绝推断（RI）方法

【人工智能行业大师访谈1】吴恩达采访 Geoffery Hinton

【趋高机器视觉】机器视觉技术原理解析及解决方案

吴恩达 coursera ML 第七课总结+作业答案前言目录正文模型表示作业答案

XGBoost Plotting API以及GBDT组合特征实践 XGBoost Plotting API以及GBDT组合特征实践

解码器用于语义分割：数据依赖的解码可以实现灵活的特征聚合

2021-2025年中国运动疗法（KT）带行业市场供需与战略研究报告