sklearn函数

2023-06-07 07:27:05

一：train_test_split

用法：

train_test_split(all_train, test_size=0.2,shuffle = True)

函数说明：

from sklearn.model_selection import train_test_split

将一组数据进行划分，通常用于将训练集划分为训练集和验证集

参数说明：

all_train：待分数据

test_size=0.2：将数据以8:2分开

shuffle = True：将数据打乱后再分

用法：

encoder = LabelEncoder()

encoder.fit(model['brand'].values.astype(str))

encoder.transform(model['brand'].values.astype(str))

函数说明：

from sklearn.preprocessing import LabelEncoder

将数据的非数字特征转化为数字特征，一般用于将数据的特征转化为数字特征后，会再用OneHotEncoder()进行onehot

编码

参数说明：

model['brand']：数据的非数字特征

用法：

encoder = OneHotEncoder()

encoder.fit(model['brand'].values.reshape(-1, 1))

encoder.transform(model['brand'].values..reshape(-1, 1))

函数说明：

from sklearn.preprocessing import OneHotEncoder

将数据的特征转化为onehot编码

参数说明：

model['brand']：数据的非数字特征