scikit-learn 支持向量机实现手写体识别

2023-06-29 06:45:20

随时代码，阅读笔记

%matplotlib inline
import matplotlib.pyplot as plt
import numpy as np
from sklearn import datasets


digits = datasets.load_digits() # 加载数据



# 把数据所代表的图片显示出来
images_and_labels = list(zip(digits.images, digits.target))
plt.figure(figsize=(8, 6), dpi=200)
for index, (image, label) in enumerate(images_and_labels[:8]):
    plt.subplot(2, 4, index + 1)
    plt.axis('off')
    plt.imshow(image, cmap=plt.cm.gray_r, interpolation='nearest')
    plt.title('Digit: %i' % label, fontsize=20)
    


print("shape of raw image data: {0}".format(digits.images.shape))
print("shape of data: {0}".format(digits.data.shape))


#shape of raw image data: (1797, 8, 8)
#shape of data: (1797, 64)


# 把数据分成训练数据集和测试数据集
from sklearn.cross_validation import train_test_split
Xtrain, Xtest, Ytrain, Ytest = train_test_split(digits.data, digits.target, test_size=0.20, random_state=2);

# 使用支持向量机来训练模型
from sklearn import svm
clf = svm.SVC(gamma=0.001, C=100., probability=True)
clf.fit(Xtrain, Ytrain);



# 评估模型的准确度
from sklearn.metrics import accuracy_score
Ypred = clf.predict(Xtest);
accuracy_score(Ytest, Ypred)
clf.score(Xtest, Ytest)

# 查看预测的情况
fig, axes = plt.subplots(4, 4, figsize=(8, 8))
fig.subplots_adjust(hspace=0.1, wspace=0.1)

for i, ax in enumerate(axes.flat):
    ax.imshow(Xtest[i].reshape(8, 8), cmap=plt.cm.gray_r, interpolation='nearest')
    ax.text(0.05, 0.05, str(Ypred[i]), fontsize=32,
            transform=ax.transAxes,
            color='green' if Ypred[i] == Ytest[i] else 'red')
    ax.text(0.8, 0.05, str(Ytest[i]), fontsize=32,
            transform=ax.transAxes,
            color='black')
    ax.set_xticks([])
    ax.set_yticks([])

# Xtest[4] 的各种可能性
clf.predict_proba(Xtest[4].reshape(1, -1))


# 保存模型参数
from sklearn.externals import joblib
joblib.dump(clf, 'digits_svm.pkl');

# 导入模型参数，直接进行预测
clf = joblib.load('digits_svm.pkl')
Ypred = clf.predict(Xtest);
clf.score(Xtest, Ytest)

8x8的图像大小，还好，如果图像太大，直接使用像素值，分类结果并不好，需要降维处理，结合PCA。

scikit-learn 支持向量机实现手写体识别

继续阅读

模式识别与机器学习(作业5)基于PCA–LDA的人脸识别

贝叶斯分类器（手写数字识别）

【机器学习】caffe:solver、train、val、deploy配置和线性回归神经网络

机器学习(machine learning)的江湖大家

【图像处理】Tensorflow:简易超分辨重建与坑

模式识别与机器学习(作业3)数据集基于压缩近邻法练的分类问题

模式识别与机器学习(作业1)数据集工作一工作二工作三

《机器学习实战》学习笔记：k-近邻算法的两个应用场景

scikit-learn xgboost 预测波士顿房价

模式识别内容概述

scikit-learn 逻辑回归--调参

scikit-learn 主成分分析--数据降维

scikit-learn 决策树代码学习-红酒数据

详解最大似然估计（MLE）、最大后验概率估计（MAP），以及贝叶斯公式的理解

BP神经网络的Python实现