轻松玩转 Scikit-Learn 系列 —— KNN 算法

scikit-learn 是最受欢迎的机器学习库之一，它提供了各种主流的机器学习算法的API接口供使用者调用，让使用者可以方便快捷的搭建一些机器学习模型，并且通过调参可以达到很高的准确率。

这次我们主要介绍scikit-learn中k近邻算法（以下简称为KNN）的使用。

KNN是一种非参数机器学习算法（机器学习中通过模型训练而学到的是模型参数，而要人工调整的是超参数，请注意避免混淆）。使用KNN首先要有一个已知的数据集D，数据集内对于任意一个未知标签的样本数据x，可以通过计算x与D中所有样本点的距离，取出与x距离最近的前k个已知数据，用该k个已知数据的标签对x进行投票，哪一类票数最多，x就是哪一类，这是kNN的大概思想，以下举个例子方便理解。

正方形该分到哪个类？

在上图中有2个已知类别——红色五角星和蓝色三角形和一个未知样本——绿色方格。现在我们要用KNN算法对绿色方格进行分类，以判定其属于这两类中的哪一类，首先令k=5，通过计算距离我们可以知道距离绿色方格最近的5个样本中（假设绿色方格位于圆心），有2个红色五角星，3个蓝色三角形。通过投票可知：蓝色三角形得3票，红色五角星得2票，因此绿色方格应该属于蓝色三角形。kNN就是这样工作的。

上图同时也引申出KNN算法的一个重要的超参数——k。举例来说，如果当k=10时，由图可以看出：红色五角星投了6票，蓝色三角形投了4票，因此未知的样本应该属于红色五角星一类。因此，我们可以看出超参数的选择会影响最终kNN模型的预测结果。下面用代码具体展示如何调用scikit-learn使用kNN，并调整超参数。

以上是利用scikit-learn中默认的k近邻模型来预测未知鸢尾花样本的种类（假装未知），我们在实例化模型的过程中并未传入任何的超参数，则kNN模型会使用模型默认的超参数。

例如：

● metric='minkowski' —— 计算样本点之间距离的时候会采用明可夫斯基距离，与p=2等价

● n_jobs=1 —— kNN算法支持cpu多核并行运算；n_jobs=1，默认使用一个核，当n_jobs=-1时，使用所有的核

● n_neighbors=5 —— 表示k=5，即抽取未知样本附近最近的5个点进行投票

● weights='uniform' —— 表示再利用最近的k个点投票时，他们的权重是等价的，当weights='distance'时，表示一个已知样本点距离未知点的距离越小，其投票时所占权重越大

还有一些其他的很重要的超参数，在这里先暂不说明，以下用代码具体展示。

以下用循环来搜索下关于n_neighbors、和p这两个超参数的最优值。

因为我们为了便于可视化，仅使用了鸢尾花数据集中的2个特征，所以导致最终预测的准确率不太高，如果使用该数据集的全部特征来训练模型并预测未知样本，传入最佳超参数的kNN模型，亲测准确度可达100%，当然这与鸢尾花数据集的高质量也有关系。运行以上代码并打印结果可得如上所示。

原文发布时间为：2018-11-21

本文作者：蜉蝣扶幽

本文来自云栖社区合作伙伴“

小詹学Python

”，了解相关信息可以关注“

”。

轻松玩转 Scikit-Learn 系列 —— KNN 算法

继续阅读

libsvm for python 安装

学习软件测试基础测试第七天

Zeppelin 配置访问 REST APIApache Zeppelin Configuration REST API

【Torch】最简洁logging使用指南

笔试面试题目：滑动窗口(二)

27. Remove Element(列表)题目代码

数据结构与算法（27）——排序（二）

Dijkstra--简易版（最短路径）

GitHub连夜封杀！这份阿里 10W 字内部 Java 字面试手册到底有多强？

Cloud Studio初体验

使用 ctypes 进行 Python 和 C 的混合编程

【python】【数据处理】画多维数据分布图

【python】netconf协议对接管理设备

「Python 网络自动化」NETCONF —— Python 使用 NETCONF 管理配置 H3C 网络设备

在python中创建excel并写入

hdu7108哈希