大資料算法：kNN算法

2023-04-25 00:19:20

\一、kNN算法概述

　　kNN是k-Nearest Neighbour的縮寫，這是一種非常簡單且易于了解的分類算法。回想我們從小到大在認知事物的過程當中，我們是如何判斷一種事物是屬于哪種類别的?通常的一種思路就是，分析目前這個事物與我們之前所知道的類别特征進行比對，找出最接近的一類，然後就可以把這個東西歸屬于這一個類别。kNN算法大緻就是這麼一個思路，直接通過測量不同特征值之間的距離來達到分類的目的。

　　kNN中的k是指在分類過程中，我們選擇樣本資料中前k個最相似的資料，以出現次數最多的分類，作為新資料的分類。這裡的k通常是不大于20的正整數，k取3或者5的情況比較常見。

　　二、kNN算法的原理

　　首先是訓練模型。對kNN而言，在編碼過程中訓練模型實際上就是記錄訓練集的所有資料，是以我們常說kNN沒有訓練模型這一過程。

　　接着是測試模型。測試過程有以下幾個步驟：

　　1. 依次計算測試集資料與訓練集各個資料之間的距離;

　　2. 對計算處理的距離進行遞增排序;

　　3. 選擇距離最小的k個資料;

　　4. 選擇這k個資料中出現頻率最高的類别作為測試資料的預測分類。

　　最後是評價模型。根據測試結果計算模型預測分類的準确率。

　　整個過程看上去非常簡單、直覺、明了。需要說明的是，文中一直提到的距離這個概念，指的是闵可夫斯基距離(Minkowski distance)，對應數學上的Lp範數。

大資料算法：kNN算法

　　當p=1時，為曼哈頓距離(Manhattan distance)，也稱L1距離;

　　當p=2時，為歐式距離(Euclidean distance)，也稱L2距離;

　　當p=∞時，為切比雪夫距離(distance)。

大資料算法：kNN算法

　　在我們使用kNN算法時，常用L1距離和L2距離，且以L2距離使用更多。

　　三、算法評價

　　優點：kNN是最簡單、最有效的分類器;精度高;對異常值(邊緣值)不敏感。

　　缺點：需要記錄所有訓練集的資料，空間複雜度高;需要進行大量的計算，計算複雜度高;無法提取出資料内涵的結構資訊。

　　注意點：由于計算距離時使用的是離散型資料，是以kNN算法常用于特征值為數值型和标稱型的資料。如果資料特征值為連續值，則需要根據實際情況，對特征值進行離散采樣或者采用其他算法模型。

大資料算法：kNN算法

繼續閱讀

10分鐘帶你走遍建構區塊鍊全程

大資料筆試真題——第一章:通用面試題

Kbone基礎 - [01] 簡介

Hibernate一級緩存測試分析

如何講清楚Flex彈性盒模型？(中)

分布式資料系統-CAP理論

做為一名大資料新手，應該通過這篇文章詳細了解大資料

JAVA面試題系列：你必須要懂的Spring-Aop

科普：什麼是圖靈機？

過了所有技術面，卻倒在 HR 一個問題上

Java語言實作的有趣問題：你的鬥地主能拿多少炸？

Java-Python語言實作的有趣問題

90%的Java程式員都掉消息中間件的面試四個坑！

ElasticSearch底層搜尋引擎Lucene原理剖析

MySQL與Redis的差別與聯系詳解