天天看點

08 聚類算法 - 聚類算法的衡量名額

07 聚類算法 - 代碼案例三 - K-Means算法和Mini Batch K-Means算法效果評估

四、聚類算法的衡量名額

● 混淆矩陣

● 均一性

● 完整性

● V-measure

● 調整蘭德系數(ARI)

● 調整互資訊(AMI)

● 輪廓系數(Silhouette)

1、均一性

__均一性:__一個簇中隻包含一個類别的樣本,則滿足均一性;其實也可以認為就是正确率(每個聚簇中正确分類的樣本數占該聚簇總樣本數的比例和);

2、完整性

__完整性:__同類别樣本被歸類到相同簇中,則滿足完整性;每個聚簇中正确分類的樣本數占類型的總樣本數比例的和。

3、V-measure

__V-measure:__均一性和完整性的權重平均。

4、調整蘭德系數(ARI)

__Rand index(蘭德指數)(RI)__,RI取值範圍為[0,1],值越大意味着聚類結果與真實情況越吻合。

其中C表示實際類别資訊,K表示聚類結果,a表示在C與K中都是同類别的元素對數,b表示在C與K中都是不同類别的元素對數,C2N samples 表示資料集中可以組成的對數。

__調整蘭德系數(ARI,Adjusted Rnd Index)__,ARI取值範圍[-1,1],值越大,表示聚類結果和真實情況越吻合。從廣義的角度來将,ARI是衡量兩個資料分布的吻合程度的。

5、調整互資訊(AMI)

調整互資訊(AMI,Adjusted Mutual Information) 類似ARI,内部使用資訊熵。

6、輪廓系數

__簇内不相似度:__計算樣本i到同簇其它樣本的平均距離為ai;ai越小,表示樣本i越應該被聚類到該簇,簇C中的所有樣本的ai的均值被稱為簇C的簇不相似度。

__簇間不相似度:__計算樣本i到其它簇Cj的所有樣本的平均距離bij,i=min{bi1,bi2,...,bik};bi越大,表示樣本i越不屬于其它簇。

輪廓系數: si值越接近1表示樣本i聚類越合理,越接近-1,表示樣本i應該分類到另外的簇中,近似為0,表示樣本i應該在邊界上;所有樣本的si的均值被成為聚類結果的輪廓系數。

09 聚類算法 - 層次聚類

繼續閱讀