四、聚類算法的衡量名額
● 混淆矩陣
● 均一性
● 完整性
● V-measure
● 調整蘭德系數(ARI)
● 調整互資訊(AMI)
● 輪廓系數(Silhouette)
1、均一性
__均一性:__一個簇中隻包含一個類别的樣本,則滿足均一性;其實也可以認為就是正确率(每個聚簇中正确分類的樣本數占該聚簇總樣本數的比例和);
2、完整性
__完整性:__同類别樣本被歸類到相同簇中,則滿足完整性;每個聚簇中正确分類的樣本數占類型的總樣本數比例的和。
3、V-measure
__V-measure:__均一性和完整性的權重平均。
4、調整蘭德系數(ARI)
__Rand index(蘭德指數)(RI)__,RI取值範圍為[0,1],值越大意味着聚類結果與真實情況越吻合。
其中C表示實際類别資訊,K表示聚類結果,a表示在C與K中都是同類别的元素對數,b表示在C與K中都是不同類别的元素對數,C2N samples 表示資料集中可以組成的對數。
__調整蘭德系數(ARI,Adjusted Rnd Index)__,ARI取值範圍[-1,1],值越大,表示聚類結果和真實情況越吻合。從廣義的角度來将,ARI是衡量兩個資料分布的吻合程度的。
5、調整互資訊(AMI)
調整互資訊(AMI,Adjusted Mutual Information) 類似ARI,内部使用資訊熵。
6、輪廓系數
__簇内不相似度:__計算樣本i到同簇其它樣本的平均距離為ai;ai越小,表示樣本i越應該被聚類到該簇,簇C中的所有樣本的ai的均值被稱為簇C的簇不相似度。
__簇間不相似度:__計算樣本i到其它簇Cj的所有樣本的平均距離bij,i=min{bi1,bi2,...,bik};bi越大,表示樣本i越不屬于其它簇。
輪廓系數: si值越接近1表示樣本i聚類越合理,越接近-1,表示樣本i應該分類到另外的簇中,近似為0,表示樣本i應該在邊界上;所有樣本的si的均值被成為聚類結果的輪廓系數。
09 聚類算法 - 層次聚類