08 聚类算法 - 聚类算法的衡量指标

2018-12-10 23:50:00

07 聚类算法 - 代码案例三 - K-Means算法和Mini Batch K-Means算法效果评估

四、聚类算法的衡量指标

● 混淆矩阵

● 均一性

● 完整性

● V-measure

● 调整兰德系数(ARI)

● 调整互信息(AMI)

● 轮廓系数(Silhouette)

1、均一性

__均一性：__一个簇中只包含一个类别的样本，则满足均一性；其实也可以认为就是正确率(每个聚簇中正确分类的样本数占该聚簇总样本数的比例和);

2、完整性

__完整性：__同类别样本被归类到相同簇中，则满足完整性；每个聚簇中正确分类的样本数占类型的总样本数比例的和。

3、V-measure

__V-measure：__均一性和完整性的加权平均。

4、调整兰德系数(ARI)

__Rand index(兰德指数)(RI)__，RI取值范围为[0,1]，值越大意味着聚类结果与真实情况越吻合。

其中C表示实际类别信息，K表示聚类结果，a表示在C与K中都是同类别的元素对数，b表示在C与K中都是不同类别的元素对数，C2N samples 表示数据集中可以组成的对数。

__调整兰德系数(ARI，Adjusted Rnd Index)__，ARI取值范围[-1,1]，值越大，表示聚类结果和真实情况越吻合。从广义的角度来将，ARI是衡量两个数据分布的吻合程度的。

5、调整互信息(AMI)

调整互信息(AMI，Adjusted Mutual Information) 类似ARI，内部使用信息熵。

6、轮廓系数

__簇内不相似度：__计算样本i到同簇其它样本的平均距离为ai;ai越小，表示样本i越应该被聚类到该簇，簇C中的所有样本的ai的均值被称为簇C的簇不相似度。

__簇间不相似度：__计算样本i到其它簇Cj的所有样本的平均距离bij，i=min{bi1,bi2,...,bik}；bi越大，表示样本i越不属于其它簇。

轮廓系数： si值越接近1表示样本i聚类越合理，越接近-1，表示样本i应该分类到另外的簇中，近似为0，表示样本i应该在边界上；所有样本的si的均值被成为聚类结果的轮廓系数。

09 聚类算法 - 层次聚类

08 聚类算法 - 聚类算法的衡量指标

四、聚类算法的衡量指标

1、均一性

2、完整性

3、V-measure

4、调整兰德系数(ARI)

5、调整互信息(AMI)

6、轮廓系数

继续阅读

开源低带宽语音编解码器

新闻 | Mapbox 牵手阿里，飞猪旅行上线六大城市地图功能

241 Different Ways to Add Parentheses（C代码版）

【趋高机器视觉】机器视觉技术原理解析及解决方案

CSMA/CD1． CSMA/CD的概述2． CSMA 的工作原理3． CSMA/CD控制规程及特点4． CSMA/CD协议5． CSMA/CD的优点6．结束语

极大似然法(ML)与最大期望法(EM)

[HTML5]自定义属性 data-* 和 jQuery.data 详解

2021-2025年中国运动疗法（KT）带行业市场供需与战略研究报告

C++ 第十五周报告1--《冒泡法排序》

2021年危险化学品经营单位安全管理人员考试题库及危险化学品经营单位安全管理人员考试技巧

笔试面试题目：滑动窗口(二)

数据结构与算法（27）——排序（二）

无人机--飞控科普

Dijkstra--简易版（最短路径）

GitHub连夜封杀！这份阿里 10W 字内部 Java 字面试手册到底有多强？

hdu7108哈希