1
ISODATA
算法
硕
633
班
3106036072
赵杜娟
一.
实验目的
1
.通过实验熟悉和掌握动态聚类算法的基本概念与原理;
2
.了解
ISODA
TA
聚类算法中的试探步骤和人机交互结构;
3
.编写
ISODA
TA
聚类算法程序,实现对所知数据的聚类。
二.
实验原理
1
.聚类的概念
对模式样本集,
按照样本之间的相似程度分类,
相似的归为一类,
不相似的归为另一类,
这种分类称为聚类分析,
也称为无监督的分类。
它的分类依据是根据距离函数的规律,
这方
法是否有效,
与模式特征向量的分布形式有很大关系。
如果向量点的分布是一群一群的出现,
同一群样本密集,
不同群样本远离,
用距离函数就较易分成若干类。
如果样本集的向量分布
成为一团,就很难作聚类分析。所以对具体对象作聚类分析的关键是选取合适的特征。
必须定义一种相似性的测度来度量同一类样本间的类似性和不属于同一类样本间的差
异性,才能将模式集划分成不同类别。这个相似性的测度可有:欧式距离,马氏距离,一般
化的明氏距离,角度相似性函数,
Tanimoto
测度等。
有了模式相似性的测度,
就能将更为相似的模式样本分在同一类,
而要将更相异的样本
分到另一类,
还需要有数值的聚类准则。
聚类准则的确定有两种方式:
试探方式和聚类准则
函数法。
2
.动态聚类算法
动态聚类算法是一种普遍采用的方法。
动态聚类法是先行选择若干样点为聚类中心,
再
按某种聚类准则(通常采用最小距离原则)使各个样本点向中心聚类,从而得到初始分类。
然后,判断初始分类是否合理,如果不合理,就修改分类,
……
..
。依次反复进行修改聚类
的迭代运算,直到合理为止。它具有以下
3
个要点:
(
1
)
.
选定某种距离度量作为样本间的相似性度量;
(
2
)
.
确定某个评价聚类结果质量的准则函数;
(
3
)
.
给定某个初始分类,然后用迭代算法找出使准则函数取极值的最好聚类结果。