天天看点

商务智能与数据挖掘 - 衡量数据相似性和相异性标称属性的相异性度量二元属性的相异性度量二元属性的邻近性度量数值属性的相异性序数属性的相异性度量混合类型属性的相异性余弦相似性小结

Menu

  • 标称属性的相异性度量
  • 二元属性的相异性度量
  • 二元属性的邻近性度量
  • 数值属性的相异性
  • 序数属性的相异性度量
  • 混合类型属性的相异性
  • 余弦相似性
  • 小结

标称属性的相异性度量

商务智能与数据挖掘 - 衡量数据相似性和相异性标称属性的相异性度量二元属性的相异性度量二元属性的邻近性度量数值属性的相异性序数属性的相异性度量混合类型属性的相异性余弦相似性小结

二元属性的相异性度量

二元属性只有两种状态:0或1 ,其中0表示该属性不出现,1表示出现

二元属性之间的相异性的计算。 如果所有的二元都被看做具有相同的权重(对称二元属性), 则i和j的相异性我们得到以下列表。

商务智能与数据挖掘 - 衡量数据相似性和相异性标称属性的相异性度量二元属性的相异性度量二元属性的邻近性度量数值属性的相异性序数属性的相异性度量混合类型属性的相异性余弦相似性小结

对于非对称的二元属性,两个状态不是同等重要的; 比如病理化验的阳性(1)和阴性(0)结果。

给定两个非对称的二元属性,两个都取值1的情况(正 匹配)被认为比两个都取值0的情况(负匹配)更有意 义。

基于这种属性的相异性被称为非对称的二元相异性, 其中负匹配数t被认为是不重要的,因此在计算时被忽 略,如下所示

商务智能与数据挖掘 - 衡量数据相似性和相异性标称属性的相异性度量二元属性的相异性度量二元属性的邻近性度量数值属性的相异性序数属性的相异性度量混合类型属性的相异性余弦相似性小结

二元属性的邻近性度量

我们还可以基于相似性而不是相异性来度量两个二元 属性的差别。

对象i和之间的非对称二元相似性可以用下式计算:

商务智能与数据挖掘 - 衡量数据相似性和相异性标称属性的相异性度量二元属性的相异性度量二元属性的邻近性度量数值属性的相异性序数属性的相异性度量混合类型属性的相异性余弦相似性小结

式中的系数sim(i,j)被称作Jaccard系数,它在文献中被广 泛使用。

数值属性的相异性

商务智能与数据挖掘 - 衡量数据相似性和相异性标称属性的相异性度量二元属性的相异性度量二元属性的邻近性度量数值属性的相异性序数属性的相异性度量混合类型属性的相异性余弦相似性小结

欧几里得距离与曼哈顿距离满足如下数学性质

商务智能与数据挖掘 - 衡量数据相似性和相异性标称属性的相异性度量二元属性的相异性度量二元属性的邻近性度量数值属性的相异性序数属性的相异性度量混合类型属性的相异性余弦相似性小结
商务智能与数据挖掘 - 衡量数据相似性和相异性标称属性的相异性度量二元属性的相异性度量二元属性的邻近性度量数值属性的相异性序数属性的相异性度量混合类型属性的相异性余弦相似性小结

序数属性的相异性度量

序数属性的值之间具有有意义的序或排位,而相继值之间的量值未知。例子包括size属性的值序列small、 medium、large

商务智能与数据挖掘 - 衡量数据相似性和相异性标称属性的相异性度量二元属性的相异性度量二元属性的邻近性度量数值属性的相异性序数属性的相异性度量混合类型属性的相异性余弦相似性小结

混合类型属性的相异性

一种方法是将每种类型的属性分成一组,对每种类型分别进 行数据挖掘分析。如果这些分析得到兼容的结果,则这种方 法是可行的。然而在实际的应用中,每种属性类型分别分析 不大可能产生兼容的结果。

一种更可取的方法是将所有属性类型一起处理,只做一次分 析。一种这样的技术将不同的属性组合在单个相异矩阵中, 把所有有意义的属性转换到共同的区间[0.0,1.0]上

商务智能与数据挖掘 - 衡量数据相似性和相异性标称属性的相异性度量二元属性的相异性度量二元属性的邻近性度量数值属性的相异性序数属性的相异性度量混合类型属性的相异性余弦相似性小结

余弦相似性

  • 文档有数以千计的属性表示
  • 词频向量记录了特定词的频度
  • 通常很长,并且是稀疏的
  • 如果找到两个文档间确实共同的值
    商务智能与数据挖掘 - 衡量数据相似性和相异性标称属性的相异性度量二元属性的相异性度量二元属性的邻近性度量数值属性的相异性序数属性的相异性度量混合类型属性的相异性余弦相似性小结

小结

•基本统计描述为数据预处理提供了分析基础。数据概括的基本统计度 量包括度量数据中心趋势的均值、加权平均、中位数和众数,以及度 量数据散布的极差、分位数、四分位数、四分位数极差、方差和标准 差。图像表示有助于数据的可视化考察,因而对数据预处理和挖掘是 有用的。

•数据可视化技术可以是基于像素的、基于几何学的、基于图标的或层 次的。这些方法用于多维关系的数据。已经提出了可用于复杂数据 (如文本和社会网络)的可视化技术。

•对象相似性和相异性度量用于诸如聚类、离群点分析、近邻分类等 数据挖掘应用中。这种邻近性度量可以对本章介绍的每种属性类型或 这些属性类型的组合进行计算。例子包括用于非对称二元属性的 Jaccard系数,用于数值属性的欧几里得距离、曼哈顿距离、闵可夫斯 基距离和上确界距离。对于涉及稀疏数值数据向量(如词频向量)的 应用,余弦度量和Tanimoto系数通常用于相似性评估

继续阅读