天天看點

商務智能與資料挖掘 - 衡量資料相似性和相異性标稱屬性的相異性度量二進制屬性的相異性度量二進制屬性的鄰近性度量數值屬性的相異性序數屬性的相異性度量混合類型屬性的相異性餘弦相似性小結

Menu

  • 标稱屬性的相異性度量
  • 二進制屬性的相異性度量
  • 二進制屬性的鄰近性度量
  • 數值屬性的相異性
  • 序數屬性的相異性度量
  • 混合類型屬性的相異性
  • 餘弦相似性
  • 小結

标稱屬性的相異性度量

商務智能與資料挖掘 - 衡量資料相似性和相異性标稱屬性的相異性度量二進制屬性的相異性度量二進制屬性的鄰近性度量數值屬性的相異性序數屬性的相異性度量混合類型屬性的相異性餘弦相似性小結

二進制屬性的相異性度量

二進制屬性隻有兩種狀态:0或1 ,其中0表示該屬性不出現,1表示出現

二進制屬性之間的相異性的計算。 如果所有的二進制都被看做具有相同的權重(對稱二進制屬性), 則i和j的相異性我們得到以下清單。

商務智能與資料挖掘 - 衡量資料相似性和相異性标稱屬性的相異性度量二進制屬性的相異性度量二進制屬性的鄰近性度量數值屬性的相異性序數屬性的相異性度量混合類型屬性的相異性餘弦相似性小結

對于非對稱的二進制屬性,兩個狀态不是同等重要的; 比如病理化驗的陽性(1)和陰性(0)結果。

給定兩個非對稱的二進制屬性,兩個都取值1的情況(正 比對)被認為比兩個都取值0的情況(負比對)更有意 義。

基于這種屬性的相異性被稱為非對稱的二進制相異性, 其中負比對數t被認為是不重要的,是以在計算時被忽 略,如下所示

商務智能與資料挖掘 - 衡量資料相似性和相異性标稱屬性的相異性度量二進制屬性的相異性度量二進制屬性的鄰近性度量數值屬性的相異性序數屬性的相異性度量混合類型屬性的相異性餘弦相似性小結

二進制屬性的鄰近性度量

我們還可以基于相似性而不是相異性來度量兩個二進制 屬性的差别。

對象i和之間的非對稱二進制相似性可以用下式計算:

商務智能與資料挖掘 - 衡量資料相似性和相異性标稱屬性的相異性度量二進制屬性的相異性度量二進制屬性的鄰近性度量數值屬性的相異性序數屬性的相異性度量混合類型屬性的相異性餘弦相似性小結

式中的系數sim(i,j)被稱作Jaccard系數,它在文獻中被廣 泛使用。

數值屬性的相異性

商務智能與資料挖掘 - 衡量資料相似性和相異性标稱屬性的相異性度量二進制屬性的相異性度量二進制屬性的鄰近性度量數值屬性的相異性序數屬性的相異性度量混合類型屬性的相異性餘弦相似性小結

歐幾裡得距離與曼哈頓距離滿足如下數學性質

商務智能與資料挖掘 - 衡量資料相似性和相異性标稱屬性的相異性度量二進制屬性的相異性度量二進制屬性的鄰近性度量數值屬性的相異性序數屬性的相異性度量混合類型屬性的相異性餘弦相似性小結
商務智能與資料挖掘 - 衡量資料相似性和相異性标稱屬性的相異性度量二進制屬性的相異性度量二進制屬性的鄰近性度量數值屬性的相異性序數屬性的相異性度量混合類型屬性的相異性餘弦相似性小結

序數屬性的相異性度量

序數屬性的值之間具有有意義的序或排位,而相繼值之間的量值未知。例子包括size屬性的值序列small、 medium、large

商務智能與資料挖掘 - 衡量資料相似性和相異性标稱屬性的相異性度量二進制屬性的相異性度量二進制屬性的鄰近性度量數值屬性的相異性序數屬性的相異性度量混合類型屬性的相異性餘弦相似性小結

混合類型屬性的相異性

一種方法是将每種類型的屬性分成一組,對每種類型分别進 行資料挖掘分析。如果這些分析得到相容的結果,則這種方 法是可行的。然而在實際的應用中,每種屬性類型分别分析 不大可能産生相容的結果。

一種更可取的方法是将所有屬性類型一起處理,隻做一次分 析。一種這樣的技術将不同的屬性組合在單個相異矩陣中, 把所有有意義的屬性轉換到共同的區間[0.0,1.0]上

商務智能與資料挖掘 - 衡量資料相似性和相異性标稱屬性的相異性度量二進制屬性的相異性度量二進制屬性的鄰近性度量數值屬性的相異性序數屬性的相異性度量混合類型屬性的相異性餘弦相似性小結

餘弦相似性

  • 文檔有數以千計的屬性表示
  • 詞頻向量記錄了特定詞的頻度
  • 通常很長,并且是稀疏的
  • 如果找到兩個文檔間确實共同的值
    商務智能與資料挖掘 - 衡量資料相似性和相異性标稱屬性的相異性度量二進制屬性的相異性度量二進制屬性的鄰近性度量數值屬性的相異性序數屬性的相異性度量混合類型屬性的相異性餘弦相似性小結

小結

•基本統計描述為資料預處理提供了分析基礎。資料概括的基本統計度 量包括度量資料中心趨勢的均值、權重平均、中位數和衆數,以及度 量資料散布的極差、分位數、四分位數、四分位數極差、方差和标準 差。圖像表示有助于資料的可視化考察,因而對資料預處理和挖掘是 有用的。

•資料可視化技術可以是基于像素的、基于幾何學的、基于圖示的或層 次的。這些方法用于多元關系的資料。已經提出了可用于複雜資料 (如文本和社會網絡)的可視化技術。

•對象相似性和相異性度量用于諸如聚類、離群點分析、近鄰分類等 資料挖掘應用中。這種鄰近性度量可以對本章介紹的每種屬性類型或 這些屬性類型的組合進行計算。例子包括用于非對稱二進制屬性的 Jaccard系數,用于數值屬性的歐幾裡得距離、曼哈頓距離、闵可夫斯 基距離和上确界距離。對于涉及稀疏數值資料向量(如詞頻向量)的 應用,餘弦度量和Tanimoto系數通常用于相似性評估

繼續閱讀