标稱屬性的相異性度量

商務智能與資料挖掘 - 衡量資料相似性和相異性标稱屬性的相異性度量二進制屬性的相異性度量二進制屬性的鄰近性度量數值屬性的相異性序數屬性的相異性度量混合類型屬性的相異性餘弦相似性小結

二進制屬性的相異性度量

二進制屬性隻有兩種狀态：0或1 ，其中0表示該屬性不出現，1表示出現

二進制屬性之間的相異性的計算。如果所有的二進制都被看做具有相同的權重（對稱二進制屬性），則i和j的相異性我們得到以下清單。

對于非對稱的二進制屬性，兩個狀态不是同等重要的；比如病理化驗的陽性（1）和陰性（0）結果。

給定兩個非對稱的二進制屬性，兩個都取值1的情況（正比對）被認為比兩個都取值0的情況（負比對）更有意義。

基于這種屬性的相異性被稱為非對稱的二進制相異性，其中負比對數t被認為是不重要的，是以在計算時被忽略，如下所示

二進制屬性的鄰近性度量

我們還可以基于相似性而不是相異性來度量兩個二進制屬性的差别。

對象i和之間的非對稱二進制相似性可以用下式計算：

式中的系數sim(i,j)被稱作Jaccard系數，它在文獻中被廣泛使用。

數值屬性的相異性

歐幾裡得距離與曼哈頓距離滿足如下數學性質

序數屬性的相異性度量

序數屬性的值之間具有有意義的序或排位，而相繼值之間的量值未知。例子包括size屬性的值序列small、 medium、large

混合類型屬性的相異性

一種方法是将每種類型的屬性分成一組，對每種類型分别進行資料挖掘分析。如果這些分析得到相容的結果，則這種方法是可行的。然而在實際的應用中，每種屬性類型分别分析不大可能産生相容的結果。

一種更可取的方法是将所有屬性類型一起處理，隻做一次分析。一種這樣的技術将不同的屬性組合在單個相異矩陣中，把所有有意義的屬性轉換到共同的區間[0.0,1.0]上

餘弦相似性

文檔有數以千計的屬性表示
詞頻向量記錄了特定詞的頻度
通常很長，并且是稀疏的
如果找到兩個文檔間确實共同的值

商務智能與資料挖掘 - 衡量資料相似性和相異性标稱屬性的相異性度量二進制屬性的相異性度量二進制屬性的鄰近性度量數值屬性的相異性序數屬性的相異性度量混合類型屬性的相異性餘弦相似性小結

小結

•基本統計描述為資料預處理提供了分析基礎。資料概括的基本統計度量包括度量資料中心趨勢的均值、權重平均、中位數和衆數，以及度量資料散布的極差、分位數、四分位數、四分位數極差、方差和标準差。圖像表示有助于資料的可視化考察，因而對資料預處理和挖掘是有用的。

•資料可視化技術可以是基于像素的、基于幾何學的、基于圖示的或層次的。這些方法用于多元關系的資料。已經提出了可用于複雜資料（如文本和社會網絡）的可視化技術。

•對象相似性和相異性度量用于諸如聚類、離群點分析、近鄰分類等資料挖掘應用中。這種鄰近性度量可以對本章介紹的每種屬性類型或這些屬性類型的組合進行計算。例子包括用于非對稱二進制屬性的 Jaccard系數，用于數值屬性的歐幾裡得距離、曼哈頓距離、闵可夫斯基距離和上确界距離。對于涉及稀疏數值資料向量（如詞頻向量）的應用，餘弦度量和Tanimoto系數通常用于相似性評估

商務智能與資料挖掘 - 衡量資料相似性和相異性标稱屬性的相異性度量二進制屬性的相異性度量二進制屬性的鄰近性度量數值屬性的相異性序數屬性的相異性度量混合類型屬性的相異性餘弦相似性小結

Menu

标稱屬性的相異性度量

二進制屬性的相異性度量

二進制屬性的鄰近性度量

數值屬性的相異性

序數屬性的相異性度量

混合類型屬性的相異性

餘弦相似性

小結

繼續閱讀

LabelImg的安裝與使用（Anaconda環境）Labellmg的安裝

windows10 64bit + Anaconda + python3.5 安裝xgboost的一種簡單方法

資料挖掘-歸一化

Anaconda：Matpotlib工具安裝

anaconda安裝及使用小技巧anaconda使用小技巧

Anaconda環境配置

一、Python資料挖掘（環境篇——Anaconda與Jupyter Notebook）一、Python資料挖掘（環境篇——Anaconda與Jupyter Notebook）

Anaconda3安裝face_recognitionAnaconda3(python3.7.4)安裝face_recognition

資料挖掘中的隐私保護

資料挖掘研究内容和本質（轉）

資料挖掘分類技術

淺談資料挖掘評估技術

資料挖掘001

從大資料看技術，為什麼天貓雙11是史上最大數字經濟節日

用Matlab搞計算機視覺是怎樣的體驗？

在weka中內建自己的算法