天天看點

資料挖掘學習筆記二

學習筆記二

一、資料預處理

1、資料品質用準确性、完整性、一緻性、時效性、可信性和可解釋性定義。品質基于資料的應用目的評估。

2、資料預處理的主要步驟,即資料清理、資料內建、資料歸約和資料變換。

3、資料清理例程試圖填充缺失的值、光滑噪聲并識别離群點、糾正資料中的不一緻。

3.1 缺失值

3.1.1 忽略元組

當缺少類标記符号時通常這樣做(假定挖掘任務涉及分類)。

3.1.2 人工填寫缺失值

3.1.3 使用一個全局變量填充缺失值

将缺失的屬性值用同一個常量(如“Unknown”)替換。

3.1.4 使用屬性的中心度量(如均值或中位數)填充缺失值

3.1.5 使用與給定元組屬同一類的所有樣本的屬性均值或中位數

3.1.6 使用最可能的值填充缺失值

可以用回歸、使用貝葉斯形式化方法的基于推理的工具或決策樹歸納确定。

方法3~6使資料有偏,填入的值可能不正确。然而,方法6是最流行的政策。

3.2 噪聲資料

噪聲是被測量的變量的随機誤差或方差。

3.2.1 分箱

分箱方法通過考察資料的“近鄰”(即周圍的值)來光滑有序資料值。這些有序的值被分布到一些“桶”或箱中。由于分箱方法考察近鄰的值,是以它進行局部光滑。

例子:按price排序後的資料:4,8,15,21,21,24,25,28,34,price資料首先排序并劃分到大小為3的等頻的箱中(即每個箱包含3個值)。

劃分為(等頻的)箱:
箱1:4,8,15
箱2:21,21,24
箱3:25,28,34

用箱均值光滑:
箱1:9,9,9
箱2:22,22,22
箱3:29,29,29

用箱邊界光滑:
箱1:4,4,15
箱2:21,21,24
箱3:25,25,34
           

類似地,可以使用用箱中位數光滑,此時,箱中的每一個值都被替換為該箱的中位數。對于用箱邊界光滑,給定箱中的最大和最小值同樣被視為箱邊界,而箱中的每一個值都被替換為最近的邊界值。

一般而言,寬度越大,光滑效果越明顯。

3.2.2 回歸

可以用一個函數拟合資料來光滑資料。

線性回歸涉及找出拟合兩個屬性(或變量)的“最佳”直線,使一個屬性可以用來預測另一個。

多元線性回歸是線性回歸的補充,其中涉及的屬性多于兩個,并且資料拟合到一個多元曲面。

3.2.3 離群點分析

可以通過如聚類來檢測離群點。

3.2.4 資料清理作為一個過程

第一步:偏差檢測

字段過載是一種錯誤源:開發者将新屬性的定義擠進已經定義的屬性的未使用部分。

唯一性規則是說給定屬性的每個值都必須不同于該屬性的其他值。

連續性規則是說屬性的最低和最高值之間沒有缺失的值,并且所有的值還必須是唯一的。

空值規則說明空白、問号、特殊符号或訓示空值條件的其他串的使用。

資料清洗工具使用簡單的領域知識,檢查并糾正資料中的錯誤。在清理多個資料源資料時,這些工具依賴于分析和模糊比對技術。

資料審計工具通過分析資料發現規則和聯系,并檢測違反這些條件的資料來發現偏差。

資料遷移工具允許說明簡單的變換,如将串“gender”用“sex”替換。

ELT(Extraction/Transformation/Loading)工具允許使用者通過圖形使用者界面說明變換。

3.3 資料內建

內建有助于減少結果資料集的備援和不一緻,這有助于提高其後挖掘過程的準确性和速度。

3.3.1 實體識别問題

3.3.2 備援和相關分析

标稱資料的χ^2相關檢驗

對于标稱資料,兩個屬性A和B之間的相關聯系可以通過χ^2(卡方)檢驗發現。

數值資料的相關系數

如果該結果的值等于0,則A和B是獨立的,并且它們之間不存在相關性。如果該結果值小于0,則A和B 是負相關的,一個值随另一個減少而增加。

散點圖也可以用來觀察屬性之間的相關性。

數值資料的協方差

3.3.3 元組重複

3.3.4 資料值沖突的檢測和處理

3.4 資料歸約

3.4.1 資料歸約政策包括維歸約、數量歸約和資料壓縮。

維歸約:減少所考慮的随機變量或屬性的個數。維歸約方法包括小波變換和主成分分析,它們把原資料變換或投影到較小的空間。屬性子集選擇是一種維歸約方法,其中不相關、弱相關或備援的屬性或維被檢測和删除。

數量歸約:用替代的、較小的資料表示形式替換原始資料。參數方法,使用模型估計資料,使得一般隻需要存放模型參數,而不是實際資料(離群點可能也要存放)。非參數方法,包括直方圖、聚類、抽樣和資料立方體聚集。

資料壓縮:使用變換,以便得到原資料的歸約或壓縮表示。如果原資料能夠從壓縮後的資料重構,而不損失資訊,則該資料歸約稱為無損的。如果我們隻能近似重構原資料,則該資料歸約稱為有損的。維歸約和數量歸約也可以視為某種形式的資料壓縮。

3.4.2 小波變換

離散小波變換(DWT)是一種線性信号處理技術,小波變換可以用于多元資料,如資料立方體。

3.4.3 主成分分析

主成分可以用做多元回歸和聚類分析的輸入。與小波變換相比,PCA能夠更好地處理稀疏資料,而小波變換更适合高維資料。

3.4,4 屬性子集選擇

通過删除不相關或備援的屬性(或維)減少資料量。屬性子集選擇的目标是找出最小屬性集,使得資料類的機率分布盡可能地接近使用所有屬性得到原分布。在縮小的屬性集上挖掘還有其他的優點:它減少了出現在發現模式上的屬性數目,使得模式更易于了解。

屬性子集選擇的基本啟發式方法包括以下技術:

1、逐漸向前選擇:該過程由空屬性集作為歸約集開始,确定原屬性集中最好的屬性,并将它添加到歸約集中。在其後的每一次疊代,将剩下的原屬性集中的最好的屬性添加到該集合中。

2、逐漸向後删除:該過程由整個屬性集開始。在每一步中,删除尚在屬性集中最差的屬性。

3、逐漸向前選擇和逐漸向後删除的組合:可以将逐漸向前選擇和逐漸向後删除方法結合在一起,每一步選擇一個最好的屬性,并在剩餘屬性中删除一個最差的屬性。

4、決策樹歸納:當決策樹歸納用于屬性子集選擇時,由給定的資料構造決策樹。

3.4.5 回歸和對數線性模型:參數化資料歸約

3.4.6 直方圖

直方圖使用分箱來近似資料分布,是一種流行的資料歸約形式。

3.4.7 聚類

聚類技術把資料元組看做對象。

3.4.8 抽樣

1、S個樣本的無放回簡單随機抽樣(SRSWOR)

2、S個樣本的有放回簡單随機抽樣(SRSWR)

3、簇抽樣

4、分層抽樣

3.4.9 資料立方體聚集

3.5 資料變換與資料離散化

3.5.1資料變換政策

1、光滑:去掉資料中的噪聲。這類技術包括分箱、回歸和聚類。

2、屬性構造:可以由給定的屬性構造新的屬性并添加到屬性集中,以幫助挖掘過程。

3、聚集:對資料進行彙總或聚集。

4、規範化:把屬性資料按比例縮放,使之落入一個特定的小區間,如-1.0~1.0或0.0~1.0.

5、離散化:數值屬性(例如,年齡)的原始值用區間标簽(例如0~10,11~20等)或概念标簽(例如,youth、adult、senior)替換。這些标簽可以遞歸地組織成更高層概念,導緻數值屬性的概念分層。

6、由标稱資料産生概念分層

3.5.2 通過規範化變換資料

規範化資料試圖賦予所有屬性相等的權重。規範化的方法:最小——最大規範化、Z分數規範化和按小數定标規範化。

最小——最大規範化對原始資料進行線性變換。保持原始資料值之間的聯系。

Z分數規範化(或零均值規範中),屬性A’的值基于A的均值(即平均值)和标準規範化。

小數定标規範化通過移動屬性A的值的小數點位置進行規範化。小數點的移動位數依賴于A的最大絕對值。

3.5.3 通過分箱離散化

3.5.4 通過直方圖分析離散化

3.5.5 通過聚類、決策樹和相關分析離散化

3.5.6 标稱資料的概念分層産生

1、由使用者或專家在模式級顯式地說明屬性的部分序。

2、通過顯示資料分組說明分層結構的一部分。

3、說明屬性集但不說明它們的偏序

4、隻說明部分屬性集

繼續閱讀