學習筆記二

一、資料預處理

1、資料品質用準确性、完整性、一緻性、時效性、可信性和可解釋性定義。品質基于資料的應用目的評估。

2、資料預處理的主要步驟，即資料清理、資料內建、資料歸約和資料變換。

3、資料清理例程試圖填充缺失的值、光滑噪聲并識别離群點、糾正資料中的不一緻。

3.1 缺失值

3.1.1 忽略元組

當缺少類标記符号時通常這樣做（假定挖掘任務涉及分類）。

3.1.2 人工填寫缺失值

3.1.3 使用一個全局變量填充缺失值

将缺失的屬性值用同一個常量（如“Unknown”）替換。

3.1.4 使用屬性的中心度量（如均值或中位數）填充缺失值

3.1.5 使用與給定元組屬同一類的所有樣本的屬性均值或中位數

3.1.6 使用最可能的值填充缺失值

可以用回歸、使用貝葉斯形式化方法的基于推理的工具或決策樹歸納确定。

方法3~6使資料有偏，填入的值可能不正确。然而，方法6是最流行的政策。

3.2 噪聲資料

噪聲是被測量的變量的随機誤差或方差。

3.2.1 分箱

分箱方法通過考察資料的“近鄰”（即周圍的值）來光滑有序資料值。這些有序的值被分布到一些“桶”或箱中。由于分箱方法考察近鄰的值，是以它進行局部光滑。

例子：按price排序後的資料：4,8,15,21,21,24,25,28,34，price資料首先排序并劃分到大小為3的等頻的箱中（即每個箱包含3個值）。

劃分為（等頻的）箱：
箱1:4,8,15
箱2:21,21,24
箱3:25,28,34

用箱均值光滑：
箱1:9,9,9
箱2:22,22,22
箱3:29,29,29

用箱邊界光滑：
箱1:4,4,15
箱2:21,21,24
箱3:25,25,34

類似地，可以使用用箱中位數光滑，此時，箱中的每一個值都被替換為該箱的中位數。對于用箱邊界光滑，給定箱中的最大和最小值同樣被視為箱邊界，而箱中的每一個值都被替換為最近的邊界值。

一般而言，寬度越大，光滑效果越明顯。

3.2.2 回歸

可以用一個函數拟合資料來光滑資料。

線性回歸涉及找出拟合兩個屬性（或變量）的“最佳”直線，使一個屬性可以用來預測另一個。

多元線性回歸是線性回歸的補充，其中涉及的屬性多于兩個，并且資料拟合到一個多元曲面。

3.2.3 離群點分析

可以通過如聚類來檢測離群點。

3.2.4 資料清理作為一個過程

第一步：偏差檢測

字段過載是一種錯誤源：開發者将新屬性的定義擠進已經定義的屬性的未使用部分。

唯一性規則是說給定屬性的每個值都必須不同于該屬性的其他值。

連續性規則是說屬性的最低和最高值之間沒有缺失的值，并且所有的值還必須是唯一的。

空值規則說明空白、問号、特殊符号或訓示空值條件的其他串的使用。

資料清洗工具使用簡單的領域知識，檢查并糾正資料中的錯誤。在清理多個資料源資料時，這些工具依賴于分析和模糊比對技術。

資料審計工具通過分析資料發現規則和聯系，并檢測違反這些條件的資料來發現偏差。

資料遷移工具允許說明簡單的變換，如将串“gender”用“sex”替換。

ELT（Extraction/Transformation/Loading）工具允許使用者通過圖形使用者界面說明變換。

3.3 資料內建

內建有助于減少結果資料集的備援和不一緻，這有助于提高其後挖掘過程的準确性和速度。

3.3.1 實體識别問題

3.3.2 備援和相關分析

标稱資料的χ^2相關檢驗

對于标稱資料，兩個屬性A和B之間的相關聯系可以通過χ^2（卡方）檢驗發現。

數值資料的相關系數

如果該結果的值等于0，則A和B是獨立的，并且它們之間不存在相關性。如果該結果值小于0，則A和B 是負相關的，一個值随另一個減少而增加。

散點圖也可以用來觀察屬性之間的相關性。

數值資料的協方差

3.3.3 元組重複

3.3.4 資料值沖突的檢測和處理

3.4 資料歸約

3.4.1 資料歸約政策包括維歸約、數量歸約和資料壓縮。

維歸約：減少所考慮的随機變量或屬性的個數。維歸約方法包括小波變換和主成分分析，它們把原資料變換或投影到較小的空間。屬性子集選擇是一種維歸約方法，其中不相關、弱相關或備援的屬性或維被檢測和删除。

數量歸約：用替代的、較小的資料表示形式替換原始資料。參數方法，使用模型估計資料，使得一般隻需要存放模型參數，而不是實際資料（離群點可能也要存放）。非參數方法，包括直方圖、聚類、抽樣和資料立方體聚集。

資料壓縮：使用變換，以便得到原資料的歸約或壓縮表示。如果原資料能夠從壓縮後的資料重構，而不損失資訊，則該資料歸約稱為無損的。如果我們隻能近似重構原資料，則該資料歸約稱為有損的。維歸約和數量歸約也可以視為某種形式的資料壓縮。

3.4.2 小波變換

離散小波變換（DWT）是一種線性信号處理技術，小波變換可以用于多元資料，如資料立方體。

3.4.3 主成分分析

主成分可以用做多元回歸和聚類分析的輸入。與小波變換相比，PCA能夠更好地處理稀疏資料，而小波變換更适合高維資料。

3.4,4 屬性子集選擇

通過删除不相關或備援的屬性（或維）減少資料量。屬性子集選擇的目标是找出最小屬性集，使得資料類的機率分布盡可能地接近使用所有屬性得到原分布。在縮小的屬性集上挖掘還有其他的優點：它減少了出現在發現模式上的屬性數目，使得模式更易于了解。

屬性子集選擇的基本啟發式方法包括以下技術：

1、逐漸向前選擇：該過程由空屬性集作為歸約集開始，确定原屬性集中最好的屬性，并将它添加到歸約集中。在其後的每一次疊代，将剩下的原屬性集中的最好的屬性添加到該集合中。

2、逐漸向後删除：該過程由整個屬性集開始。在每一步中，删除尚在屬性集中最差的屬性。

3、逐漸向前選擇和逐漸向後删除的組合：可以将逐漸向前選擇和逐漸向後删除方法結合在一起，每一步選擇一個最好的屬性，并在剩餘屬性中删除一個最差的屬性。

4、決策樹歸納：當決策樹歸納用于屬性子集選擇時，由給定的資料構造決策樹。

3.4.5 回歸和對數線性模型：參數化資料歸約

3.4.6 直方圖

直方圖使用分箱來近似資料分布，是一種流行的資料歸約形式。

3.4.7 聚類

聚類技術把資料元組看做對象。

3.4.8 抽樣

1、S個樣本的無放回簡單随機抽樣（SRSWOR）

2、S個樣本的有放回簡單随機抽樣（SRSWR）

3、簇抽樣

4、分層抽樣

3.4.9 資料立方體聚集

3.5 資料變換與資料離散化

3.5.1資料變換政策

1、光滑：去掉資料中的噪聲。這類技術包括分箱、回歸和聚類。

2、屬性構造：可以由給定的屬性構造新的屬性并添加到屬性集中，以幫助挖掘過程。

3、聚集：對資料進行彙總或聚集。

4、規範化：把屬性資料按比例縮放，使之落入一個特定的小區間，如-1.0~1.0或0.0~1.0.

5、離散化：數值屬性（例如，年齡）的原始值用區間标簽（例如0~10，11~20等）或概念标簽（例如，youth、adult、senior）替換。這些标簽可以遞歸地組織成更高層概念，導緻數值屬性的概念分層。

6、由标稱資料産生概念分層

3.5.2 通過規範化變換資料

規範化資料試圖賦予所有屬性相等的權重。規範化的方法：最小——最大規範化、Z分數規範化和按小數定标規範化。

最小——最大規範化對原始資料進行線性變換。保持原始資料值之間的聯系。

Z分數規範化(或零均值規範中)，屬性A’的值基于A的均值（即平均值）和标準規範化。

小數定标規範化通過移動屬性A的值的小數點位置進行規範化。小數點的移動位數依賴于A的最大絕對值。

3.5.3 通過分箱離散化

3.5.4 通過直方圖分析離散化

3.5.5 通過聚類、決策樹和相關分析離散化

3.5.6 标稱資料的概念分層産生

1、由使用者或專家在模式級顯式地說明屬性的部分序。

2、通過顯示資料分組說明分層結構的一部分。

3、說明屬性集但不說明它們的偏序

4、隻說明部分屬性集

資料挖掘學習筆記二

學習筆記二

繼續閱讀

《富爸爸窮爸爸》書摘-關注自己的事業

《You Don't Know JS》第一部：《You don't know JS: this & Object prototype》

《Java程式設計思想》第四版筆記第一章對象導論

讀《Pragmatic Thinking and Learning》筆記及摘錄

浏覽<Pragmatic Thinking and Learning:Refactor Your “Wetware”>筆記

從0到1 zero to one大綱&摘錄大綱摘錄

讀《斷舍離》部分摘錄

算法圖解讀書筆記第8章貪婪算法

《算法圖解》讀書筆記

《啊哈！算法》讀書筆記

算法圖解讀書筆記第3章遞歸

【讀書筆記】【linux kernel development】【從核心出發】

原則-讀書筆記-想要與事實的辨析和連接配接

《斷舍離》筆記二

投資學第二章 Asset Classes and Financial Instruments

投資學第一章 investments-introduction