一:為什麼要預處理資料?
(1)現實世界的資料是肮髒的(不完整,含噪聲,不一緻)
(2)沒有高品質的資料,就沒有高品質的挖掘結果(高品質的決策必須依賴于高品質的資料;資料倉庫須要對高品質的資料進行一緻地內建)
(3)原始資料中存在的問題:
不一緻 —— 資料内含出現不一緻情況
反複
不完整 —— 感興趣的屬性沒有
含噪聲 —— 資料中存在着錯誤、或異常(偏離期望值)的資料
高次元
二:資料預處理的方法
(1)資料清洗 —— 去噪聲和無關資料
(2)資料內建 —— 将多個資料源中的資料結合起來存放在一個一緻的資料存儲中
(3)資料變換 —— 把原始資料轉換成為适合資料挖掘的形式
(4)資料規約 —— 主要方法包含:資料立方體聚集,次元歸約,資料壓縮,數值歸約,離散化和概念分層等。
(5)圖說事實
![](https://img.laitimes.com/img/__Qf2AjLwojIjJCLyojI0JCLi0zaHRGcWdUYuVzVa9GczoVdG1mWfVGc5RHLwkzX39GZhh2csATMflHLwEzX4xSZz91ZsADMx8FdsYkRGZkRG9lcvx2bjxSa2EWNhJTW1AlUxEFeVRUUfRHelRHL2EzXlpXazxyayFWbyVGdhd3LcV2Zh1Wa9M3clN2byBXLzN3btg3PnVGcq5CN5UmZmNGNwIWYxYTNjNmMiNWNjR2NwMjZyMWYlhDNi9CX0AzLchDMxIDMy8CXn9Gbi9CXzV2Zh1WavwVbvNmLvR3YxUjL3M3Lc9CX6MHc0RHaiojIsJye.jpeg)
三:資料選取參考原則
(1)盡可能富餘屬性名和屬性值明白的含義
(2)統一多資料源的屬性編碼
(3)去除唯一屬性
(4)去除反複屬性
(5)去除可忽略字段
(6)合理選擇關聯字段
(7)進一步處理:
通過填補遺漏資料、消除異常資料、平滑噪聲資料,以及糾正不一緻資料,去掉資料中的噪音、填充空值、丢失值和處理不一緻資料
四:用圖說話,(我還是習慣用統計圖說話)