大資料處理之道(預處理方法）

2015-01-27 09:12:00

一：為什麼要預處理資料？

（1）現實世界的資料是肮髒的（不完整，含噪聲，不一緻）

（2）沒有高品質的資料，就沒有高品質的挖掘結果（高品質的決策必須依賴于高品質的資料；資料倉庫須要對高品質的資料進行一緻地內建）

（3）原始資料中存在的問題：

不一緻 —— 資料内含出現不一緻情況

反複

不完整 —— 感興趣的屬性沒有

含噪聲 —— 資料中存在着錯誤、或異常（偏離期望值）的資料

高次元

二：資料預處理的方法

（1）資料清洗 —— 去噪聲和無關資料

（2）資料內建 —— 将多個資料源中的資料結合起來存放在一個一緻的資料存儲中

（3）資料變換 —— 把原始資料轉換成為适合資料挖掘的形式

（4）資料規約 —— 主要方法包含：資料立方體聚集，次元歸約，資料壓縮，數值歸約，離散化和概念分層等。

（5）圖說事實

三：資料選取參考原則

（1）盡可能富餘屬性名和屬性值明白的含義

（2）統一多資料源的屬性編碼

（3）去除唯一屬性

（4）去除反複屬性

（5）去除可忽略字段

（6）合理選擇關聯字段

（7）進一步處理：

通過填補遺漏資料、消除異常資料、平滑噪聲資料，以及糾正不一緻資料，去掉資料中的噪音、填充空值、丢失值和處理不一緻資料

四：用圖說話，（我還是習慣用統計圖說話）

繼續閱讀