天天看點

大資料處理之道(預處理方法)

一:為什麼要預處理資料?

(1)現實世界的資料是肮髒的(不完整,含噪聲,不一緻)

(2)沒有高品質的資料,就沒有高品質的挖掘結果(高品質的決策必須依賴于高品質的資料;資料倉庫須要對高品質的資料進行一緻地內建)

(3)原始資料中存在的問題:

不一緻 —— 資料内含出現不一緻情況

反複

不完整 —— 感興趣的屬性沒有

含噪聲 —— 資料中存在着錯誤、或異常(偏離期望值)的資料

高次元

二:資料預處理的方法

(1)資料清洗 —— 去噪聲和無關資料

(2)資料內建 —— 将多個資料源中的資料結合起來存放在一個一緻的資料存儲中

(3)資料變換 —— 把原始資料轉換成為适合資料挖掘的形式

(4)資料規約 —— 主要方法包含:資料立方體聚集,次元歸約,資料壓縮,數值歸約,離散化和概念分層等。

(5)圖說事實

大資料處理之道(預處理方法)
大資料處理之道(預處理方法)

三:資料選取參考原則

(1)盡可能富餘屬性名和屬性值明白的含義

(2)統一多資料源的屬性編碼

(3)去除唯一屬性

(4)去除反複屬性

(5)去除可忽略字段

(6)合理選擇關聯字段

(7)進一步處理:

通過填補遺漏資料、消除異常資料、平滑噪聲資料,以及糾正不一緻資料,去掉資料中的噪音、填充空值、丢失值和處理不一緻資料

四:用圖說話,(我還是習慣用統計圖說話)