天天看點

資料挖掘 之 資料探索(《Python資料分析與挖掘實戰》)一、資料品質分析二、資料特征分析三、Python主要資料探索函數

文章目錄

  • 一、資料品質分析
    • ① 缺失值分析
    • ② 異常值分析
    • ③ 一緻性分析
  • 二、資料特征分析
    • 1. 分布分析
    • 2. 對比分析
    • 3. 統計量分析
      • ① 集中趨勢度量
      • ② 離中趨勢度量
    • 4. 周期性分析
    • 5. 貢獻度分析
    • 6.相關性分析
      • ① 散點圖
      • ② 散點圖矩陣
      • ③ 計算相關系數
        • (1)Pearson相關系數
        • (2)Spearman相關系數
        • (3)判定系數
  • 三、Python主要資料探索函數
    • 1. 基本統計特征函數
    • 2. 拓展統計特征函數
    • 3. 統計作圖函數

一、資料品質分析

資料品質分析保證了資料的準确性和有效性,其主要任務是檢查原始資料中是否存在髒資料,髒資料主要包括:

缺失值

異常值

不一緻的值

重複資料以及含有特殊符号(如#、¥、*)的資料

① 缺失值分析

有删除、插補、不處理三種缺失值處理方法。

② 異常值分析

(1)簡單統計量分析

可以先對變量做一個描述性統計,進而檢視哪些資料是不合理的。

pandas.describe()就可以檢視資料的基本情況

(2)3σ原則(對正态分布來說)

(3)箱型圖分析

箱型圖依據實際資料繪制,對資料沒有任何限制性要求(如3σ原則要求資料必須為正态分布),它真實的反映資料本來的面貌,并且有一定的魯棒性。

是以,箱型圖在識别異常值方面有一定優越性。

③ 一緻性分析

主要發生在資料內建的過程中,可能由于資料來源不同、對于重複資料未能進行一緻性更新造成的。

二、資料特征分析

1. 分布分析

分為定量和定性分析兩種。

對于定量資料,可通過繪制頻率分布表、繪制頻率分布直方圖、繪制莖葉圖隻管分析其資料是對稱還是非對稱,并發現特大或特小的可疑值。

對于定量變量,選擇“組數”和“組寬”是做頻率分析最重要的問題。一般按照如下步驟進行:

資料挖掘 之 資料探索(《Python資料分析與挖掘實戰》)一、資料品質分析二、資料特征分析三、Python主要資料探索函數

并遵循如下原則:

資料挖掘 之 資料探索(《Python資料分析與挖掘實戰》)一、資料品質分析二、資料特征分析三、Python主要資料探索函數

例如:

資料挖掘 之 資料探索(《Python資料分析與挖掘實戰》)一、資料品質分析二、資料特征分析三、Python主要資料探索函數

對于定性資料,可用餅圖和條形圖直覺的顯示分布情況。

例如:

資料挖掘 之 資料探索(《Python資料分析與挖掘實戰》)一、資料品質分析二、資料特征分析三、Python主要資料探索函數

2. 對比分析

對比分析是指把兩個互相聯系的名額進行比較,從數量上展示和說明研究對象規模的大小,水準的高低,速度的快慢,以及各種關系是否協調。特别适用于名額之間橫縱向比較、時間序列的比較分析。

例如:

資料挖掘 之 資料探索(《Python資料分析與挖掘實戰》)一、資料品質分析二、資料特征分析三、Python主要資料探索函數
資料挖掘 之 資料探索(《Python資料分析與挖掘實戰》)一、資料品質分析二、資料特征分析三、Python主要資料探索函數

3. 統計量分析

一般從集中趨勢和離中趨勢兩個方面做解析

① 集中趨勢度量

平均水準名額是對個體集中趨勢的度量,使用最廣泛的是均值和中位數,才外還有衆數等。

② 離中趨勢度量

有極差、标準差、編譯系數、四分位數間距等,使用較為廣泛的是标準差和四分位間距。

4. 周期性分析

探索某個變量是否随着時間變化呈現一定的周期性變化趨勢。

例如:

資料挖掘 之 資料探索(《Python資料分析與挖掘實戰》)一、資料品質分析二、資料特征分析三、Python主要資料探索函數

5. 貢獻度分析

又稱為帕累托分析,其原理是帕累托法則,又稱20/80定律。

二八定律是19世紀末20世紀初意大利經濟學家帕累托發現的。他認為,在任何一組東西中,最重要的隻占其中一小部分,約20%,其餘80%盡管是多數,卻是次要的,是以又稱二八定律。

例如:對餐飲行業來說,應用貢獻度分析可以改善盈利最高的前80%的菜品,或者發展前80%的部門。這種結果可以通過帕累托圖直覺呈現。

資料挖掘 之 資料探索(《Python資料分析與挖掘實戰》)一、資料品質分析二、資料特征分析三、Python主要資料探索函數

6.相關性分析

分析連續變量之間線性相關程度的強弱,并用适當的統計名額表示。

① 散點圖

可判斷兩個變量是否具有線性相關性的最直覺方法。

資料挖掘 之 資料探索(《Python資料分析與挖掘實戰》)一、資料品質分析二、資料特征分析三、Python主要資料探索函數

② 散點圖矩陣

需要通識考察多個變量的相關關系時,可利用散點圖矩陣同時繪制各個變量之間的散點圖,發現多個變量之間的主要相關性,這在進行多元線性回歸時顯得尤為重要。

資料挖掘 之 資料探索(《Python資料分析與挖掘實戰》)一、資料品質分析二、資料特征分析三、Python主要資料探索函數

③ 計算相關系數

(1)Pearson相關系數

一般分析兩個連續性變量之間的關系,并且要求變量服從正态分布。

(2)Spearman相關系數

不服從正态分布的變量之間的關聯性可以用Spearman秩相關系數,也稱等級相關系數來描述。

隻要兩個變量具有嚴格單調的函數關系,那麼它們就是完全Spearman相關的,而Pearson相關隻有在變量具有線性關系時才是完全相關的。

(3)判定系數

判定系數是相關系數的評分,用來衡量回歸方程對y的解釋程度。

三、Python主要資料探索函數

Python中用于資料探索的庫主要是Pandas(資料分析)和Matplotlib(資料可視化)。其中Pandas提供了大量資料探索相關函數,這些函數大緻可以分為統計特征函數與統計作圖函數,而作圖函數依賴于Matplotlib,是以這兩個庫會結合使用。

一下主要介紹Pandas中主要的統計特征函數與統計作圖函數。

1. 基本統計特征函數

資料挖掘 之 資料探索(《Python資料分析與挖掘實戰》)一、資料品質分析二、資料特征分析三、Python主要資料探索函數

2. 拓展統計特征函數

除了上述基本的統計特征之外,Pandas還提供了一些友善使用的計算統計特征的函數。主要有計算(cum)和滾動計算(pd.rolling_)。

資料挖掘 之 資料探索(《Python資料分析與挖掘實戰》)一、資料品質分析二、資料特征分析三、Python主要資料探索函數
資料挖掘 之 資料探索(《Python資料分析與挖掘實戰》)一、資料品質分析二、資料特征分析三、Python主要資料探索函數
資料挖掘 之 資料探索(《Python資料分析與挖掘實戰》)一、資料品質分析二、資料特征分析三、Python主要資料探索函數

3. 統計作圖函數

作圖通常是Matplotlib和Pandas結合使用。

資料挖掘 之 資料探索(《Python資料分析與挖掘實戰》)一、資料品質分析二、資料特征分析三、Python主要資料探索函數

作圖前一般需要加入以下語句,使正确、準确地輸出:

資料挖掘 之 資料探索(《Python資料分析與挖掘實戰》)一、資料品質分析二、資料特征分析三、Python主要資料探索函數

參考書籍:

《Python資料分析與挖掘實戰》

繼續閱讀