文章目錄
- 一、資料品質分析
-
- ① 缺失值分析
- ② 異常值分析
- ③ 一緻性分析
- 二、資料特征分析
-
- 1. 分布分析
- 2. 對比分析
- 3. 統計量分析
-
- ① 集中趨勢度量
- ② 離中趨勢度量
- 4. 周期性分析
- 5. 貢獻度分析
- 6.相關性分析
-
- ① 散點圖
- ② 散點圖矩陣
- ③ 計算相關系數
-
- (1)Pearson相關系數
- (2)Spearman相關系數
- (3)判定系數
- 三、Python主要資料探索函數
-
- 1. 基本統計特征函數
- 2. 拓展統計特征函數
- 3. 統計作圖函數
一、資料品質分析
資料品質分析保證了資料的準确性和有效性,其主要任務是檢查原始資料中是否存在髒資料,髒資料主要包括:
缺失值
異常值
不一緻的值
重複資料以及含有特殊符号(如#、¥、*)的資料
① 缺失值分析
有删除、插補、不處理三種缺失值處理方法。
② 異常值分析
(1)簡單統計量分析
可以先對變量做一個描述性統計,進而檢視哪些資料是不合理的。
pandas.describe()就可以檢視資料的基本情況
(2)3σ原則(對正态分布來說)
(3)箱型圖分析
箱型圖依據實際資料繪制,對資料沒有任何限制性要求(如3σ原則要求資料必須為正态分布),它真實的反映資料本來的面貌,并且有一定的魯棒性。
是以,箱型圖在識别異常值方面有一定優越性。
③ 一緻性分析
主要發生在資料內建的過程中,可能由于資料來源不同、對于重複資料未能進行一緻性更新造成的。
二、資料特征分析
1. 分布分析
分為定量和定性分析兩種。
對于定量資料,可通過繪制頻率分布表、繪制頻率分布直方圖、繪制莖葉圖隻管分析其資料是對稱還是非對稱,并發現特大或特小的可疑值。
對于定量變量,選擇“組數”和“組寬”是做頻率分析最重要的問題。一般按照如下步驟進行:
并遵循如下原則:
例如:
對于定性資料,可用餅圖和條形圖直覺的顯示分布情況。
例如:
2. 對比分析
對比分析是指把兩個互相聯系的名額進行比較,從數量上展示和說明研究對象規模的大小,水準的高低,速度的快慢,以及各種關系是否協調。特别适用于名額之間橫縱向比較、時間序列的比較分析。
例如:
3. 統計量分析
一般從集中趨勢和離中趨勢兩個方面做解析
① 集中趨勢度量
平均水準名額是對個體集中趨勢的度量,使用最廣泛的是均值和中位數,才外還有衆數等。
② 離中趨勢度量
有極差、标準差、編譯系數、四分位數間距等,使用較為廣泛的是标準差和四分位間距。
4. 周期性分析
探索某個變量是否随着時間變化呈現一定的周期性變化趨勢。
例如:
5. 貢獻度分析
又稱為帕累托分析,其原理是帕累托法則,又稱20/80定律。
二八定律是19世紀末20世紀初意大利經濟學家帕累托發現的。他認為,在任何一組東西中,最重要的隻占其中一小部分,約20%,其餘80%盡管是多數,卻是次要的,是以又稱二八定律。
例如:對餐飲行業來說,應用貢獻度分析可以改善盈利最高的前80%的菜品,或者發展前80%的部門。這種結果可以通過帕累托圖直覺呈現。
6.相關性分析
分析連續變量之間線性相關程度的強弱,并用适當的統計名額表示。
① 散點圖
可判斷兩個變量是否具有線性相關性的最直覺方法。
② 散點圖矩陣
需要通識考察多個變量的相關關系時,可利用散點圖矩陣同時繪制各個變量之間的散點圖,發現多個變量之間的主要相關性,這在進行多元線性回歸時顯得尤為重要。
③ 計算相關系數
(1)Pearson相關系數
一般分析兩個連續性變量之間的關系,并且要求變量服從正态分布。
(2)Spearman相關系數
不服從正态分布的變量之間的關聯性可以用Spearman秩相關系數,也稱等級相關系數來描述。
隻要兩個變量具有嚴格單調的函數關系,那麼它們就是完全Spearman相關的,而Pearson相關隻有在變量具有線性關系時才是完全相關的。
(3)判定系數
判定系數是相關系數的評分,用來衡量回歸方程對y的解釋程度。
三、Python主要資料探索函數
Python中用于資料探索的庫主要是Pandas(資料分析)和Matplotlib(資料可視化)。其中Pandas提供了大量資料探索相關函數,這些函數大緻可以分為統計特征函數與統計作圖函數,而作圖函數依賴于Matplotlib,是以這兩個庫會結合使用。
一下主要介紹Pandas中主要的統計特征函數與統計作圖函數。
1. 基本統計特征函數
2. 拓展統計特征函數
除了上述基本的統計特征之外,Pandas還提供了一些友善使用的計算統計特征的函數。主要有計算(cum)和滾動計算(pd.rolling_)。
3. 統計作圖函數
作圖通常是Matplotlib和Pandas結合使用。
作圖前一般需要加入以下語句,使正确、準确地輸出:
參考書籍:
《Python資料分析與挖掘實戰》