天天看點

正态性檢驗處理流程

作者:spssau

正态性檢驗處理流程

正态性檢驗處理流程

一、分析問題

在實際研究中,正态性是很多研究方法在進行分析時需要滿足的前提條件。常見的比如方差分析、T檢驗、相關分析、回歸分析等等,這些分析方法使用的前提假定就是需要資料滿足正态分布。

但是這一點經常被分析人員有意或無意的忽略掉。原因一可能在于大家“心照不宣”的預設資料滿足正态性;原因二可能是分析人員的資料分析基礎知識不夠,不知道需要進行正态性檢驗;原因三可能在于知道資料需要滿足正态分布,但是資料無論如何都無法滿足正态性,就放棄了。

如果說資料分析方法沒有滿足需要的前提條件,那麼分析得到的結果就是不夠科學、不夠嚴謹的,甚至得到的分析結論也會“本末倒置”。這就提示我們資料分析一定要嚴謹,正态性檢驗必不可少,接下來将介紹一下正态性檢驗方式。

二、檢驗方式

正态性檢驗方式主要有統計檢驗法、描述法、圖示法這三大類。

目前有3個班級90名同學的期中考試成績,現在要檢驗成績是否滿足正态分布,部分資料如下:

正态性檢驗處理流程

我們将分别使用這三類分析方法進行正态性檢驗,這三類方法都可以在SPSSAU系統找到,下面将一一進行介紹說明。

1.統計檢驗法

統計檢驗法是檢驗正态性的最嚴格方法,對資料要求最為嚴格。統計檢驗法包括兩種檢驗方式,分别是Kolmogorov-Smirnov檢驗和Shapiro-Wilk檢驗。如果樣本量大于50,則使用K-S檢驗(Kolmogorov-Smirnov檢驗),反之則使用S-W檢驗(Shapiro-Wilk檢驗)。

SPSSAU正态性檢驗分析結果如下:

正态性檢驗處理流程

因為樣本量為90,大于50,是以使用K-S檢驗進行,具體來看,成績全部均沒有呈現顯著性(p>0.05),是以成績全部具有正态性特質,滿足正态分布。

2.描述法

統計檢驗法一般來講是很難滿足的,是以在正态性檢驗分析結果中,還可以看峰度和偏度兩個名額,描述法是使用峰度和偏度考察資料的正态性。一般認為,如果峰度絕對值小于10并且偏度絕對值小于3,則說明資料雖然不是絕對正态,但基本可接受為正态分布。

正态性檢驗處理流程

從上圖通過檢視偏度和峰度,也可以得到資料滿足正态分布的性質。

3.圖示法

大部分情況下,如果對資料要求不是特别嚴格,一般使用圖示法進行資料的正态性檢驗。圖示法包括檢視資料直方圖、P-P圖和Q-Q圖三種。

3.1直方圖

如果直方圖的形狀近似滿足“中間高,兩頭低”的鐘形分布,則說明資料近似滿足正态分布特性,不必過多糾結資料的正态性。

SPSSAU直方圖輸出結果如下:

正态性檢驗處理流程

從上圖可以看出,成績的直方圖基本滿足“中間高,兩頭低”的鐘形分布,說明資料滿足正态分布特性。

3.2 P-P圖

P-P圖其原理在于如果資料正态,那麼資料的累積比例與正态分布累積比例基本保持一緻。分别計算出資料累積比例,和假定正态時的資料分布累積比例;并且将實際資料累積比例作為X軸,将對應正态分布累積比例作為Y軸,作散點圖。

SPSSAU的P-P圖輸出結果如下:

正态性檢驗處理流程

從P-P圖可以看出,散點圖近似呈現一條對角直線,說明成績呈現正态分布。

3.3 Q-Q圖

Q-Q圖其原理在于如果資料正态,那麼其假定的正态分位數會與實際資料基本一緻。計算出假定正态時的資料分位數;并且将實際資料作為X軸,将假定正态時的資料分位數作為Y軸,作散點圖。

SPSSAU的Q-Q圖輸出結果如下:

正态性檢驗處理流程

從Q-Q圖可以看出,散點圖近似呈現一條對角直線,說明成績呈現正态分布。

三、非正态轉化

從理論上講,很多研究方法需要滿足正态分布特質,但現實情況下,很難滿足正态分布性。這樣就需要進行非正态轉化,想辦法将不滿足正态性特性的資料,經過一些方法,轉化為滿足正态分布的資料。非正态轉化為正态資料的常見方法有以下幾種:

1.取對數

a'=log(a)将原始資料a的對數值作為新的資料再進行分析;當原始資料中含有0或者負數時,可以根據内容自主進行相應改動:如a'=log(a+x)。

2.開根号

a'=sqrt(a)将原始資料a的平方根作為新的資料再進行分析;同樣的,如果a為0,可以将a加上一個合适的值進行變換。

3.取倒數

a'=1/a将原始資料a的倒數值作為新的資料再進行分析。

4.移除異常值

異常值,也稱離群值,是指樣本中的個别值,其數值明顯偏離所屬樣本的絕大部分觀測值。不論進行什麼分析,如果資料中存在異常值,都應該在分析前進行處理,否則很可能影響分析結果,甚至扭曲結論。異常值可在SPSSAU->資料處理->異常值中進行處理。

5.BOX-COX轉換

針對資料進行Box-Cox變換,盡量讓資料滿足正态性。

例如現在有一份資料,在進行正态性檢驗時,p值為0.019<0.05,說明資料不具有正态性特質。将資料進行BOX-COX轉換後,二者進行正态性檢驗得到分析結果如下表:

正态性檢驗處理流程

從上表可以看出,雖然再經過BOX-COX轉換後p值仍小于0.05,沒有通過正态性檢驗,但p值從0.019變為0.042,明顯接近0.05,說明BOX-COX轉換對于正态性的改善是有作用的。

6.Johnson轉換

同樣的,Johnson轉換與BOX-COX轉換一樣,都是通過某種變換使得資料盡量滿足正态性。

正态性檢驗處理流程

從上表可以明顯看出,雖然再經過Johnson轉換後p值仍小于0.05,沒有通過正态性檢驗,但p值從0.019變為0.042,明顯接近0.05,說明Johnson轉換對于正态性的改善是有作用的。

7.加大樣本量

一般認為,有可能随着樣本數增加越傾向于拒絕原假設(服從正态分布)。即樣本資料量越大,則可以認為資料越具有正态性特質。是以可以通過加大樣本量的方法提高資料的正态性。但這種方法在實際情況中很難實作,因為資料一般都是已經收集完成再進行分析的,此時再去收集資料加大樣本量并不現實。

四、正态轉化優劣對比

并不是所有資料在進行以上非正态轉化後都可以呈現出正态性特征的。如果在進行非正态轉化後資料仍不滿足正态性,此時說明資料并不适合使用方差分析、t檢驗等方法,可以選擇其他方法進行分析。舉例說明如下圖:

正态性檢驗處理流程

五、總結

在實際研究中,很多分析方法的前提條件都要求資料滿足正态性特征,是以在分析前需要進行正态性檢驗。正态性檢驗的方法包括統計檢驗法、描述法、圖示法三大類。其中,統計檢驗法對于資料正态性要求最為嚴格,絕對正态資料一般很難達到。一般使用描述法或圖示法進行檢驗,資料近似滿足正态性特征即可。如果經過檢驗發現資料并不滿足正态性特征,這個時候可以先進行資料的非正态轉化,但是轉化并不能保證資料一定能滿足正态性特征。同時需要注意,有實際意義的資料經過轉化後可能失去實際意義。如果無論如何資料都不能滿足正态性,此時可以考慮使用非參數檢驗等方法進行分析。

繼續閱讀