參數檢驗、非參數檢驗、方差分析
- 1.導語
- 2.參數檢驗
- 2.1 資料分布
- 2.1.1 正态分布
- 1.有總體資料
- 2.沒有總體資料,用樣本
- 3.統計參數
- 2.1.2 指數分布
- 1.有總體資料
- 2.沒有總體資料,樣本
- 3.統計參數
- 2.2 單樣本t檢驗
- 2.2.1 單樣本t檢驗目的
- 2.2.2 SPSS操作
- 2.3 兩獨立樣本t檢驗
- 2.3.1 目的
- 2.3.2 SPSS操作
- 2.4 兩配對樣本t檢驗
- 2.4.1 目的
- 2.4.2 SPSS操作
- 3.方差分析
- 3.1 單因素方差分析
- 3.1.1 目的
- 3.1.2 SPSS操作
- 3.2 多因素方差分析
- 4.非參數檢驗
- 4.1 單樣本非參數檢驗
- 4.1.1 總體分布的卡方檢驗
- 4.1.2 二項分布檢驗
- 4.1.3 單樣本K-S檢驗
- 4.2 兩獨立樣本的非參數檢驗
- 4.3 多獨立樣本的非參數檢驗
- 4.4 兩配對樣本的非參數檢驗
- 5 參數檢驗與非參數檢驗對比
1.導語
在做資料分析的時候,不是隻要有資料,就拿去做模型,也有很多資料,結合需求,是不需要用到模型的,比如:
奶茶店,老闆想看一下,合作時間(年份為機關)與奶茶店銷量的關系與差異。
像這樣,隻有一個自變量和一個因變量的資料,做模型效果是非常差的,也不能做聚類分析,因為資料上已經使用合作年份做分組了。
如果我們想看下不同自變量因素,或者類别下,對自變量Y,或者的關系差異情況,就可以用到二種方法:
- 參數檢驗
- 非參數檢驗
這個關系差異分析:可以像聚類分析,那樣,每一個聚類分布的聚類中心都可以作為這個聚類資料分布的統計參數值,對比這幾個聚類特征的統計參數值,即可看出其中的關系和差異。
如果我們想看下不同自變量因素,或者類别下,對自變量Y,或者産生的影響情況,可以用方差分析
2.參數檢驗
參數檢驗是根據樣本資料推斷總體特征的方法,在樣本資料基礎上,以機率形式對統計總體未知的數量特征(如均值,方差)進行表述
通過樣本推斷總體,有二個原因:
- 總體資料無法收集
- 總體資料收集耗費成本過高
前面已經提到了總體分布已知與未知選擇什麼檢驗方法,如果你有總體的資料,可以通過直方圖,或者正态性檢驗等方法來檢驗資料分布
但大部分情況我們是沒有總體資料的,需要對我們分析的資料現象進行分析了,對我們的資料(随機變量)進行資料分布分析
2.1 資料分布
既然要判斷總體分布,那首先我們先了解一下有哪些資料分布,以及對應分布的統計參數。
随機變量分為兩類:離散型随機變量和連續型随機變量
離散型随機變量是指它全部的取值是有限個或可列無限多個
連續型随機變量是指在某一段區間上可以取無限多個數值的随機變量
連續與離散的差別:
變量按其數值表現是否連續。變量值的變動幅度不同。對離散變量,如果變量值的變動幅度小,就可以一個變量值對應一組,稱單項式分組。
最常見的資料分布有:
- 正态分布
- 指數分布
這裡就隻介紹連續型變量的資料分布下,如果檢驗是否為這個分布,以及這個資料分布下,看那些統計參數。
檢驗資料分布分二種:
- 一種是自己有總體資料,在SPSS用P-P圖檢驗總體資料的分布
- 一種是沒有自己總體資料,用抽樣資料去做非參數檢驗
P-P圖
非參數
2.1.1 正态分布
1.有總體資料
1.圖示法
1.P-P圖
2.Q-Q圖
3.直方圖
4.箱式圖
5.莖葉圖
2.計算法
用偏度系數,峰度系數來定量判斷,最實用
用資料其分布的:偏度值、偏度标準誤值,計算Z-score
峰度值、峰度标準誤內插補點,計算Z-score
隻有偏度值和峰度值均≈0,Z-score均在±1.96之間,可認為資料服從正态分布
SPSS步驟
1.
2.
3.
2.沒有總體資料,用樣本
用非參數檢驗單樣本K-S
SPSS步驟
1.
2.
3.
漸近顯著性大于0.05表示符合選擇檢驗的這個分布。
3.統計參數
資料為正态分布,具有代表性的參數有均值和方差。
2.1.2 指數分布
1.有總體資料
圖示法
1.P-P圖
2.Q-Q圖
2.沒有總體資料,樣本
用非參數檢驗單樣本K-S
跟正态分布一樣的
3.統計參數
1.指數分布具有代表性的參數:
λ:為機關時間事件發生的次數
統計參數的目的,是用一個固定的值,來代表整個資料的情況,進一步,做不同樣本,不同總體之間的差異分析,就是我們常說的參數估計裡的點估計。
2.2 單樣本t檢驗
2.2.1 單樣本t檢驗目的
單樣本t檢驗的目的是利用某總體的樣本資料,推斷該總體的均值與指定檢驗值間的差異在統計,它是對總體均值的假設檢驗
例如:利用商品房意向的抽樣調查資料,推斷月住房開銷總體平均值是否為2000元
雖然抽樣會存在誤差,但是樣本均值的抽樣分布是可以确定的,比如抽樣t分布等。當總體分布為正态分布,樣本均值的抽樣分布仍為正态分布。
2.2.2 SPSS操作
選項【分析->比較均值->單樣本T檢驗】
例如:
利用商品購買意向調查資料,推斷被訪者月住房總體平均值是否為2000元,由于該問題涉及是單個總體,且要進行總體均值檢驗,同時月開銷總體近似服從正态分布,是以,可采用單樣本t檢驗來進行分析,原假設
通過SPSS得到如下結果:
該問題采用雙側檢驗,從圖中得p=0.082大于0.05,是以不能拒絕原假設,認為月住房開銷的總體平均值與2000沒有顯著差異。
2.3 兩獨立樣本t檢驗
2.3.1 目的
兩獨立樣本t檢驗的目的是:利用來自兩個總體的獨立樣本,推斷兩個總體的均值是否存在顯著差異。
例如:利用商品房購買意向抽樣調查資料,推斷居住出租房和自有房的月住房開銷總體平均值是否有顯著差異
2.3.2 SPSS操作
選項【分析->比較均值->獨立樣本T檢驗】
例如:
利用商品購買意向調查資料,分析不同居住類型的月住房開銷總體均值是否存在顯著差異,原假設是兩總體平均值無顯著差異,即
通過SPSS得到如下結果:
根據上圖資訊,
第一步,檢驗兩個總體方差齊次性,即是否存在方差顯著性差異,如果有,才能進行兩個總體樣本的均值差異判斷
從圖中得方差F統計量為7.011,p值為0.009小于0.05,證明兩個總體方差存在顯著性差異,
第二步,觀察t統計量,判斷均值是否存在顯著差異
從圖中得均值t檢驗,p值為0.000小于0.05,拒絕原假設,認為兩個總體均值存在顯著差異。
2.4 兩配對樣本t檢驗
2.4.1 目的
兩配對樣本t檢驗的目的是,利用來自兩個總體配對樣本,推斷兩個總體的均值是否存在顯著差異
例如:為研究某種減肥茶是否有顯著的減肥效果,需要對肥胖人群喝茶前與喝茶後的體重進行分析
2.4.2 SPSS操作
選項【分析->比較均值->配對樣本T檢驗】
例如:肥胖人群喝茶前與喝茶後的總體平均體重無顯著差異,即
通過SPSS得到如下結果:
p接近于0.小于0.05,拒絕原假設,認為喝茶前後體重差有顯著不同
3.方差分析
方差分析需要滿足三個假設前提:
- 各總體均服從正态分布
- 各樣本的總體方差相等,即具有方差齊性
- 各樣本互相獨立的随機樣本
各樣本是否互相獨立,可以通過一緻性卡方檢驗
https://blog.csdn.net/weixin_42010722/article/details/124296654
3.1 單因素方差分析
3.1.1 目的
單因素方差分析研究一個控制變量的不同水準,是否對觀測變量産生顯著影響。
例如:不同地區下,廣告銷售額入是否存在顯著影響
3.1.2 SPSS操作
選項【分析->比較均值->單因素ANOVA】
2.勾選選項
通過SPSS得到結果:
p=0.121 小于0.05 方差無顯著差異,則可以進行下一步
p=0.000 小于0.05,拒絕原假設,不同地區間銷售額存在顯著差異。
3.2 多因素方差分析
兩個或兩個以上控制變量是否對觀測變量産生影響
備注:關于兩個組樣本,或多個組樣本,在随機抽樣中,可能存在樣本量不一緻的情況,隻要滿足方差齊性,樣本間互相獨立,樣本服從正态分布即可,至于樣本量,沒有固定的要求。在于的是檢驗效果的情況
4.非參數檢驗
4.1 單樣本非參數檢驗
得到一批樣本資料,想知道這個資料的總體服從那一張資料分布呢,這裡就用可以用到前面提到的P-P,Q-Q等方法判斷,也可以用非參數檢驗的方法比如:卡方檢驗,二項分布檢驗,K-S檢驗來判斷。
4.1.1 總體分布的卡方檢驗
定義:總體分布的卡方檢驗适用于配合度檢驗,是根據樣本資料的實際頻數推斷總體分布與期望分布或理論分布是否有顯著差異。
特點:比較适用于一個因素的多項分類資料分析。總體分布的卡方檢驗的資料是實際收集到的樣本資料,而非頻數資料。
4.1.2 二項分布檢驗
二項分布:從這種二分類總體中抽取的所有可能結果,要麼是對立分類中的這一類,要麼是另一類,其頻數分布稱為二項分布
二項分布檢驗:SPSS二項分布檢驗就是根據收集到的樣本資料,推斷總體分布是否服從某個指定的二項分布
4.1.3 單樣本K-S檢驗
定義:單樣本K-S檢驗是利用樣本資料推斷總體是否服從某一理論分布的方法,适用于探索連續型随機變量的分布形态
4.2 兩獨立樣本的非參數檢驗
定義:兩獨立樣本的非參數檢驗是在對總體分布不很了解的情況下,通過分析樣本資料,推斷樣本來自的兩個獨立總體分布是否存在顯著差異
一般用來對兩個獨立樣本的均數、中位數、離散趨勢、偏度等進行差異比較檢驗。
檢驗方法:
- 兩獨立樣本的Mann-Whitney U檢驗(主要檢驗總體均值有沒有顯著差異)
- 兩獨立樣本的K-S檢驗
- 兩獨立樣本的遊程檢驗
- 兩獨立樣本的極端反應檢驗
4.3 多獨立樣本的非參數檢驗
定義:多獨立樣本非參數檢驗分析樣本資料是推斷樣本來自的多個獨立總體分布是否存在顯著差異
SPSS多獨立樣本非參數檢驗一般推斷多個獨立總體的均值或中位數是否存在顯著差異
檢驗方法:
- 多獨立樣本的中位數檢驗
- 多獨立樣本的K-W檢驗
- 多獨立樣本的Jonkheere-Terpstra檢驗
4.4 兩配對樣本的非參數檢驗
定義:兩配對樣本 (2 Related Samples)非參數檢驗是在對總體分布不很清楚的情況下,對樣本來自的兩相關配對總體分别進行檢驗
前提要求:首先兩個樣本的觀察數目相同,其次兩樣本的觀察值順序不能随意改變
檢驗方法:
- 兩配對樣本的McNemar變化顯著性檢驗(二值資料)
- 兩配對樣本的符号 (Sign)檢驗
- 兩配對樣本的Wilcoxon符号平均秩
5 參數檢驗與非參數檢驗對比
檢驗特征對比
分析方法 | 參數檢驗 | 非參數檢驗 |
适用範圍 | 正态分布 | 分布未知 |
檢驗效能 | 高 | 低 |
對比名額 | 平均值 | 中位數 |
圖像展示 | 折線圖 | 箱線圖 |
分析方法選擇對比
功能 | 參數 | 非參數檢驗 |
與某一個數字對比 | 單樣本t檢驗 | 單樣本Wilcoxon檢驗 |
兩組資料的差異 | 獨立樣本t檢驗 | Mann-Whitney檢驗 |
多組資料的差異 | 單因素方差分析 | Kruskal-Wallis檢驗 |
配對資料差異 |