本节书摘来自异步社区《spss 统计分析从入门到精通(第2版)》一书中的第6章,第6.2节,作者 杜强 , 贾丽艳 , 严先锋,更多章节内容可以访问云栖社区“异步社区”公众号查看
spss 统计分析从入门到精通(第2版)
在某些统计方法中,往往事先假定总体服从正态分布,然后对其均值或方差做检验,但某个随机变量是否服从某种特定的分布是需要进行检验的。卡方检验(chi-square test)就是一种用来检验给定
的样本数据是否来自特定分布的方法。
检验的过程,通常是先根据以往的经验或实际观测数据的分布情况,推测总体服从某种分布,分布函数为f(x),然后利用样本数据检验该总体的分布函数是否就是f(x)。
卡方检验的零假设h0为:样本所属总体的分布与指定的理论分布无显著差异。卡方检验直接检验的是实际频数与指定分布的频数是否相符。
1.卡方统计量χ2
χ2统计量:
,其中k是样本分类的个数,{f_{oi}}表示实际观察到的频数,{f_{ei}}表示指定理论分布下的频数。观察频数与理论频数越接近,则χ2值越小。根据皮尔逊定理,当n充分大时,χ2统计量渐近服从于
分布。
根据给定的显著性水平α和卡方分布的自由度确定检验的临界值
,则不能拒绝h0,即认为样本所属的总体分布与指定的分布无显著差异;反之亦然。
由于奠定χ2检验基础的皮尔逊定理,要求样本量是充分大的,所以使用时建议样本容量应不小于30,同时每个单元中的期望频数不能太小;如果有类别的频数小于5,则建议将它与相邻的类别合并;如果有20%的单元期望频数都小于5,就不能再使用χ2检验了。
2.拟合优度检验
利用随机样本资料,对总体是否服从某种理论分布的检验,检验步骤如图6-1所示。
3.独立性检验
利用样本数据,判断总体的两个变量是否彼此独立的检验,检验步骤如图6-2所示。其中χ2分布的自由度为df=(r-1)(c-1)。
本节利用某企业的生产线在星期一至星期五产生的不合格产品数量,检验五个不同工作日的产品不合格率是否相同,所用数据来自随盘文件“chapter 06不合格产品数量卡方检验.sav”,数据格式如图6-3所示。
本例检验的假设是h0:样本所属总体的分布是均匀分布;h1:样本所属总体的分布不是均匀分布。
依次单击菜单“分析→非参数检验→旧对话框→卡方”,执行卡方检验过程,其主设置界面如图6-4所示。
1.变量设置
在变量列表单击选中“不合格个数”变量,单击图片 25按钮,将其指定为检验变量。
(1)检验变量列表:必须为数值型的分类变量;若选入多个,将分别单独处理。
(2)“期望全距”栏:设置检验变量取值的区间范围,有两种可选方式。
boll 从数据中获取:表示检验变量每个唯一的取值都作为一个类别,它为默认选项;
boll 使用指定的范围:由用户设置特定的范围,需要在“下限”、“上限”后分别输入检验变量的最小、最大取值,超过这个范围的观测将忽略不计。
(3)“期望值”栏:设置待检验的理论期望值的具体取值,有两种可选方式。
boll 所有类别相等:表示每个类别的期望取值都相等,即检验样本是否为均匀分布。它为默认选项。
boll 值:由用户设置特定的期望值,先在右侧的输入框指定一个期望值,然后通过单击下面的“添加”、“更改”、“删除”按钮可以编辑指定期望值的取值;这里输入的顺序是非常重要的,每个新输入的期望值自动显示在期望值列表的底部,而列表中的期望值以从上至下的顺序,对应了样本取值从小到大的顺序,例如期望值列表中的第一个取值对应的是样本中取值最小的观测。
2.选项设置
在图6-4中单击“选项”按钮,弹出如图6-5所示的设置面板,单击“继续”按钮返回主界面。
(1)“统计量”栏:可选的输出统计量有两个:描述性统计量,包括均值、标准差、最大值、最小值、无缺失数据的观测数等;四分位数。
(2)“缺失值”栏:设置缺失值的处理原则,有两个选项。
boll 按检验排除个案:当有多个待检验变量时,只忽略当前检验变量含缺失值的观测记录;
boll 按列表排除个案:若某观测的任一变量含有缺失值,则所有检验过程都忽略此观测记录。
3.精确检验的参数设置
在图6-4中,单击“精确”按钮,弹出如图6-6所示的精确检验子设置对话框,单击“继续”按钮返回主界面。
当应用卡方检验的前提条件不满足时,例如有多于20%的单元期望频数小于5时,可以在此界面设置采用其他的检验方法,包括精确检验和monte carlo方法。
4.输出结果
在图6-4中,单击“确定”按钮运行,spss查看器窗口的输出表格如图6-7所示。
由于渐进显著性(χ2检验显著性)的取值0.003<0.01,故而在0.01的显著性水平上否定零假设,即认为五个工作日中各天的产品不合格率是不相同的。