天天看点

【数理统计】卡方检验

上回说到,卡方检验、t检验、F检验都是显著性检验的具体方法。这次好好说说卡方检验是个啥。

先来个例子,看看卡方检验能干啥事儿。

卡方检验的例子

例子1:某医院分别用化学疗法和化疗结合放射治疗卵巢癌肿患者,结果如下表,问两种疗法有无差别?

组别 有效 无效 合计
化疗组 19 24 43
化疗加放疗组 34 10 44
合计 53 34 87

例子2:男人和女人对沙滩度假和邮轮度假的偏爱有区别吗?

组别 沙滩 游轮 合计
209 280 489
225 248 473
合计 434 528 962

例子3:不用药和吃药对感冒的好转程度有区别吗?

组别 无效 好转 痊愈 合计
不吃药 10 20 40 70
吃药 25 30 60 115
合计 35 50 100 185

例子4:不用婚姻状态的人对华为、苹果、三星这三类手机的喜欢程度有差异吗?

组别 华为 三星 苹果 合计
单身 10 20 40 70
结婚 25 30 60 115
离异 20 23 50 93
合计 55 73 150 278

上面这些例子都可以用卡方检验来判断显著性差异。

卡方检验的应用场景

1、卡方检验只适用于分类数据(分成不同类别的数据),像性别 {Men, Women} 或颜色 {Red, Yellow, Green, Blue} 等等,而不适用于数值数据,例如身高、体重等等。

2、数据的值需要是相当大的,每个数值需要是 5 或更大。在以上的例子里,数值是 209、282 等,所以是合适的。

卡方检验的具体过程

卡方检验也是显著性检验的方法,所以还是三步走。以例4为例。

1、提出假设

原假设:这三类人对这三类品牌的手机的喜好程度没区别,都一样。

2、做卡方检验,求对应的统计量

既然我认为这三类人对这三类品牌的手机的喜好程度没区别的,也就是说这个人的婚姻状态和喜欢哪类手机是相互独立(无关的)。

所以,从理论上(前提是咱们的假设是正确的)来讲,根据当前样本,随便挑一个人,喜欢华为的概率是:55/278=0.1978,而我调查的人数中有70个单身,那么理论上单身的人中有70*0.1978=13.8个人喜欢华为。

注意注意,上面这一段算的是在我假设是正确的的前提下的理论值,同理所有的理论值都能算出来,理论值的表如下表所示。

组别 华为 三星 苹果 合计
单身 13.8 18.4 37.8 70
结婚 22.8 30.2 62 115
离异 13.4 24.4 50.2 93
合计 55 73 150 278

那么,理论值和真实值差异越小,说明咱们的假设越正确。这时候咱们卡方值出现了。

【数理统计】卡方检验

这里的A就是真实数,T就是理论值,咱们这里是3类对3类的差异,所以一共是3*3=9类的数据,自由度为(自变量类别-1)×(因变量类别-1)=4

使用SPSS进行卡方检验(过程不赘述了,也可以用其他的工具和编程语言),得到卡方值为1.858,对应的P值为0.762.

3、查表得到P值,得出结论

使用SPSS直接把P求出来了0.762,明显大于0.05,所以不拒绝原假设,也就是说,没统计学意义,无差异。

原来是需要手动查卡方表的,卡方表长这样。

【数理统计】卡方检验

n是自由度,p就是那个p值(取0.05),这个p代表啥来着?代表原假设成立的概率,这里的9.49就是自由度为4,显著性水平为0.05的临界卡方值,这个值标识啥意思呢?表示如果算出来的卡方值大于9.49,那么恰好落在拒绝域中,拒绝原假设,如果小于9.49,则接受原假设。

当然,也可以根据卡方值推测P值,咱们的卡方值等于1.858,自由度是4,对应的p值在0.75和0.9之间,和SPSS算出来的一样0.762,比0.05大,所以接受原假设,也就是无统计学意义。

继续阅读