上次说了卡方检验,这次说t检验,t检验是个啥,它也是一种假设检验方法,和卡方检验所有不同,t检验属于参数检验,既然有参数检验,那么就有非参数检验,那这俩又是个啥?
参数检验和非参数检验
1、定义不同:
参数检验:假定数据服从某分布(一般为正态分布),通过样本参数的估计量对总体参数进行检验,比如t检验、u检验、方差分析。
非参数检验:不需要假定总体分布形式,直接对数据的分布进行检验。由于不涉及总体分布的参数,故名非参数检验。比如,卡方检验。
2、参数检验的集中趋势的衡量为均值,而非参数检验为中位数。
3、参数检验需要关于总体分布的信息;非参数检验不需要关于总体的信息。
4、参数检验只适用于变量,而非参数检验同时适用于变量和属性。
5、测量两个定量变量之间的相关程度,参数检验用Pearson相关系数,非参数检验用Spearman秩相关。
简而言之,若可以假定样本数据来自具有特定分布的总体,则使用参数检验。如果不能对数据集作出必要的假设,则使用非参数检验。
说了半天,t检验是个啥呢?
t检验
t检验也是为了比较数据样本之间是否具有显著性的差异。
t检验主要用于样本含量较小(n < 30),总体标准差σ未知的正态分布的样本。
t检验是用t分布来推论差异发生的概率,从而比较两个平均数的差异是否显著。
t分布又是个啥?这个对于应用t检验的同学可以不用了解,只需要知道t分布是一个概率密度曲线,和正态分布类似就行(其实图像和正态分布极像)。原理还是老样子,根据小概率事件,
t检验应用场景
研究两组数据的均值是否存在差异,注意是两组数据哦!!
只能比较两组数据,衍生出几种t检验的应用场景。
1、单样本均值检验(One-sample t-test)
用于检验总体方差未知、正态数据或近似正态的单样本的均值是否与已知的总体均值相等。
举例1:从某厂生产的零件中随机抽取若干件,检验其某种规格的均值是否与要求的规格相等(双侧检验)
举例2:在某偏远地区随机抽取若干健康男子,检验其脉搏均数是否高于全体健康男子平均水平(单侧检验)
双侧检验是个啥?单侧检验又是个啥?总体均值和样本均值不相等就用双侧检验,因为不相等包括总体均值大于样本均值和总体均值小于样本均值两种情况。如果研究的事总体均值是不是大于样本均值就用单侧检验,当然,总体均值小于样本均值的研究也用单侧检验。
2、两独立样本均值检验(Independent two-sample t-test)
用于检验两对独立的正态数据或近似正态的样本的均值是否相等,两组样本的数量可以不等,这里可根据总体方差是否相等分类讨论。
举例1:检验两工厂生产同种零件的规格是否相等(双侧检验)
举例2:为研究某种治疗儿童贫血新药的疗效,以常规药作为对照,治疗一段时间后,检验施以新药的儿童血红蛋白的增加量是否比常规药的大(单侧检验)
3、配对样本均值检验(Dependent t-test for paired samples)
用于检验一对配对样本的均值的差是否等于某一个值,要求两组样本数据必须相等,总体方差相等,并近似正态分布。这种情况常常出现在生物医学研究中,常见的情形有:
举例1:配对的受试对象分别接受不同的处理(如将小白鼠配对为两组,分别接受不同的处理,检验处理结果的差异)
举例2:同一受试对象的两个部分接受不同的处理(如对于一批血清样本,将其分为两个部分,利用不同的方法接受某种化合物的检验,检验结果的差异)
举例3:同一受试对象的自身前后对照(如检验癌症患者术前、术后的某种指标的差异)
注意:什么叫配对?就是消除了每一对自身的差异,比如对照组是一比一挑出来的,比如年龄,性别,学历,都和另一个组的分布是一模一样的,这种情况就是用配对检验,如果是随机挑出来的,那么就用独立样本检验。
应用案例
单样本t检验
1、提出假设
原假设:该山区成年男子脉搏与一般成年男子脉搏数没差别
备择假设:该山区成年男子脉搏比一般成年男子脉搏数高
这里肯定用的是单侧检验。
2、做t检验,计算统计量
其中,S为样本标准差,n=20,自由度df=n-1=19,计算出t值为4.716
3、查表得到P值,得出结论
查看t值表,对应的单侧p值小于0.0005,在显著性水平为0.05的前提下,拒绝原假设,故承认备择假设。
下图为SPSS数据分析结果
两组独立样本t检验
1、提出假设
原假设:没差别
备择假设:有差异
这里肯定用的是双侧检验,因为有差异包括甲比乙高和甲比乙低。
2、做t检验,使用SPSS工具
如果方差等同性检验的P值大于0.05,说明方差等同,就看第一行数据;否则看第二行数据。
可以看到,P值=0.004<0.05,拒绝原假设。
配对样本均值检验
1、提出假设
原假设:没作用
备择假设:有作用
这里肯定用的是双侧检验,因为有作用包括高和底两种情况。