多元线性回归模型是社会科学中常用的模型,但其实这个模型有很多的要求,在应用模型前必须要了解背后的假设,然后来判断在自己的变量上应用这个模型是否适切,如果某些地方有违背,我们可以通过一些统计的方法来修正。
多元线性回归模型的假设
比较重要的假设有5个,至少要同时满足这5个才是一个好的多元线性回归模型。
- 既然是线性模型,那关系必然是 线性 的。
- 误差与自变量不相关
- 方差齐性 homoscedasticity (equal variance of ui)
- 误差之间不相关
- 误差正态分布 normality disturbance
下面逐个解释
1.自变量与因变量呈线性关系
通过散点图可以大致看出,左图是个曲线,但是右图可能是直线。因此右图就更加适合线性模型。如果非把曲线关系用线性模型来呈现,那么这个斜率其实是没有意义的,因为曲线模型的斜率一直是变化的,我们做这个模型预测得出的因变量会非常不准确。
2.误差项(u)与自变量不相关
误差项是自变量以外,解释因变量变异的部分。因为我们无法测量,所以称为误差。
导致误差项和自变量相关的几种情况:
- 影响因变量的自变量没有放入模型中
- 因果关系倒置(reverse causation): 因变量成了自变量,可不就与误差相关了吗?因为误差本来就是解释因变量变异的
- 自变量的测量误差(measurement erros): 没有完美的测量工具,measurement error必然存在,只有当测量误差比较大,或与自变量相关时,才有问题。例如,
误差项与自变量相关会导致什么问题?
3.方差齐性
不同的自变量X取值,对应的因变量Y的变化,应该是类似的,也就是Y的方差变化不能太大。如果因变量方差变化太大,也就是方差不齐,会导致几个后果: 1)斜率没有偏倚unbiased,但是斜率的误差变大了。 2)统计检验会出问题
4.不同个案之间的误差不相关 errors across cases are not correlated
也就是说,个案之间是相互独立,互不影响的。常见的影响个案独立性的群组效应,例如同一个班级的学生对某位老师的看法可能类似、同一个家庭的生活习惯也可能相似。追踪数据也会出现观察值之间有关联的问题,因为毕竟都是同一个人的数据,一个人在不同时期的体重可能具有很高的相关度。
如果个案之间相互影响,斜率依然没有偏倚unbiased,但是斜率的误差会变大(通常是变小),也会带来统计检验的问题。
(why???)5.正态分布
误差是正态分布的。
多元线性回归模型的检验 Detection of assumption violation
具体解释:
1.检验线性关系
1)偏回归图: 在简单线性回归(一个X一个Y)中,我们画出自变量和因变量的散点图大致可以判断是否为线性关系。但是在多元线性回归中,我们不能再用这种一个自变量和一个因变量的bivariate plot,因为它没有控制其他自变量的影响,而是应该用偏回归图。
什么是偏回归图?partial regression plots (residuals of Y on the remaining explanatory variables vs residuals of the target explanatory variable on the remaining explanatory variables)
2) 检验多项式; 如果X的平方、X的三次方在多元线性回归方程中也显著,说明X和Y不是线性关系。
3) 检验虚拟变量dummy variables: 把X划分为几个虚拟变量,然后检验这几个虚拟变量和Y的关系如何。如果虚拟变量和Y的关系类似,那么比较有可能是线性,如果几个虚拟变量和Y之间的关系差异比较大,那么X和Y之间更有可能是非线性关系。例如,探讨年龄和幸福感之间的关系,把年龄分为6-19儿童,20-40青年,41-60中年,61以上老年几个年龄段,儿童的幸福感随着年龄的增长而提高,但青年和中年的幸福感可能随着时间而降低,老年时人的幸福感可能又会提高。
2.自变量与误差不相关
理论与逻辑推断
3.检验方差齐性
1) 偏回归图;
2) 自变量和因变量的散点图
如图就是一个方差不齐的例子,可以看到点越来越分散了,离散程度越来越大。
3)在stata中检验方差是否整齐:
- Breusch-Pagan test, stata 命令: hettest (只用于检验线性的方差异质性)
- White's general test, stata命令:首先ssc install whitetest 安装程序,然后whitetst.( 除了可以检验线性的异质性,还可以检验曲线的方差的异质性,也就是检验X平方、X三次方的方差是否整齐)
4.误差之间不相关
注意时间序列数据、群组数据,这些数据可能会有误差相关的问题
多元线性回归模型的修正 Remedies of assumption violation
1.线性关系:用正确的模型,如果是曲线关系应该用log转化,或平方项,或虚拟变量(见用多元线性回归模型表示曲线关系)
2.误差与自变量不相关:
1)增加遗漏的变量
2)如果有因果倒置reverse causation的问题: 2SLS
3)如果有measurement errors, multilevel models
3. 方差不齐:
robust standard error:也就是用white standard error, 在stata中只要reg y x1 x2, robust即可(具体原理待补充)
加权最小二乘法weighted least square:如果方差是整齐的,那么每一个数据都是被同等对待的,权重是一样的;如果方差不齐,那么我们就给方差小的数据更多的权重,给方差大的数据更少的权重(因为方差大意味着偏离整体的程度高)
4. 误差不相关:
1)multilevel/mixed model
2)autoregressive model