天天看点

多元线性回归模型_多元线性回归模型的假设、检验及修正

多元线性回归模型_多元线性回归模型的假设、检验及修正

多元线性回归模型是社会科学中常用的模型,但其实这个模型有很多的要求,在应用模型前必须要了解背后的假设,然后来判断在自己的变量上应用这个模型是否适切,如果某些地方有违背,我们可以通过一些统计的方法来修正。

多元线性回归模型的假设

比较重要的假设有5个,至少要同时满足这5个才是一个好的多元线性回归模型。

  1. 既然是线性模型,那关系必然是 线性 的。
  2. 误差与自变量不相关
  3. 方差齐性 homoscedasticity (equal variance of ui)
  4. 误差之间不相关
  5. 误差正态分布 normality disturbance

下面逐个解释

1.自变量与因变量呈线性关系

多元线性回归模型_多元线性回归模型的假设、检验及修正

通过散点图可以大致看出,左图是个曲线,但是右图可能是直线。因此右图就更加适合线性模型。如果非把曲线关系用线性模型来呈现,那么这个斜率其实是没有意义的,因为曲线模型的斜率一直是变化的,我们做这个模型预测得出的因变量会非常不准确。

2.误差项(u)与自变量不相关

误差项是自变量以外,解释因变量变异的部分。因为我们无法测量,所以称为误差。

导致误差项和自变量相关的几种情况:

  • 影响因变量的自变量没有放入模型中
  • 因果关系倒置(reverse causation): 因变量成了自变量,可不就与误差相关了吗?因为误差本来就是解释因变量变异的
  • 自变量的测量误差(measurement erros): 没有完美的测量工具,measurement error必然存在,只有当测量误差比较大,或与自变量相关时,才有问题。例如,

误差项与自变量相关会导致什么问题?

3.方差齐性

不同的自变量X取值,对应的因变量Y的变化,应该是类似的,也就是Y的方差变化不能太大。如果因变量方差变化太大,也就是方差不齐,会导致几个后果: 1)斜率没有偏倚unbiased,但是斜率的误差变大了。 2)统计检验会出问题

4.不同个案之间的误差不相关 errors across cases are not correlated

也就是说,个案之间是相互独立,互不影响的。常见的影响个案独立性的群组效应,例如同一个班级的学生对某位老师的看法可能类似、同一个家庭的生活习惯也可能相似。追踪数据也会出现观察值之间有关联的问题,因为毕竟都是同一个人的数据,一个人在不同时期的体重可能具有很高的相关度。

如果个案之间相互影响,斜率依然没有偏倚unbiased,但是斜率的误差会变大(通常是变小),也会带来统计检验的问题。

(why???)

5.正态分布

误差是正态分布的。

多元线性回归模型的检验 Detection of assumption violation

具体解释:

1.检验线性关系

1)偏回归图: 在简单线性回归(一个X一个Y)中,我们画出自变量和因变量的散点图大致可以判断是否为线性关系。但是在多元线性回归中,我们不能再用这种一个自变量和一个因变量的bivariate plot,因为它没有控制其他自变量的影响,而是应该用偏回归图。

什么是偏回归图?

partial regression plots (residuals of Y on the remaining explanatory variables vs residuals of the target explanatory variable on the remaining explanatory variables)

2) 检验多项式; 如果X的平方、X的三次方在多元线性回归方程中也显著,说明X和Y不是线性关系。

3) 检验虚拟变量dummy variables: 把X划分为几个虚拟变量,然后检验这几个虚拟变量和Y的关系如何。如果虚拟变量和Y的关系类似,那么比较有可能是线性,如果几个虚拟变量和Y之间的关系差异比较大,那么X和Y之间更有可能是非线性关系。例如,探讨年龄和幸福感之间的关系,把年龄分为6-19儿童,20-40青年,41-60中年,61以上老年几个年龄段,儿童的幸福感随着年龄的增长而提高,但青年和中年的幸福感可能随着时间而降低,老年时人的幸福感可能又会提高。

2.自变量与误差不相关

理论与逻辑推断

3.检验方差齐性

1) 偏回归图;

2) 自变量和因变量的散点图

多元线性回归模型_多元线性回归模型的假设、检验及修正

如图就是一个方差不齐的例子,可以看到点越来越分散了,离散程度越来越大。

3)在stata中检验方差是否整齐:

  • Breusch-Pagan test, stata 命令: hettest (只用于检验线性的方差异质性)
  • White's general test, stata命令:首先ssc install whitetest 安装程序,然后whitetst.( 除了可以检验线性的异质性,还可以检验曲线的方差的异质性,也就是检验X平方、X三次方的方差是否整齐)

4.误差之间不相关

注意时间序列数据、群组数据,这些数据可能会有误差相关的问题

多元线性回归模型的修正 Remedies of assumption violation

1.线性关系:用正确的模型,如果是曲线关系应该用log转化,或平方项,或虚拟变量(见用多元线性回归模型表示曲线关系)

2.误差与自变量不相关:

1)增加遗漏的变量

2)如果有因果倒置reverse causation的问题: 2SLS

3)如果有measurement errors, multilevel models

3. 方差不齐:

robust standard error:也就是用white standard error, 在stata中只要reg y x1 x2, robust即可(具体原理待补充)

加权最小二乘法weighted least square:如果方差是整齐的,那么每一个数据都是被同等对待的,权重是一样的;如果方差不齐,那么我们就给方差小的数据更多的权重,给方差大的数据更少的权重(因为方差大意味着偏离整体的程度高)

4. 误差不相关:

1)multilevel/mixed model

2)autoregressive model