多元线性回归模型_多元线性回归模型的假设、检验及修正

多元线性回归模型是社会科学中常用的模型，但其实这个模型有很多的要求，在应用模型前必须要了解背后的假设，然后来判断在自己的变量上应用这个模型是否适切，如果某些地方有违背，我们可以通过一些统计的方法来修正。

多元线性回归模型的假设

比较重要的假设有5个，至少要同时满足这5个才是一个好的多元线性回归模型。

既然是线性模型，那关系必然是线性的。
误差与自变量不相关
方差齐性 homoscedasticity (equal variance of ui)
误差之间不相关
误差正态分布 normality disturbance

下面逐个解释

1.自变量与因变量呈线性关系

多元线性回归模型_多元线性回归模型的假设、检验及修正

通过散点图可以大致看出，左图是个曲线，但是右图可能是直线。因此右图就更加适合线性模型。如果非把曲线关系用线性模型来呈现，那么这个斜率其实是没有意义的，因为曲线模型的斜率一直是变化的，我们做这个模型预测得出的因变量会非常不准确。

2.误差项（u）与自变量不相关

误差项是自变量以外，解释因变量变异的部分。因为我们无法测量，所以称为误差。

导致误差项和自变量相关的几种情况：

影响因变量的自变量没有放入模型中
因果关系倒置(reverse causation)：因变量成了自变量，可不就与误差相关了吗？因为误差本来就是解释因变量变异的
自变量的测量误差（measurement erros)：没有完美的测量工具，measurement error必然存在，只有当测量误差比较大，或与自变量相关时，才有问题。例如，

误差项与自变量相关会导致什么问题？

3.方差齐性

不同的自变量X取值，对应的因变量Y的变化，应该是类似的，也就是Y的方差变化不能太大。如果因变量方差变化太大，也就是方差不齐，会导致几个后果： 1）斜率没有偏倚unbiased，但是斜率的误差变大了。 2）统计检验会出问题

4.不同个案之间的误差不相关 errors across cases are not correlated

也就是说，个案之间是相互独立，互不影响的。常见的影响个案独立性的群组效应，例如同一个班级的学生对某位老师的看法可能类似、同一个家庭的生活习惯也可能相似。追踪数据也会出现观察值之间有关联的问题，因为毕竟都是同一个人的数据，一个人在不同时期的体重可能具有很高的相关度。

如果个案之间相互影响，斜率依然没有偏倚unbiased，但是斜率的误差会变大（通常是变小），也会带来统计检验的问题。

（why???)

5.正态分布

误差是正态分布的。

多元线性回归模型的检验 Detection of assumption violation

具体解释：

1.检验线性关系

1）偏回归图: 在简单线性回归（一个X一个Y）中，我们画出自变量和因变量的散点图大致可以判断是否为线性关系。但是在多元线性回归中，我们不能再用这种一个自变量和一个因变量的bivariate plot，因为它没有控制其他自变量的影响，而是应该用偏回归图。

什么是偏回归图？

partial regression plots (residuals of Y on the remaining explanatory variables vs residuals of the target explanatory variable on the remaining explanatory variables)

2) 检验多项式; 如果X的平方、X的三次方在多元线性回归方程中也显著，说明X和Y不是线性关系。

3) 检验虚拟变量dummy variables：把X划分为几个虚拟变量，然后检验这几个虚拟变量和Y的关系如何。如果虚拟变量和Y的关系类似，那么比较有可能是线性，如果几个虚拟变量和Y之间的关系差异比较大，那么X和Y之间更有可能是非线性关系。例如，探讨年龄和幸福感之间的关系，把年龄分为6-19儿童，20-40青年，41-60中年，61以上老年几个年龄段，儿童的幸福感随着年龄的增长而提高，但青年和中年的幸福感可能随着时间而降低，老年时人的幸福感可能又会提高。

2.自变量与误差不相关

理论与逻辑推断

3.检验方差齐性

1) 偏回归图；

2) 自变量和因变量的散点图

多元线性回归模型_多元线性回归模型的假设、检验及修正

如图就是一个方差不齐的例子，可以看到点越来越分散了，离散程度越来越大。

3）在stata中检验方差是否整齐：

Breusch-Pagan test, stata 命令: hettest （只用于检验线性的方差异质性）
White's general test, stata命令：首先ssc install whitetest 安装程序，然后whitetst.( 除了可以检验线性的异质性，还可以检验曲线的方差的异质性，也就是检验X平方、X三次方的方差是否整齐）

4.误差之间不相关

注意时间序列数据、群组数据，这些数据可能会有误差相关的问题

多元线性回归模型的修正 Remedies of assumption violation

1.线性关系：用正确的模型，如果是曲线关系应该用log转化，或平方项，或虚拟变量（见用多元线性回归模型表示曲线关系）

2.误差与自变量不相关：

1）增加遗漏的变量

2）如果有因果倒置reverse causation的问题： 2SLS

3）如果有measurement errors, multilevel models

3. 方差不齐：

robust standard error：也就是用white standard error, 在stata中只要reg y x1 x2, robust即可（具体原理待补充）

加权最小二乘法weighted least square：如果方差是整齐的，那么每一个数据都是被同等对待的，权重是一样的；如果方差不齐，那么我们就给方差小的数据更多的权重，给方差大的数据更少的权重（因为方差大意味着偏离整体的程度高）

4. 误差不相关：

1）multilevel/mixed model

2）autoregressive model

多元线性回归模型_多元线性回归模型的假设、检验及修正

多元线性回归模型的假设

多元线性回归模型的检验 Detection of assumption violation

多元线性回归模型的修正 Remedies of assumption violation

继续阅读

多元线性回归数据集_《算法模型篇》——多元线性回归