如何理解多维数据的线性回归问题?
背景就是我们有一个训练集:( x1, y1 ), (x2,y2 )........ ( xN,yN ),通过这个数据集估计参数向量β。每个 xi是第i个数据(第i个样本)的特征度量向量,但是每个 yi就是一个一维数据;举例来说,有100个人,每个人测量了身高、臂展、腰围等参数,用这些参数预测体重。每个人就可以用一个点(身高、臂展、腰围,体重)来表示,现在有100个点,建立预测模型。
其向量形式是
。实际上我们拿到的是一个样本数据矩阵,包含N个样本,要用这个样本矩阵来估算出线性回归模型的参数向量β在得到β 后就可以建立线性回归模型了,然后给定一个新样本
就可以预测中对应的
关于最小二乘法,我们使得残差平方和达到最小来使得线性回归模型拥有最好的拟合效果。
矩阵形式为
对其求导参照对
的求导:
有
令其等于0,有y-Xβ=0.假设矩阵X是满秩矩阵,
有
则 ,当出现矩阵X非满秩,可以删除X中得冗余列。
是的我们已经得到了
,但是估计误差是多少呢?
设样本中得N个观测值 互不相关,方差为 ,则
注意这里的 就是一个一维常数,不是常数向量
是(p+1)×(p+1)的矩阵
是观测值y的总体方差,也是随机误差项的方差,这通常是未知的,我们用
估计,这里 仍然是一维数据。至此可以证明,
如何检验特定系数
的假设呢?
检验统计量
首先
所以
就是前面列向量的第j个元素;
需要注意的是
有不同的分布!当原假设为
且总体标准差σ未知时,
;当总体标准差σ已知时,服从标准正态分布。
3.3 从简单的一元回归到多元回归
(1)一元无截距的线性回归模型
Y =Xβ+ε
三大假设:(1)误差项ε是一个期望值为零的随机变量,即E(ε)=0
(2)对于所有的x值,ε的方差盯σ2都相同。
(3)误差项ε是一个服从正态分布的随机变量,且相互独立,ε~N(0, )
样本数据
参数β的最小二乘估计的离差形式
(2) 一元有截距的线性回归模型
样本数据
模型:
如何利用最小二乘法做一元回归呢?
步骤1:在1上对 回归,这个“1”是向量 ,产生系数
,产生残差向量
步骤2:在残差z上对y回归,产生系数
注:“在a上对b回归”是指a上无截距的b的简单一元回归,产生系数 ,残差向量b- 。我们称b是a的调整,或者b是关于a的正交化。
(3)多元线性回归问题
在多元线性回归问题中,自变量有多个,
,每个
是列向量,
当
彼此正交时,即任意j≠k,有
,此时参数最小二乘估计
但样本数据X基本上不可能是正交的,这时必须先把数据正交化,这样就可以借鉴上面的思想。
(3)多元线性回归模型的最小二乘法
当输入矩阵X的各列向量彼此正交时,即任意j≠k,有
=0,此时参数最小二乘估计
。当输入矩阵各列向量不正交时,需要将列向量正交,
步骤1:初始化,令
步骤2:对于j=1,2,......p-1 ,在 ,
上对
回归,产生系数
,
L=0,1,2....j-1 ,并产生残差向量
步骤3:在残差
上对y回归,产生参数的估计
举例来说,
第一步:令
第二步:j=1时,在
上对
回归,产生系数
,产生残差向量
第三步:j=2时,在
上对
回归,产生系数
产生残差向量
第四步:j=3时,........................
第五步:............................
依此类推最后一步:在残差向量
上对y回归,产生
每个
的估计误差是
即
的估计精度取决于向量 的长度
3.4多元线性回归模型的基本假定:
假设1:回归模型是正确的假定
假设2:解释变量 ,
是非随机的、即不是随机变量,且各解释变量之间不存在严格的线性相关性
假设3:各解释变量 在所抽取得样本中具有变异性,而且随着样本容量的增加,解释变量的样本方差趋近于一个非零的有限常数
假设4:随机误差项具有条件零均值、同方差、不序列相关性
假设5:解释变量和随机误差项不相关
假设6:随机误差项满足正态分布
3.5多元线性回归模型的统计检验:
不论是用哪种回归方法,在利用样本求出样本回归函数之后都要对回归函数进行统计检验,包括拟合优度检验、方程总体线性的显著性检验、变量的显著性检验、参数的置信区间估计等。
3.5.1 拟合优度检验
总离差平方和
=回归平方和+残差平方和 TSS的自由度n-1、RSS的自由度n-p-1、ESS的自由度是p
回归平方和ESS反映了总离差平方和中可以由拟合出的样本回归模型解释的部分,ESS越大RSS就越小,拟合效果越好。
R2会随着解释变量个数的增加而增大,所以用 比较两个解释变量个数不同的模型的拟合效果就不合适了,选择调整的可决系数
3.5.2方程总体线性的显著性检验---F检验
该检验的目的是验证我们是样本上得到的解释变量和被解释变量之间的线性关系在总体上是否显著成立,具体来说就是方程显著性的F检验是检验总体模型
的参数
是否显著不为0
检验统计量
当用样本数据算出F值后,若
),则拒绝原假设;
若
则接收原假设
3.5.3 变量的显著性检验(t检验)
我们知道方程的总体线性关系是显著的不代表每个解释变量对被解释变量的影响搜是显著的。
显著不代表每个
都是显著的。
如何检验特定系数
=0的假设呢?
检验统计量 在前面已经说过了,自己可以看一下
当原假设为
则拒绝原假设,否则接受原假设;当总体标准差σ已知时,服从标准正态分布。实际上总体标准差大多是未知的,所以
多服从t分布。即t= ~ t(n-p-1),因此在1−α的置信水平下, 的置信区间是
谢谢!