如何了解多元資料的線性回歸問題?
背景就是我們有一個訓練集:( x1, y1 ), (x2,y2 )........ ( xN,yN ),通過這個資料集估計參數向量β。每個 xi是第i個資料(第i個樣本)的特征度量向量,但是每個 yi就是一個一維資料;舉例來說,有100個人,每個人測量了身高、臂展、腰圍等參數,用這些參數預測體重。每個人就可以用一個點(身高、臂展、腰圍,體重)來表示,現在有100個點,建立預測模型。
其向量形式是
。實際上我們拿到的是一個樣本資料矩陣,包含N個樣本,要用這個樣本矩陣來估算出線性回歸模型的參數向量β在得到β 後就可以建立線性回歸模型了,然後給定一個新樣本
就可以預測中對應的
關于最小二乘法,我們使得殘差平方和達到最小來使得線性回歸模型擁有最好的拟合效果。
矩陣形式為
對其求導參照對
的求導:
有
令其等于0,有y-Xβ=0.假設矩陣X是滿秩矩陣,
有
則 ,當出現矩陣X非滿秩,可以删除X中得備援列。
是的我們已經得到了
,但是估計誤差是多少呢?
設樣本中得N個觀測值 互不相關,方差為 ,則
注意這裡的 就是一個一維常數,不是常數向量
是(p+1)×(p+1)的矩陣
是觀測值y的總體方差,也是随機誤差項的方差,這通常是未知的,我們用
估計,這裡 仍然是一維資料。至此可以證明,
如何檢驗特定系數
的假設呢?
檢驗統計量
首先
是以
就是前面列向量的第j個元素;
需要注意的是
有不同的分布!當原假設為
且總體标準差σ未知時,
;當總體标準差σ已知時,服從标準正态分布。
3.3 從簡單的一進制回歸到多元回歸
(1)一進制無截距的線性回歸模型
Y =Xβ+ε
三大假設:(1)誤差項ε是一個期望值為零的随機變量,即E(ε)=0
(2)對于所有的x值,ε的方差盯σ2都相同。
(3)誤差項ε是一個服從正态分布的随機變量,且互相獨立,ε~N(0, )
樣本資料
參數β的最小二乘估計的離差形式
(2) 一進制有截距的線性回歸模型
樣本資料
模型:
如何利用最小二乘法做一進制回歸呢?
步驟1:在1上對 回歸,這個“1”是向量 ,産生系數
,産生殘差向量
步驟2:在殘差z上對y回歸,産生系數
注:“在a上對b回歸”是指a上無截距的b的簡單一進制回歸,産生系數 ,殘差向量b- 。我們稱b是a的調整,或者b是關于a的正交化。
(3)多元線性回歸問題
在多元線性回歸問題中,自變量有多個,
,每個
是列向量,
當
彼此正交時,即任意j≠k,有
,此時參數最小二乘估計
但樣本資料X基本上不可能是正交的,這時必須先把資料正交化,這樣就可以借鑒上面的思想。
(3)多元線性回歸模型的最小二乘法
當輸入矩陣X的各列向量彼此正交時,即任意j≠k,有
=0,此時參數最小二乘估計
。當輸入矩陣各列向量不正交時,需要将列向量正交,
步驟1:初始化,令
步驟2:對于j=1,2,......p-1 ,在 ,
上對
回歸,産生系數
,
L=0,1,2....j-1 ,并産生殘差向量
步驟3:在殘差
上對y回歸,産生參數的估計
舉例來說,
第一步:令
第二步:j=1時,在
上對
回歸,産生系數
,産生殘差向量
第三步:j=2時,在
上對
回歸,産生系數
産生殘差向量
第四步:j=3時,........................
第五步:............................
依此類推最後一步:在殘差向量
上對y回歸,産生
每個
的估計誤差是
即
的估計精度取決于向量 的長度
3.4多元線性回歸模型的基本假定:
假設1:回歸模型是正确的假定
假設2:解釋變量 ,
是非随機的、即不是随機變量,且各解釋變量之間不存在嚴格的線性相關性
假設3:各解釋變量 在所抽取得樣本中具有變異性,而且随着樣本容量的增加,解釋變量的樣本方差趨近于一個非零的有限常數
假設4:随機誤差項具有條件零均值、同方差、不序列相關性
假設5:解釋變量和随機誤差項不相關
假設6:随機誤差項滿足正态分布
3.5多元線性回歸模型的統計檢驗:
不論是用哪種回歸方法,在利用樣本求出樣本回歸函數之後都要對回歸函數進行統計檢驗,包括拟合優度檢驗、方程總體線性的顯著性檢驗、變量的顯著性檢驗、參數的置信區間估計等。
3.5.1 拟合優度檢驗
總離差平方和
=回歸平方和+殘差平方和 TSS的自由度n-1、RSS的自由度n-p-1、ESS的自由度是p
回歸平方和ESS反映了總離差平方和中可以由拟合出的樣本回歸模型解釋的部分,ESS越大RSS就越小,拟合效果越好。
R2會随着解釋變量個數的增加而增大,是以用 比較兩個解釋變量個數不同的模型的拟合效果就不合适了,選擇調整的可決系數
3.5.2方程總體線性的顯著性檢驗---F檢驗
該檢驗的目的是驗證我們是樣本上得到的解釋變量和被解釋變量之間的線性關系在總體上是否顯著成立,具體來說就是方程顯著性的F檢驗是檢驗總體模型
的參數
是否顯著不為0
檢驗統計量
當用樣本資料算出F值後,若
),則拒絕原假設;
若
則接收原假設
3.5.3 變量的顯著性檢驗(t檢驗)
我們知道方程的總體線性關系是顯著的不代表每個解釋變量對被解釋變量的影響搜是顯著的。
顯著不代表每個
都是顯著的。
如何檢驗特定系數
=0的假設呢?
檢驗統計量 在前面已經說過了,自己可以看一下
當原假設為
則拒絕原假設,否則接受原假設;當總體标準差σ已知時,服從标準正态分布。實際上總體标準差大多是未知的,是以
多服從t分布。即t= ~ t(n-p-1),是以在1−α的置信水準下, 的置信區間是
謝謝!