天天看點

計量經濟學複習筆記(四):多元線性回歸計量經濟學複習筆記(四):多元線性回歸

計量經濟學複習筆記(四):多元線性回歸

一進制線性回歸的解釋變量隻有一個,但是實際的模型往往沒有這麼簡單,影響一個變量的因素可能有成百上千個。我們會希望線性回歸模型中能夠考慮到這些所有的因素,自然就不能再用一進制線性回歸,而應該将其更新為多元線性回歸。但是,有了一進制線性回歸的基礎,讨論多元線性回歸可以說是輕而易舉。

另外我們沒必要分别讨論二進制、三元等具體個數變量的回歸問題,因為線上性代數的幫助下,我們能夠統一讨論對任何解釋變量個數的回歸問題。

1、多元線性回歸模型的系數求解

多元線性回歸模型是用 k k k個解釋變量 X 1 , ⋯   , X k X_1,\cdots,X_k X1​,⋯,Xk​對被解釋變量 Y Y Y進行線性拟合的模型,每一個解釋變量 X i X_i Xi​之前有一個回歸系數 β i \beta_i βi​,同時還應具有常數項 β 0 \beta_0 β0​,可以視為與常數 X 0 = 1 X_0=1 X0​=1相乘,是以多元線性回歸模型為

Y = β 0 X 0 + β 1 X 1 + β 2 X 2 + ⋯ + β k X k + μ , (4.1) Y=\beta_0X_0+\beta_1X_1+\beta_2X_2+\cdots+\beta_kX_k+\mu, \tag{4.1} Y=β0​X0​+β1​X1​+β2​X2​+⋯+βk​Xk​+μ,(4.1)

這裡的 μ \mu μ依然是随機誤差項。從線性回歸模型中抽取 n n n個樣本構成 n n n個觀測,排列起來就是

Y 1 = β 0 X 10 + β 1 X 11 + β 2 X 12 + ⋯ + β k X 1 k + μ 1 , Y 2 = β 0 X 20 + β 1 X 21 + β 2 X 22 + ⋯ + β k X 2 k + μ 2 , ⋮ Y n = β 0 X n 0 + β 1 X n 1 + β 2 X n 2 + ⋯ + β k X n k + μ n . (4.2) \begin{matrix} Y_1=\beta_0X_{10}+\beta_1X_{11}+\beta_2X_{12}+\cdots+\beta_kX_{1k}+\mu_1,\\ Y_2=\beta_0X_{20}+\beta_1X_{21}+\beta_2X_{22}+\cdots+\beta_kX_{2k}+\mu_2, \\ \vdots \\ Y_n=\beta_0X_{n0}+\beta_1X_{n1}+\beta_2X_{n2}+\cdots+\beta_kX_{nk}+\mu_n.\end{matrix}\tag{4.2} Y1​=β0​X10​+β1​X11​+β2​X12​+⋯+βk​X1k​+μ1​,Y2​=β0​X20​+β1​X21​+β2​X22​+⋯+βk​X2k​+μ2​,⋮Yn​=β0​Xn0​+β1​Xn1​+β2​Xn2​+⋯+βk​Xnk​+μn​.​(4.2)

其中 X 10 = X 20 = ⋯ = X n 0 = 1 X_{10}=X_{20}=\cdots=X_{n0}=1 X10​=X20​=⋯=Xn0​=1。大型方程組我們會使用矩陣表示,是以引入如下的矩陣記号。

Y = [ Y 1 Y 2 ⋮ Y n ] , β = [ β 0 β 1 β 2 ⋮ β k ] , μ = [ μ 1 μ 2 ⋮ μ n ] . X = [ X 10 X 11 X 12 ⋯ X 1 k X 20 X 21 X 22 ⋯ X 2 k ⋮ ⋮ ⋮ ⋮ X n 0 X n 1 X n 2 ⋯ X n k ] . (4.3) {Y=\begin{bmatrix} Y_1 \\ Y_2 \\ \vdots \\ Y_n \end{bmatrix},\quad \beta=\begin{bmatrix} \beta_0 \\ \beta_1 \\ \beta_2 \\ \vdots \\ \beta_k \end{bmatrix}, \mu=\begin{bmatrix} \mu_1 \\ \mu_2 \\ \vdots \\ \mu_n \end{bmatrix}.\\ X=\begin{bmatrix} X_{10} & X_{11} & X_{12} & \cdots & X_{1k} \\ X_{20} & X_{21} & X_{22} & \cdots & X_{2k} \\ \vdots & \vdots & \vdots & & \vdots \\ X_{n0} & X_{n1} & X_{n2} & \cdots & X_{nk} \end{bmatrix}. } \tag{4.3} Y=⎣⎢⎢⎢⎡​Y1​Y2​⋮Yn​​⎦⎥⎥⎥⎤​,β=⎣⎢⎢⎢⎢⎢⎡​β0​β1​β2​⋮βk​​⎦⎥⎥⎥⎥⎥⎤​,μ=⎣⎢⎢⎢⎡​μ1​μ2​⋮μn​​⎦⎥⎥⎥⎤​.X=⎣⎢⎢⎢⎡​X10​X20​⋮Xn0​​X11​X21​⋮Xn1​​X12​X22​⋮Xn2​​⋯⋯⋯​X1k​X2k​⋮Xnk​​⎦⎥⎥⎥⎤​.(4.3)

在這些矩陣表示中注意幾點:首先, Y Y Y和 μ \mu μ在矩陣表示式中都是 n n n維列向量,與樣本容量等長,線上性回歸模型中 Y , μ Y,\mu Y,μ是随機變量,而在矩陣表示中它們是随機向量,盡管我們不在表示形式上加以區分,但我們應該根據上下文明确它們到底是什麼意義; β \beta β是 k + 1 k+1 k+1維列向量,其長度與 Y , μ Y,\mu Y,μ沒有關系,這是因為 β \beta β是依賴于變量個數的,并且加上了對應于常數項的系數(截距項) β 0 \beta_0 β0​;最後, X X X是資料矩陣,且第一列都是1。在這些矩陣的定義下,多元線性回歸模型的觀測值們可以表示為

Y = X β + μ . (4.4) Y=X\beta+\mu.\tag{4.4} Y=Xβ+μ.(4.4)

我們的目标是求得 β \beta β的估計 β ^ \hat\beta β^​,與一進制線性回歸一樣,雖然 Y , X Y,X Y,X都是随機變量,但我們需要的是給定 X X X時的條件分布。此時依然使用OLS估計,設 β \beta β的估計量為 β ^ \hat\beta β^​,則殘差向量是 e = Y − X β ^ e=Y-X\hat\beta e=Y−Xβ^​,殘差平方和為 Q = e ′ e Q=e'e Q=e′e。為使殘差平方和最小,需要對 β ^ \hat\beta β^​求偏導,即

∂ Q ∂ β ^ = ∂ ∂ β ^ ( e ′ e ) = ∂ ∂ β ^ [ ( Y − X β ^ ) ′ ( Y − X β ^ ) ] = ∂ ∂ β ^ [ Y ′ Y − β ^ ′ X ′ Y − Y ′ X β ^ + β ^ ′ X ′ X β ^ ] = 2 ( X ′ X β ^ − X ′ Y ) = 0. (4.5) \begin{aligned} \frac{\partial Q}{\partial \hat\beta}=&\frac{\partial}{\partial\hat\beta}(e'e)\\ =&\frac{\partial}{\partial\hat\beta}[(Y-X\hat\beta)'(Y-X\hat\beta)]\\ =&\frac{\partial}{\partial\hat\beta}[Y'Y-\hat\beta' X'Y-Y'X\hat\beta+\hat\beta'X'X\hat\beta]\\ =&2(X'X\hat\beta-X'Y)=0. \end{aligned}\tag{4.5} ∂β^​∂Q​====​∂β^​∂​(e′e)∂β^​∂​[(Y−Xβ^​)′(Y−Xβ^​)]∂β^​∂​[Y′Y−β^​′X′Y−Y′Xβ^​+β^​′X′Xβ^​]2(X′Xβ^​−X′Y)=0.​(4.5)

于是

X ′ X β ^ = X ′ Y , (4.6) X'X\hat\beta=X'Y,\tag{4.6} X′Xβ^​=X′Y,(4.6)

若 X ′ X X'X X′X可逆,則

β ^ = ( X ′ X ) − 1 X ′ Y . (4.7) \hat\beta=(X'X)^{-1}X'Y.\tag{4.7} β^​=(X′X)−1X′Y.(4.7)

這樣我們就得到了 β \beta β的參數估計量 β ^ \hat\beta β^​。順帶一提,由于我們将 Q Q Q表現為矩陣乘積的形式,是以對 β ^ \hat\beta β^​求偏導也能得到 Q Q Q的最小值,事實上對 β ^ \hat\beta β^​求矩陣微商的過程,等價于對 β ^ \hat\beta β^​中的每一個分量 ( β ^ 0 , β ^ 1 , ⋯   , β ^ k ) (\hat\beta_0,\hat\beta_1,\cdots,\hat\beta_k) (β^​0​,β^​1​,⋯,β^​k​)求偏導,然後将每一個偏導的結果按列排布,這樣令矩陣微商為0,就等價于每一個偏導數為0。這裡用到的矩陣微商公式有以下兩個:

∂ x ′ b ∂ x = ∂ b ′ x x = b , ∂ x ′ A x x = ( A + A ′ ) x . (4.8) \frac{\partial x'b}{\partial x}=\frac{\partial b'x}{x}=b,\frac{\partial x'Ax}{x}=(A+A')x.\tag{4.8} ∂x∂x′b​=x∂b′x​=b,x∂x′Ax​=(A+A′)x.(4.8)

當然,我們不能忽略這樣一個事實:想要得到這樣的OLS估計量必須有 X ′ X X'X X′X可逆,但是 X ′ X X'X X′X在什麼情況下可逆?注意到 X X X是一個 n × ( k + 1 ) n\times(k+1) n×(k+1)型矩陣, X ′ X X'X X′X是一個 k + 1 k+1 k+1階方陣,要使其可逆,則 X ′ X X'X X′X滿秩,也就是 r ( X ′ X ) = k + 1 r(X'X)=k+1 r(X′X)=k+1。由于 r ( X ′ X ) ≤ r ( X ) ≤ min ⁡ ( n , k + 1 ) r(X'X)\le r(X)\le\min(n,k+1) r(X′X)≤r(X)≤min(n,k+1),是以 X ′ X X'X X′X要滿秩,有以下的必要條件:

  1. n ≥ k + 1 n\ge k+1 n≥k+1,也就是樣本觀測數不小于 k + 1 k+1 k+1;
  2. r ( X ) = k + 1 r(X)=k+1 r(X)=k+1,也就是 X X X的列向量組必須線性無關。

現在,我們已經認識到 X X X的列向量組應當無關,也就是 ( X 1 , ⋯   , X k ) (X_1,\cdots,X_k) (X1​,⋯,Xk​)不線性相關這一基本假設需要被滿足。進一步地,我們應該開始認識線性回歸模型的基本假設了,我們所說的OLS估計量的優秀性質,全部依賴于線性回歸模型的基本假設,如果基本假設無法被滿足,我們的OLS估計量就會失去很多效果。

2、線性回歸模型的基本假設

在一進制線性回歸模型中,我們隻粗糙地提到了以下的假設:随機誤差項條件零均值同方差、随機誤差項條件序列不相關、任意随機誤差項與解釋變量不相關,以及随機誤差項服從條件正态分布。事實上,一進制線性回歸模型的基本假設不止以上幾條,它與多元線性回歸模型的基本假設一緻,有以下幾條。

  1. 回歸模型是正确假定的。
  2. 解釋變量 X 1 , ⋯   , X k X_1,\cdots,X_k X1​,⋯,Xk​在所抽取的樣本中具有變異性(獨立同分布),且不存在多重共線性。
  3. 随機誤差項具有條件零均值性,即

    E ( μ i ∣ X 1 , ⋯   , X k ) = 0 , ∀ i . (4.9) \mathbb E(\mu_i|X_1,\cdots,X_k)=0,\forall i.\tag{4.9} E(μi​∣X1​,⋯,Xk​)=0,∀i.(4.9)

  4. 随機誤差項具有條件同方差性與條件序列不相關性,即

    D ( μ i ∣ X 1 , ⋯   , X k ) = σ 2 , ∀ i . C o v ( μ i , μ j ∣ X 1 , ⋯   , X k ) = 0 , ∀ i ≠ j . (4.10) {\mathbb D(\mu_i|X_1,\cdots,X_k)=\sigma^2,\forall i.\tag{4.10}}\\ {\rm Cov}(\mu_i,\mu_j|X_1,\cdots,X_k)=0,\forall i\ne j. D(μi​∣X1​,⋯,Xk​)=σ2,∀i.Cov(μi​,μj​∣X1​,⋯,Xk​)=0,∀i​=j.(4.10)

  5. 随機誤差項服從條件正态分布,即

    μ i ∣ X 1 , ⋯   , X k ∼ N ( 0 , σ 2 ) . (4.11) \mu_i|X_1,\cdots,X_k\sim N(0,\sigma^2).\tag{4.11} μi​∣X1​,⋯,Xk​∼N(0,σ2).(4.11)

用矩陣符号表示,令 X X X為 n × ( k + 1 ) n\times (k+1) n×(k+1)型資料矩陣(也可以視為 k + 1 k+1 k+1維行随機向量,分情況而定), μ = ( μ 1 , ⋯   , μ n ) \mu=(\mu_1,\cdots,\mu_n) μ=(μ1​,⋯,μn​),則

  1. r ( X ) = k + 1 r(X)=k+1 r(X)=k+1,相當于 X X X列滿秩。
  2. E ( μ ∣ X ) = 0 \mathbb E(\mu|X)=0 E(μ∣X)=0,這裡 0 0 0是 n n n維列向量。
  3. D ( μ ∣ X ) = σ 2 I n \mathbb D(\mu|X)=\sigma^2I_n D(μ∣X)=σ2In​,這裡 I n I_n In​是 n n n階機關陣。
  4. μ ∣ X ∼ N n ( 0 , σ 2 I n ) \mu|X\sim N_n(0,\sigma^2I_n) μ∣X∼Nn​(0,σ2In​)。

現在我們要對這些基本假設作出解釋。

首先,無論是在一進制線性回歸還是多元線性回歸,我們在假設 μ \mu μ的分布時,總是強調“條件分布”,而不是簡單地說 μ \mu μ是零均值同方差序列不相關的。應當如何了解這個條件分布?我們必須認識到,實際抽取樣本的過程中, ( Y , X ) (Y,X) (Y,X)都是随機變量,尤其是 X X X實際上是作為随機變量出現的,隻是由于我們常常因為 X X X是可以觀測的而将 X X X作為常數處理。簡單舉個例子,假設一維随機變量 X X X服從如下的離散分布:

P ( X = 1 ) = P ( X = − 1 ) = 0.5 , (4.12) \mathbb P(X=1)=\mathbb P(X=-1)=0.5,\tag{4.12} P(X=1)=P(X=−1)=0.5,(4.12)

将 ( μ , X ) (\mu,X) (μ,X)作為二維随機向量處理, μ \mu μ始終與 X X X數值相同,也就是 X = 1 X=1 X=1時 μ = 1 \mu=1 μ=1, X = − 1 X=-1 X=−1時 μ = − 1 \mu=-1 μ=−1,則我們有

E ( μ ) = P ( μ = 1 ) − P ( μ = − 1 ) = P ( X = 1 ) − P ( X = − 1 ) = 0 , (4.13) \mathbb E(\mu)=\mathbb P(\mu=1)-\mathbb P(\mu=-1)=\mathbb P(X=1)-\mathbb P(X=-1)=0,\tag{4.13} E(μ)=P(μ=1)−P(μ=−1)=P(X=1)−P(X=−1)=0,(4.13)

但是這個時候的 μ \mu μ是否是條件零均值的?顯然不是,因為

E ( μ ∣ X = 1 ) = 1 , E ( μ ∣ X = − 1 ) = − 1. (4.14) \mathbb E(\mu|X=1)=1,\\ \mathbb E\mathbb (\mu|X=-1)=-1.\tag{4.14} E(μ∣X=1)=1,E(μ∣X=−1)=−1.(4.14)

顯然這樣的随機誤差分布并不是我們想要的那種“随機”,因為它實際上與 X X X相關,并不是真正的随機。我們想要的随機是在任何 X X X的水準下, μ \mu μ都具有同樣的分布,是以加入條件分布的限制是有必要的,了解條件分布的關鍵,就在于要将 X X X作為随機變量看待。

其次,我們要求回歸模型是正确假定的,這指的是我們要求總體确實具有與線性回歸函數的形式——否則我們用線性回歸模型拟合肯定不可能用樣本估計總體,因為總體回歸函數與樣本回歸函數甚至沒有相同的形式,更不用說相同的參數估計。

最後,我們要求 E ( μ ∣ X ) = 0 \mathbb E(\mu|X)=0 E(μ∣X)=0,這包含了如下資訊:

E ( μ X ) = E [ E ( μ X ∣ X ) ] = E [ X E ( μ ∣ X ) ] = 0. (4.15) \mathbb E(\mu X)=\mathbb E[\mathbb E(\mu X|X)]=\mathbb E[X\mathbb E(\mu|X)]=0.\tag{4.15} E(μX)=E[E(μX∣X)]=E[XE(μ∣X)]=0.(4.15)

這也就說明 C O V ( μ , X ) = E ( μ X ) − E ( μ ) E ( X ) = 0 {\rm COV}(\mu,X)=\mathbb E(\mu X)-\mathbb E(\mu)\mathbb E(X)=0 COV(μ,X)=E(μX)−E(μ)E(X)=0,即 μ , X \mu,X μ,X不存在任何形式的相關性。自然,其中包括了當時間名額相同時,有

E ( μ i X i ) = 0. (4.16) \mathbb E(\mu_iX_i)=0.\tag{4.16} E(μi​Xi​)=0.(4.16)

這時候我們稱解釋變量 X X X與随機誤差 μ \mu μ是同期不相關的,這是一個很重要的假定,至于它為什麼重要,我們将在以後讨論。

3、參數估計的性質

我們已經知道在滿足基本假設的前提下,一進制線性回歸的OLS估計量擁有BLUE性質,其實多元線性回歸的OLS估計量也是如此,這也是我們引入前四條基本假設的原因之一。現在我們不讨論BLUE性的證明,直接給出 β ^ = ( X ′ X ) − 1 ( X ′ Y ) \hat\beta=(X'X)^{-1}(X'Y) β^​=(X′X)−1(X′Y)是BLUE估計量的結論。

  1. β ^ \hat\beta β^​是 Y Y Y的線性組合,也就是說 ∀ i = 0 , 1 , ⋯   , k \forall i=0,1,\cdots,k ∀i=0,1,⋯,k, β ^ i \hat\beta_i β^​i​是 Y 1 , ⋯   , Y n Y_1,\cdots,Y_n Y1​,⋯,Yn​的線性組合。這一點是不言自明的,從 β ^ \hat\beta β^​的表達式就可以看出來。
  2. β ^ \hat\beta β^​是 β \beta β的無偏估計量,這等價于 ∀ i = 0 , 1 , ⋯   , k \forall i=0,1,\cdots,k ∀i=0,1,⋯,k, β ^ i \hat\beta_i β^​i​是 β 1 \beta_1 β1​的無偏估計量。
  3. β ^ \hat\beta β^​是 β \beta β的所有線性無偏估計量中,方差最小的那個。

在一進制線性回歸的過程中, β ^ 1 , β ^ 0 \hat\beta_1,\hat\beta_0 β^​1​,β^​0​是最小方差的,這裡的“最小”很好了解。而擴充到多元時, β ^ \hat\beta β^​的方差是它的自協方差矩陣 D ( β ^ ) \mathbb D(\hat\beta) D(β^​),在這種意義下的最小方差是什麼,有必要說明一下。

對于兩個非負定矩陣 A , B A,B A,B,如果存在另一個非負定矩陣 C C C使得 A = B + C A=B+C A=B+C,則稱 A ≥ B A\ge B A≥B——由此建構了非負定矩陣之間的大小關系。不難看出,如果 A ≥ B A\ge B A≥B,則對于每一個對角元素都有 a i i ≥ b i i a_{ii}\ge b_{ii} aii​≥bii​,因為如果存在某個 i i i使得 a i i < b i i a_{ii}<b_{ii} aii​<bii​,則令 C = A − B C=A-B C=A−B, c i i < 0 c_{ii}<0 cii​<0,取向量 e i e_i ei​(第 i i i個元素為1,其他元素為0的列向量)可以得到

e i ′ C e i = c i i < 0 , (4.17) e_i'Ce_i=c_{ii}<0,\tag{4.17} ei′​Cei​=cii​<0,(4.17)

這就說明 C C C不是一個非負定矩陣,沖突。

是以,這裡 β ^ \hat\beta β^​的最小方差性,意味着 D ( β ^ ) \mathbb D(\hat\beta) D(β^​)在非負定意義上最小,自然也意味着對于每一個 β ^ i \hat\beta_i β^​i​,它都是線性無偏估計裡方差最小的。

除了 BLUE性,OLS估計量還有一個很重要的性質——一緻性,而我們常常忽略這個性質的重要意義。導緻我們忽略一緻性的原因,一個是BLUE裡不包含一緻性,而好多人僅僅記住了OLS估計量的BLUE性;另一個是一緻性與BLUE性表現性質不同,一緻性是大樣本性質,BLUE性是小樣本性質。什麼是大樣本性質?并不是說樣本量很大的性質,就是大樣本性質。大樣本性質與小樣本性質的本質不同在于,大樣本性質包含着樣本容量 n → ∞ n\to \infty n→∞的趨勢,隻要是 n n n趨于無窮能表現出來的性質都是大樣本性質。

回到一緻性上,OLS估計量的一緻性指的是

β ^ → P β , (4.18) \hat\beta\stackrel {P}\to \beta,\tag{4.18} β^​→Pβ,(4.18)

即 β ^ \hat\beta β^​以機率收斂于 β \beta β。稍作翻譯,這個式子的意義是 ∀ ε > 0 , i = 0 , 1 , ⋯   , k \forall \varepsilon>0,i=0,1,\cdots,k ∀ε>0,i=0,1,⋯,k,

lim ⁡ n → ∞ P ( ∣ β ^ i − β i ∣ > ε ) = 0. (4.19) \lim_{n\to \infty}\mathbb P(|\hat\beta_i-\beta_i|>\varepsilon)=0.\tag{4.19} n→∞lim​P(∣β^​i​−βi​∣>ε)=0.(4.19)

如果還是不了解一緻性有什麼意義,可以看下面的例子。現在我們想對某個線性回歸模型進行參數估計,并且希望能達到0.001的精度,也就是每一個參數與真值的偏離值超過 ε = 0.001 \varepsilon=0.001 ε=0.001的機率都小于任意給定的置信水準 α \alpha α。顯然,具有一緻性的估計量可以做到這一點,因為給定了精度,我們隻要通過增加抽取的樣本,參數的估計量就會自動調整,并且一定是向着接近真值的方向靠近。如果某個參數估計量不具有一緻性,即使你抽取再多的樣本都沒法達到給定的精度,這就是一緻性的重要意義。

是以,我們的參數估計量具有線性性、無偏性、最小方差性(有效性)以及一緻性,後三個的證明,我們将在基本假設不能滿足的情況下給出,進而向你展示每一個基本假設都具有什麼樣的重要意義,不滿足這些基本假設會有什麼樣的嚴重後果。最後,在正态性、線性性限制下,我們很容易知道 β ^ \hat\beta β^​一定服從多元正态分布,是以隻需要求得其均值方差即可。

無偏性保證了

E ( β ^ ) = β , (4.20) \mathbb E(\hat\beta)=\beta,\tag{4.20} E(β^​)=β,(4.20)

關于方差,我們也在這裡直接給出(而不給出證明,因為這依賴于基本假設)。

D ( β ^ ) = σ 2 ( X ′ X ) − 1 . (4.21) \mathbb D(\hat\beta)=\sigma^2(X'X)^{-1}.\tag{4.21} D(β^​)=σ2(X′X)−1.(4.21)

進而

β ^ ∼ N k + 1 ( β , σ 2 ( X ′ X ) − 1 ) , (4.22) \hat\beta\sim N_{k+1}(\beta,\sigma^2(X'X)^{-1}),\tag{4.22} β^​∼Nk+1​(β,σ2(X′X)−1),(4.22)

自然有

β ^ i ∼ N ( β i , σ 2 ( X ′ X ) i i − 1 ) . (4.23) \hat\beta_i\sim N(\beta_i,\sigma^2(X'X)^{-1}_{ii}).\tag{4.23} β^​i​∼N(βi​,σ2(X′X)ii−1​).(4.23)

這樣,我們就得到了每一個OLS估計量的分布,自然地可以用它進行區間估計與假設檢驗。

4、參數的區間估計和假設檢驗

與一進制線性回歸問題一樣,我們需要考慮的是随機誤差項方差 σ 2 \sigma^2 σ2的估計,而且我們依然會使用殘差平方和 R S S {\rm RSS} RSS來估計方差。這裡,我們給出一個 σ 2 \sigma^2 σ2的無偏估計的證明。

注意到 e = Y − X β ^ e=Y-X\hat\beta e=Y−Xβ^​,是以

Q = e ′ e = ( Y − X β ^ ) ′ ( Y − X β ^ ) = Y ′ Y − 2 β ^ ′ X ′ Y + β ^ ′ X ′ X β ^ = Y ′ Y − 2 Y ′ X ( X ′ X ) − 1 X ′ Y + Y ′ X ( X ′ X ) − 1 ( X ′ X ) ( X ′ X ) − 1 X ′ Y = Y ′ [ I − X ( X ′ X ) − 1 X ′ ] Y (4.24) \begin{aligned} Q=&e'e\\ =&(Y-X\hat\beta)'(Y-X\hat\beta)\\ =&Y'Y-2\hat\beta'X'Y+\hat\beta'X'X\hat\beta\\ =&Y'Y-2Y'X(X'X)^{-1}X'Y+Y'X(X'X)^{-1}(X'X)(X'X)^{-1}X'Y\\ =&Y'[I-X(X'X)^{-1}X' ]Y \end{aligned}\tag{4.24} Q=====​e′e(Y−Xβ^​)′(Y−Xβ^​)Y′Y−2β^​′X′Y+β^​′X′Xβ^​Y′Y−2Y′X(X′X)−1X′Y+Y′X(X′X)−1(X′X)(X′X)−1X′YY′[I−X(X′X)−1X′]Y​(4.24)

這裡要注意的是,不能夠直接把 ( X ′ X ) − 1 (X'X)^{-1} (X′X)−1拆開成 X − 1 ( X ′ ) − 1 X^{-1}(X')^{-1} X−1(X′)−1,因為 X , X ′ X,X' X,X′都不是方陣,不存在逆矩陣。對其求期望,就有

E ( Q ∣ X ) = E [ β ′ X ′ ( I − X ( X ′ X ) − 1 X ′ ) X β ] + E [ μ ′ ( I − X ( X ′ X ) − 1 X ′ ) μ ] = E t r [ μ ′ ( I − X ( X ′ X ) − 1 X ′ ) μ ] = E t r [ μ ′ μ ( I − X ( X ′ X ) − 1 X ′ ) ] = σ 2 t r ( I ) − σ 2 t r [ X ( X ′ X ) − 1 X ′ ] = σ 2 t r ( I ) − σ 2 t r [ X ′ X ( X ′ X ) − 1 ] = σ 2 ( n − k − 1 ) . (4.25) \begin{aligned} \mathbb E(Q|X)=&\mathbb E[\beta'X'(I-X(X'X)^{-1}X')X\beta]+\mathbb E[\mu'(I-X(X'X)^{-1}X')\mu]\\ =&\mathbb E{\rm tr}[\mu'(I-X(X'X)^{-1}X')\mu]\\ =&\mathbb E{\rm tr}[\mu'\mu(I-X(X'X)^{-1}X')]\\ =&\sigma^2{\rm tr}(I)-\sigma^2{\rm tr}[X(X'X)^{-1}X']\\ =&\sigma^2{\rm tr}(I)-\sigma^2{\rm tr}[X'X(X'X)^{-1}] \\=&\sigma^2(n-k-1). \end{aligned}\tag{4.25} E(Q∣X)======​E[β′X′(I−X(X′X)−1X′)Xβ]+E[μ′(I−X(X′X)−1X′)μ]Etr[μ′(I−X(X′X)−1X′)μ]Etr[μ′μ(I−X(X′X)−1X′)]σ2tr(I)−σ2tr[X(X′X)−1X′]σ2tr(I)−σ2tr[X′X(X′X)−1]σ2(n−k−1).​(4.25)

對上面的式子需要作幾點聲明。第一個等号成立,是将 Y Y Y用 X β + μ X\beta+\mu Xβ+μ替代後利用 E ( μ X ) = 0 \mathbb E(\mu X)=0 E(μX)=0得到的;第二個等号成立,是因為第一部分代入計算後顯然等于0,第二部分是一個 1 × 1 1\times 1 1×1矩陣,其迹等于自身;第三個等号成立,是因為迹運算滿足交換律:

t r ( A B ) = t r ( B A ) . (4.26) {\rm tr}(AB)={\rm tr}(BA).\tag{4.26} tr(AB)=tr(BA).(4.26)

第四個等号成立,則是将 E ( μ ′ μ ) = σ 2 \mathbb E(\mu'\mu)=\sigma^2 E(μ′μ)=σ2替換掉期望後将兩部分拆開;第五個等号成立再次運用了迹運算的交換律;第六個等号需要格外注意,我們這裡的機關陣 I I I是出現于 Y ′ Y = Y ′ I Y Y'Y=Y'IY Y′Y=Y′IY的 ( 4.24 ) (4.24) (4.24),是以是 n n n階的;而 X ′ X X'X X′X是一個 k + 1 k+1 k+1階方陣,是以 X ′ X ( X ′ X ) − 1 = I X'X(X'X)^{-1}=I X′X(X′X)−1=I,這裡的 I I I是 k + 1 k+1 k+1階機關陣。

是以現在,我們得到了 σ 2 \sigma^2 σ2的無偏估計:

σ ^ 2 = e ′ e n − k − 1 . \hat\sigma^2=\frac{e'e}{n-k-1}. σ^2=n−k−1e′e​.

然後,就可以代入 β ^ \hat\beta β^​的分布,構造出 t t t樞軸量,進而構造出每一個 β ^ i \hat\beta_i β^​i​的置信區間。另外,要檢驗某個變量是否顯著(對回歸有效果),也就是檢驗變量 X i X_i Xi​的系數 β i \beta_i βi​是否為0,也可以利用樞軸量計算p-value,完成假設檢驗。這些步驟與一進制線性回歸的一緻,這裡就不再贅述。

繼續閱讀