天天看點

一個主成分回歸中隐藏的思維陷阱

目錄

  • 一個主成分回歸中隐藏的思維陷阱
    • 應用主成分回歸的正常流程
    • 構造一個例子
    • 應對辦法

最近在對某些經濟資料應用主成分回歸時遇到一件怪事:變量 \(X_1\)、\(X_2\) 和 \(X_3\) 做 \(Y\) 的解釋變量,回歸系數是顯著的,提取 \(X_1\)、\(X_2\) 和 \(X_3\) 的首個主成分 \(P_1\),\(P_1\) 做 \(Y\) 的解釋變量卻是不顯著的,咄咄怪事。

事後想明白了,這其實是應用主成分回歸的過程中隐藏的一個思維陷阱。

  1. 根據業務知識或者回歸分析找到因變量 \(Y\) 的若幹解釋變量 \(X_1,X_2, \dots\)
  2. 提取解釋變量排名靠前的少數主成分 \(P_1,P_2,\dots\)
  3. 用 \(P_1,P_2,\dots\) 做解釋變量,對 \(Y\) 應用回歸分析

上述三步便是應用主成分回歸的正常流程,但是其中隐藏裡一個思維陷阱,即 \(Y\) 必然可以和排名靠前的少數主成分建立起回歸關系,這其實是一個先入為主的錯誤觀念。

事實上,\(Y\) 可能隻能和排名靠後的主成分建立起回歸關系。

\(P_1\)、\(P_2\) 和 \(P_3\) 是三個獨立的随機變量,方差依次降低。\(X_1\)、\(X_2\) 和 \(X_3\) 均是 \(P_1\)、\(P_2\) 和 \(P_3\) 的線性組合:

\[\begin{bmatrix}

X_1\\

X_2\\

X_3

\end{bmatrix}

= A \times

\begin{bmatrix}

P_1\\

P_2\\

P_3

\]

其中 \(A\) 是可逆的矩陣。

如果對 \(X_1\)、\(X_2\) 和 \(X_3\) 做主成分分析的話,得到的主成分就是 \(P_1\)、\(P_2\) 和 \(P_3\)。

如果 \(Y = P_3 + \varepsilon\),\(\varepsilon\) 和 \(P_1\)、\(P_2\) 和 \(P_3\) 獨立。很顯然,\(X_1\)、\(X_2\) 和 \(X_3\) 和 \(Y\) 可以建立起回歸關系,但是 \(Y\) 和第一個主成分 \(P_1\) 是不存在任何關系的。

為了避免跌落陷阱,對提取出來的所有主成分做“逐漸回歸”可能是一個不錯的辦法,由于主成分之間的正交性,逐漸回歸的結果應該會非常穩健。

★ 持續學習 ★ 堅持創作 ★