目錄
- 一個主成分回歸中隐藏的思維陷阱
- 應用主成分回歸的正常流程
- 構造一個例子
- 應對辦法
最近在對某些經濟資料應用主成分回歸時遇到一件怪事:變量 \(X_1\)、\(X_2\) 和 \(X_3\) 做 \(Y\) 的解釋變量,回歸系數是顯著的,提取 \(X_1\)、\(X_2\) 和 \(X_3\) 的首個主成分 \(P_1\),\(P_1\) 做 \(Y\) 的解釋變量卻是不顯著的,咄咄怪事。
事後想明白了,這其實是應用主成分回歸的過程中隐藏的一個思維陷阱。
- 根據業務知識或者回歸分析找到因變量 \(Y\) 的若幹解釋變量 \(X_1,X_2, \dots\)
- 提取解釋變量排名靠前的少數主成分 \(P_1,P_2,\dots\)
- 用 \(P_1,P_2,\dots\) 做解釋變量,對 \(Y\) 應用回歸分析
上述三步便是應用主成分回歸的正常流程,但是其中隐藏裡一個思維陷阱,即 \(Y\) 必然可以和排名靠前的少數主成分建立起回歸關系,這其實是一個先入為主的錯誤觀念。
事實上,\(Y\) 可能隻能和排名靠後的主成分建立起回歸關系。
\(P_1\)、\(P_2\) 和 \(P_3\) 是三個獨立的随機變量,方差依次降低。\(X_1\)、\(X_2\) 和 \(X_3\) 均是 \(P_1\)、\(P_2\) 和 \(P_3\) 的線性組合:
\[\begin{bmatrix}
X_1\\
X_2\\
X_3
\end{bmatrix}
= A \times
\begin{bmatrix}
P_1\\
P_2\\
P_3
\]
其中 \(A\) 是可逆的矩陣。
如果對 \(X_1\)、\(X_2\) 和 \(X_3\) 做主成分分析的話,得到的主成分就是 \(P_1\)、\(P_2\) 和 \(P_3\)。
如果 \(Y = P_3 + \varepsilon\),\(\varepsilon\) 和 \(P_1\)、\(P_2\) 和 \(P_3\) 獨立。很顯然,\(X_1\)、\(X_2\) 和 \(X_3\) 和 \(Y\) 可以建立起回歸關系,但是 \(Y\) 和第一個主成分 \(P_1\) 是不存在任何關系的。
為了避免跌落陷阱,對提取出來的所有主成分做“逐漸回歸”可能是一個不錯的辦法,由于主成分之間的正交性,逐漸回歸的結果應該會非常穩健。
★ 持續學習 ★ 堅持創作 ★