天天看點

回歸分析算法

回歸分析

1.回歸分析基本原理

所謂回歸分析法,就是在掌握大量觀察資料基礎上,利用數理統計方法建立因變量與自變量之間的回歸關系函數表達式(簡稱為回歸方程式)。回歸分析是一種預測性的模組化技術,它研究的是因變量(目标)和自變量(預測器)之間的關系,這種因變量與自變量的不确定性的關系(相關性關系)。這種技術通常用于預測分析,時間序列模型以及發現變量之間的因果關系。

2.為什麼使用回歸分析?

如上所述,回歸分析估計了兩個或多個變量之間的關系。回歸分析的好處良多。具體如下:

1.它表明自變量和因變量之間的顯著關系;

2.它表明多個自變量對一個因變量的影響強度。

回歸分析也允許我們去比較那些衡量不同尺度的變量之間的互相影響,如價格變動與促銷活動數量之間聯系。

3.有多少種回歸技術?

有各種各樣的回歸技術用于預測。這些技術主要有三個度量(自變量的個數,因變量的類型以及回歸線的形狀)。總共有7種:線性回歸,邏輯回歸,多項式回歸,Stepwise Regression逐漸回歸,Ridge Regression嶺回歸,Lasso Regression套索回歸,ElasticNet回歸

4. Linear Regression線性回歸

它是最為人熟知的模組化技術之一。線性回歸通常是人們在學習預測模型時首選的技術之一。在這種技術中,因變量是連續的,自變量可以是連續的也可以是離散的,回歸線的性質是線性的。

線性回歸使用最佳的拟合直線(也就是回歸線)在因變量(Y)和一個或多個自變量(X)之間建立一種關系。用一個方程式來表示它,即Y=a+b*X + e,其中a表示截距,b表示直線的斜率,e是誤差項。這個方程可以根據給定的預測變量來預測目标變量的值。

一進制線性回歸和多元線性回歸的差別在于,多元線性回歸有(>1)個自變量,而一進制線性回歸通常隻有1個自變量。現在的問題是“我們如何得到一個最佳的拟合線呢?”。

1)獲得最佳拟合線(a和b的值)

這個問題可以使用最小二乘法輕松地完成。最小二乘法也是用于拟合回歸線最常用的方法。對于觀測資料,它通過最小化每個資料點到線的垂直偏差平方和來計算最佳拟合線。因為在相加時,偏差先平方,是以正值和負值沒有抵消。

2)最小二乘法原理

在這裡假設變量Y與X之間存線上性相關關系。設有n對觀測值,構造線性函數Y=ax+b,令,根據上面的闡述,利用最小二乘法求解回歸函數參數就是找到适合的參數(a,b)使得 的值最小,然後在式中,分别求S對(a,b)的偏導數,并令其等于零,可求得參數a,b。

要點:

自變量與因變量之間必須有線性關系

多元回歸存在多重共線性,自相關性和異方差性。

線性回歸對異常值非常敏感。它會嚴重影響回歸線,最終影響預測值。

多重共線性會增加系數估計值的方差,使得在模型輕微變化下,估計非常敏感。結果就是系數估計值不穩定

在多個自變量的情況下,我們可以使用向前選擇法,向後剔除法和逐漸篩選法來選擇最重要的自變量

3)線性回歸方程的顯著性檢驗

線性回歸方程建立後,一般需要進行顯著性檢驗,常用的檢驗方法有:方差分解法,相關分析法,F檢驗,t檢驗以及D-W檢驗。下面主要介紹F檢驗和t檢驗。

F檢驗法

在一進制線性回歸模型中,若b=0,則X的變化不會引起Y的變化,即Y與X不具有線性相關關系。是以,線性回歸方程的顯著性檢驗可以通過回歸方程的F檢驗來完成。

  提出:b=0, :b0,則在成立,即Y與X之間不存線上性相關的條件下,統計量

回歸分析算法

服從自由度為(1,n-2)的F分布。在給定了檢驗的顯著性水準以後,可由F分布表得到成立時的臨界值,如果對于一組樣本計算得出的統計量F的值大于,則否定,即b0,說明X與Y之間确定存線上性相關關系。是以,對回歸方程的相關性檢驗可按下列步驟做F檢驗。

步驟1:提出假設:b=0, :b0,

步驟2:在成立時,統計量 F(1,n-2)對于給定的顯著性水準,查F分布表得到檢驗的臨界值。

步驟3:對于一組樣本計算SSR和SSE,并由此得到F值。

步驟4:比較F與的值,若F> ,則拒絕零假設。我們認為X與Y之間存線上性相關關系,否則接受,認為X與Y之間沒有線性相關關系。

t檢驗

盡管相關系數r是對變量Y與X之間線性關系密切程度的一個度量,但是相關系數r是根據樣本資料計算得到的,因而具有一定的随機性,樣本容量越小,其随機性就越大。是以也需要通過樣本相關系數r對總體的相關系數做出判斷。由于相關系數r的分布密度函數比較複雜,實際應用中需要對r作變換。令

回歸分析算法

則統計量t服從t(n-2)分布。于是關于總體是否線性相關的問題就變成對總體相關系數=0的假設檢驗,也就是隻要對統計量t進行t檢驗就行了。

根據一組樣本計算出上述t值,再根據問題所給定的顯著性水準和自由度n-2,查t分布表,找到相應的臨界值/2.若,表明t在統計上是顯著的,即總體的兩個變量間存線上性關系。否則就認為兩個變量不存線上性關系。

2.Logistic Regression邏輯回歸

邏輯回歸是用來計算“事件=Success”和“事件=Failure”的機率。當因變量的類型屬于二進制(1 / 0,真/假,是/否)變量時,我們就應該使用邏輯回歸。

Logit函數,通過觀測樣本的極大似然估計值來選擇參數,而不是最小化平方和誤差(如在普通回歸使用的)。

2.1極大似然估計參數求解步驟:

(1) 寫出似然函數:

回歸分析算法

  這裡,n為樣本數量,似然函數表示n個樣本(事件)同時發生的機率。

 (2) 對似然函數取對數:

回歸分析算法

  (3) 将對數似然函數對各參數求偏導數并令其為0,得到對數似然方程組。

  (4) 從方程組中解出各個參數。

要點:

它廣泛的用于分類問題。

邏輯回歸不要求自變量和因變量是線性關系。它可以處理各種類型的關系,因為它對預測的相對風險指數OR使用了一個非線性的log轉換。

為了避免過拟合和欠拟合,我們應該包括所有重要的變量。有一個很好的方法來確定這種情況,就是使用逐漸篩選方法來估計邏輯回歸。

它需要大的樣本量,因為在樣本數量較少的情況下,極大似然估計的效果比普通的最小二乘法差。

自變量不應該互相關聯的,即不具有多重共線性。然而,在分析和模組化中,我們可以選擇包含分類變量互相作用的影響。

如果因變量的值是定序變量,則稱它為序邏輯回歸。

如果因變量是多類的話,則稱它為多元邏輯回歸。

2.2 Logistic回歸模組化步驟

1)根據分析目的設定名額變量(因變量與自變量),然後收集資料

2)y取1的機率是p=P(y=1|X),取0的機率是1-p,用 和自變量列出線性回歸方程,估計出模型中的回歸系數

3)進行模型檢驗:根據輸出的方差分析表中的F值和p值來檢驗該回歸方程是否顯著,如果p值小于顯著性水準則模型通過檢驗,可以進行下一步回歸系數的檢驗;否則要重新選擇名額變量,重建立立回歸方程

4)進行回歸系數的顯著性檢驗:在多元線性回歸中,回歸方程顯著并不意味着每個自變量對y的影響都顯著,為了從回歸方程中剔除那些次要的、可有可無的變量,為了從回歸方程中剔除那些次要的、可有可無的變量,重建立立更為簡單的回歸方程,需要對每個自變量進行顯著性檢驗,檢驗結果由參數估計表得到。采用逐漸回歸法,首先剔除掉最不顯著的因變量,重新構造回歸方程,一直到模型和參與的回歸系數都通過檢驗。

5)模型應用:輸入自變量的取值,就可以得到預測的變量的值,或者根據預測變量的值去控制自變量的取值。

Logistic回歸模型的模組化步驟如下圖所示:

回歸分析算法

3. Polynomial Regression多項式回歸

對于一個回歸方程,如果自變量的指數大于1,那麼它就是多項式回歸方程。

在這種回歸技術中,最佳拟合線不是直線。而是一個用于拟合資料點的曲線。

4. Stepwise Regression逐漸回歸

在處理多個自變量時,我們可以使用這種形式的回歸。在這種技術中,自變量的選擇是在一個自動的過程中完成的,其中包括非人為操作。這一壯舉是通過觀察統計的值,如R-square,t-stats和AIC名額,來識别重要的變量。逐漸回歸通過同時添加/删除基于指定标準的協變量來拟合模型。下面列出了一些最常用的逐漸回歸方法:

标準逐漸回歸法做兩件事情。即增加和删除每個步驟所需的預測。

向前選擇法從模型中最顯著的預測開始,然後為每一步添加變量。

向後剔除法與模型的所有預測同時開始,然後在每一步消除最小顯着性的變量。

這種模組化技術的目的是使用最少的預測變量數來最大化預測能力。這也是處理高維資料集的方法之一。

5. Ridge Regression嶺回歸

嶺回歸分析是一種用于存在多重共線性(自變量高度相關)資料的技術。在多重共線性情況下,盡管最小二乘法(OLS)對每個變量很公平,但它們的差異很大,使得觀測值偏移并遠離真實值。嶺回歸通過給回歸估計上增加一個偏差度,來降低标準誤差。

6. Lasso Regression套索回歸

它類似于嶺回歸,Lasso (LeastAbsolute Shrinkage and Selection Operator)也會懲罰回歸系數的絕對值大小。此外,它能夠減少變化程度并提高線性回歸模型的精度。

7.ElasticNet回歸

ElasticNet是Lasso和Ridge回歸技術的混合體。它使用L1來訓練并且L2優先作為正則化矩陣。當有多個相關的特征時,ElasticNet是很有用的。Lasso 會随機挑選他們其中的一個,而ElasticNet則會選擇兩個。

如何正确選擇回歸模型?

在多類回歸模型中,基于自變量和因變量的類型,資料的維數以及資料的其它基本特征的情況下,選擇最合适的技術非常重要。以下是你要選擇正确的回歸模型的關鍵因素:

1)資料探索是建構預測模型的必然組成部分。在選擇合适的模型時,比如識别變量的關系和影響時,它應該首選的一步。比較适合于不同模型的優點,我們可以分析不同的名額參數,如統計意義的參數,R-square,Adjusted R-square,AIC,BIC以及誤差項,另一個是Mallows’ Cp準則。這個主要是通過将模型與所有可能的子模型進行對比(或謹慎選擇他們),檢查在你的模型中可能出現的偏差。

2)交叉驗證是評估預測模型最好額方法。在這裡,将你的資料集分成兩份(一份做訓練和一份做驗證)。使用觀測值和預測值之間的一個簡單均方差來衡量你的預測精度。如果你的資料集是多個混合變量,那麼你就不應該選擇自動模型選擇方法,因為你應該不想在同一時間把所有變量放在同一個模型中。

3)它也将取決于你的目的。可能會出現這樣的情況,一個不太強大的模型與具有高度統計學意義的模型相比,更易于實作。

4)回歸正則化方法(Lasso,Ridge和ElasticNet)在高維和資料集變量之間多重共線性情況下運作良好。

繼續閱讀