天天看點

機器學習之Logistic回歸(邏輯蒂斯回歸)

Logistic回歸又稱Logistic回歸分析,主要在流行病學中應用較多,比較常用的情形是探索某疾病的危險因素,根據危險因素預測某疾病發生的機率,等等。

應用:

一、尋找危險因素,正如上面所說的尋找某一疾病的危險因素等。

二、預測,如果已經建立了Logistic回歸模型,則可以根據模型,預測在不同的自變量情況下,發生某病或某種情況的機率有多大。

三、判别,實際上跟預測有些類似,也是根據Logistic模型,判斷某人屬于某病或屬于某種情況的機率有多大,也就是看一下這個人有多大的可能性是屬于某病。

這是Logistic回歸最常用的三個用途,實際中的Logistic回歸用途是極為廣泛的,Logistic回歸幾乎已經成了流行病學和醫學中最常用的分析方法,因為它與多重線性回歸相比有很多的優勢。

首先,我們先來看一下Logistic回歸的學習過程:

機器學習之Logistic回歸(邏輯蒂斯回歸)

Logistic回歸經常應用在病情預測的問題裡面。假設給出一位病人的相關資訊,那麼我們應該如何預測他将來出現心髒病的可能性呢?

如果我們已經能夠擁有了一些資料,那麼我們就會輕易算出相應的機率:

機器學習之Logistic回歸(邏輯蒂斯回歸)

但是實際上,在大多數情況下,我們不能夠事先擁有這些資料,于是乎我們必須經過抽樣等手段,把對應的圈圈叉叉的資料對應成相應的機率。

機器學習之Logistic回歸(邏輯蒂斯回歸)

對應于上面提到的預測心髒病發生機率的例子,我們可以根據對應特征值

X=(X0,X1,X2,....,Xd)

與其對應權重的乘積之和s,

機器學習之Logistic回歸(邏輯蒂斯回歸)

然後将s轉化成Logistic函數θ(s):

機器學習之Logistic回歸(邏輯蒂斯回歸)
機器學習之Logistic回歸(邏輯蒂斯回歸)

函數圖像如圖所示:

機器學習之Logistic回歸(邏輯蒂斯回歸)

特别地,θ(0)=12,s=wTx,函數圖像為“S”型曲線。

接下來,我們将會來定義Logistic回歸的錯誤度量。

線上性分類器中,錯誤的情況不是正确就是錯誤(0、1):

機器學習之Logistic回歸(邏輯蒂斯回歸)

線上性回歸分析中,錯誤的偏內插補點是偏離距離的平方值:

機器學習之Logistic回歸(邏輯蒂斯回歸)

那麼在Logistic回歸中,我們該如何定義呢?

因為f(x)=P(+1|x),是以

P(y|x)={f(x), 1−f(x),y=+1y=−1

機器學習之Logistic回歸(邏輯蒂斯回歸)

又由于函數性質可知:

1−h(x)=h(−x)

機器學習之Logistic回歸(邏輯蒂斯回歸)
機器學習之Logistic回歸(邏輯蒂斯回歸)
機器學習之Logistic回歸(邏輯蒂斯回歸)
機器學習之Logistic回歸(邏輯蒂斯回歸)
機器學習之Logistic回歸(邏輯蒂斯回歸)
機器學習之Logistic回歸(邏輯蒂斯回歸)
機器學習之Logistic回歸(邏輯蒂斯回歸)

要想求得Ein(w) 取最小值,那麼對應的梯度應該為0,即∇Ein(w)=0

機器學習之Logistic回歸(邏輯蒂斯回歸)

機器學習之Logistic回歸(邏輯蒂斯回歸)

=0

初始化w0,t=0,1,2,3,4…..

(1)計算

機器學習之Logistic回歸(邏輯蒂斯回歸)

,然後用

機器學習之Logistic回歸(邏輯蒂斯回歸)

不斷更新,代入上式計算,直到∇Ein(wt+1)=0 或者最後傳回wt+1作為函數g。

在這過程之中,η的取值也很關鍵,如果,取值過大,函數圖像就會出現震蕩。

機器學習之Logistic回歸(邏輯蒂斯回歸)

如果,取值過小,疊代過程又會變得漫長。

機器學習之Logistic回歸(邏輯蒂斯回歸)

隻有取值恰當,才會盡可能快的求出最優解。

機器學習之Logistic回歸(邏輯蒂斯回歸)