天天看點

回歸模型-評估名額

  • ​​一、多元線性回歸​​
  • ​​二、正則化防止過拟合​​
  • ​​三、非線性回歸:多項式回歸​​
  • ​​3.1 回歸模型評估名額​​
  • ​​四、決策樹(分類回歸樹)分類标準​​
  • ​​五、相關和回歸​​
  • ​​5.1 相關和回歸的關系​​
  • ​​5.2 線性相關性度量:皮爾遜相關系數​​
  • ​​六、一進制線性回歸​​
  • ​​6.1 一進制線性回歸模型​​
  • ​​七、課程總結​​
回歸模型-評估名額

一、多元線性回歸

多元線性回歸示例:      

y=b+a1∗x1+a2∗x2+⋅⋅⋅+an∗xn

y

=

b

+

a

1

x

1

+

a

2

x

2

+

·

·

·

+

a

n

x

n

回歸模型-評估名額
房價預測案例:
多重共線性(Multicollinearty):
    是指線性回歸模型中的 解釋變量(X)之間
    由于存在高度相關關系而使模型估計失真或難以估計準确
多重共線性的影響:
    上述模型參數($a_1,a_2...$)估值不準,有時候會導緻出現相關性反轉。

如何發現多重共線性
    對X變量探索兩兩之間的相關性(相關矩陣)

逐漸回歸概念是一種多元回歸模型進行變量篩選的方法,篩選最少的變量來擷取最大化預測能力
三種方法:
    向前選擇法
    向後剔除法
    逐漸回歸法      

二、正則化防止過拟合

min∑i=1n(Yi−Yi^)=min∑i=1nε^2i

m

i

n

i

=

1

n

(

Y

i

Y

i

^

)

=

m

i

n

i

=

1

n

ε

^

i

2

在最小化殘差平方和的基礎上,增加L2範數的懲罰項:

∑i=1n(yi−β0−∑j=1pβjxij)2+λ∑j=1pβ2j=RSS+λ∑j=1pβ2j

i

=

1

n

(

y

i

β

j

=

1

p

β

j

x

i

j

)

2

+

λ

j

=

1

p

β

j

2

=

R

S

S

+

λ

j

=

1

p

β

j

2

L1正則化–lasso回歸

min∑i=1n(Yi−Yi^)=min∑i=1nε^2i

m

i

n

i

=

1

n

(

Y

i

Y

i

^

)

=

m

i

n

i

=

1

n

ε

^

i

2

在最小化殘差平方和的基礎上,增加L1範數的懲罰項:

∑i=1n(yi−β0−∑j=1pβjxij)2+λ∑j=1p|βj|=RSS+λ∑j=1p|βj|

i

=

1

n

(

y

i

β

j

=

1

p

β

j

x

i

j

)

2

+

λ

j

=

1

p

|

β

j

|

=

R

S

S

+

λ

j

=

1

p

|

β

j

|

三、非線性回歸:多項式回歸

非線性回歸的轉換——取對數

多項式回歸代碼實作:
sklearn.preprocession.PolynomialFeatures(
                degree = 2,              #階數
                interaction_only = False,
                include_bias = True
               ) 

sklearn.linear_model.LinearRegression(
                fit_intercept = True,
                noemalize = False,
                copy_X = True      
3.1 回歸模型評估名額

Explianed_variance(y,y^)=1−Var{y−y^}Var{y}

E

x

p

l

i

a

n

e

d

_

v

a

r

i

a

n

c

e

(

y

,

y

^

)

=

1

V

a

r

{

y

y

^

}

V

a

r

{

y

}

絕對平均誤差(Mean absolute error):

MAE(y,y^)=1nsamplies∑i=0nsamplies−1|yi−y^|

M

A

E

(

y

,

y

^

)

=

1

n

s

a

m

p

l

i

e

s

i

=

n

s

a

m

p

l

i

e

s

1

|

y

i

y

^

|

均方誤差(Mean squared error):

MSE(y,y^)=1nsamplies∑i=0nsamplies−1(yi−y^)2

M

S

E

(

y

,

y

^

)

=

1

n

s

a

m

p

l

i

e

s

i

=

n

s

a

m

p

l

i

e

s

1

(

y

i

y

^

)

2

決定系數(

R2

R

2

score)

R2(y,y^)=1−∑nsamplies−1i=0(yi−yi^)2∑nsamplies−1i=0(yi−y¯)2

R

2

(

y

,

y

^

)

=

1

i

=

n

s

a

m

p

l

i

e

s

1

(

y

i

y

i

^

)

2

i

=

n

s

a

m

p

l

i

e

s

1

(

y

i

y

¯

)

2

代碼:
sklearn.metrics
from sklearn.metrics import explained_variance_score
explained_variance_score(y_true,y_pred)

from sklearn.metrics import mean_absolute_error
mean_absolute_error(y_true,y_pred)

from sklearn.metrics import mean_squared_error
mean_squared_error(y_true,y_pred)

from sklearn.metrics import      

四、決策樹(分類回歸樹)分類标準

回歸模型-評估名額

>

Gain(A) = Variance(父) - Variance(子) #Gain(A)資訊增益

五、相關和回歸

5.1 相關和回歸的關系
都是研究變量互相關系的分析方法
    相關分析是回歸分析基礎和前提,回歸分析是變量之間相關程度的具體形式
    相關分析:正相關,負相關
    相關形式: 線性, 非線性      
回歸模型-評估名額
回歸模型-評估名額

>

5.2 線性相關性度量:皮爾遜相關系數

r=∑ni=1(xi−x¯)(yi−y¯)∑ni=1(xi−x¯)2−−−−−−−−−−−√∑ni=1(yi−y¯)2−−−−−−−−−−−√

r

=

i

=

1

n

(

x

i

x

¯

)

(

y

i

y

¯

)

i

=

1

n

(

x

i

x

¯

)

2

i

=

1

n

(

y

i

y

¯

)

2

回歸模型-評估名額

相關VS回歸:

回歸模型-評估名額

六、一進制線性回歸

6.1 一進制線性回歸模型
回歸模型-評估名額

該方法是尋找最佳拟合直線的參數(斜率和截距)

min∑i=1n(Yi−Yi^)2=min∑i=1nεi^2

m

i

n

i

=

1

n

(

Y

i

Y

i

^

)

2

=

m

i

n

i

=

1

n

ε

i

^

2

參數估計 回歸表達式: Yi^=β0^+β1^xi

Y

i

^

=

β

^

+

β

1

^

x

i

斜率:      β1^=SSxySSxx=∑(xi−x¯)yi−y¯)∑(xi−x¯)2

:

β

1

^

=

S

S

x

y

S

S

x

x

=

(

x

i

x

¯

)

y

i

y

¯

)

(

x

i

x

¯

)

2

七、課程總結

分類與回歸 差別與聯系
相似之處:
    都是有監督學習
    最重要的兩種預測模型
    決策樹既可以分類 也可以做回歸
    二進制分類模型的經典算法邏輯回歸算法,本質上也是一種回歸算法

差別:
    回歸目标變量是連續型變量
    分類目标變量是類别型變量

常見的餓回歸算法和模型
    1 基于最小二乘法的一進制/多元線性回歸
    2 多項式回歸(非線性)
    3 Ridge 回歸(L2正則化回歸),嶺回歸
    4 Lasso 回歸(L1正則化回歸),套索回歸
    5 決策樹(CART,分類回歸樹)
    6 邏輯回歸      

繼續閱讀