- 一、多元線性回歸
- 二、正則化防止過拟合
- 三、非線性回歸:多項式回歸
- 3.1 回歸模型評估名額
- 四、決策樹(分類回歸樹)分類标準
- 五、相關和回歸
- 5.1 相關和回歸的關系
- 5.2 線性相關性度量:皮爾遜相關系數
- 六、一進制線性回歸
- 6.1 一進制線性回歸模型
- 七、課程總結
一、多元線性回歸
多元線性回歸示例:
y=b+a1∗x1+a2∗x2+⋅⋅⋅+an∗xn
y
=
b
+
a
1
∗
x
1
+
a
2
∗
x
2
+
·
·
·
+
a
n
∗
x
n
房價預測案例:
多重共線性(Multicollinearty):
是指線性回歸模型中的 解釋變量(X)之間
由于存在高度相關關系而使模型估計失真或難以估計準确
多重共線性的影響:
上述模型參數($a_1,a_2...$)估值不準,有時候會導緻出現相關性反轉。
如何發現多重共線性
對X變量探索兩兩之間的相關性(相關矩陣)
逐漸回歸概念是一種多元回歸模型進行變量篩選的方法,篩選最少的變量來擷取最大化預測能力
三種方法:
向前選擇法
向後剔除法
逐漸回歸法
二、正則化防止過拟合
min∑i=1n(Yi−Yi^)=min∑i=1nε^2i
m
i
n
∑
i
=
1
n
(
Y
i
−
Y
i
^
)
=
m
i
n
∑
i
=
1
n
ε
^
i
2
在最小化殘差平方和的基礎上,增加L2範數的懲罰項:
∑i=1n(yi−β0−∑j=1pβjxij)2+λ∑j=1pβ2j=RSS+λ∑j=1pβ2j
∑
i
=
1
n
(
y
i
−
β
−
∑
j
=
1
p
β
j
x
i
j
)
2
+
λ
∑
j
=
1
p
β
j
2
=
R
S
S
+
λ
∑
j
=
1
p
β
j
2
L1正則化–lasso回歸
min∑i=1n(Yi−Yi^)=min∑i=1nε^2i
m
i
n
∑
i
=
1
n
(
Y
i
−
Y
i
^
)
=
m
i
n
∑
i
=
1
n
ε
^
i
2
在最小化殘差平方和的基礎上,增加L1範數的懲罰項:
∑i=1n(yi−β0−∑j=1pβjxij)2+λ∑j=1p|βj|=RSS+λ∑j=1p|βj|
∑
i
=
1
n
(
y
i
−
β
−
∑
j
=
1
p
β
j
x
i
j
)
2
+
λ
∑
j
=
1
p
|
β
j
|
=
R
S
S
+
λ
∑
j
=
1
p
|
β
j
|
三、非線性回歸:多項式回歸
非線性回歸的轉換——取對數
多項式回歸代碼實作:
sklearn.preprocession.PolynomialFeatures(
degree = 2, #階數
interaction_only = False,
include_bias = True
)
sklearn.linear_model.LinearRegression(
fit_intercept = True,
noemalize = False,
copy_X = True
3.1 回歸模型評估名額
Explianed_variance(y,y^)=1−Var{y−y^}Var{y}
E
x
p
l
i
a
n
e
d
_
v
a
r
i
a
n
c
e
(
y
,
y
^
)
=
1
−
V
a
r
{
y
−
y
^
}
V
a
r
{
y
}
絕對平均誤差(Mean absolute error):
MAE(y,y^)=1nsamplies∑i=0nsamplies−1|yi−y^|
M
A
E
(
y
,
y
^
)
=
1
n
s
a
m
p
l
i
e
s
∑
i
=
n
s
a
m
p
l
i
e
s
−
1
|
y
i
−
y
^
|
均方誤差(Mean squared error):
MSE(y,y^)=1nsamplies∑i=0nsamplies−1(yi−y^)2
M
S
E
(
y
,
y
^
)
=
1
n
s
a
m
p
l
i
e
s
∑
i
=
n
s
a
m
p
l
i
e
s
−
1
(
y
i
−
y
^
)
2
決定系數(
R2
R
2
score)
R2(y,y^)=1−∑nsamplies−1i=0(yi−yi^)2∑nsamplies−1i=0(yi−y¯)2
R
2
(
y
,
y
^
)
=
1
−
∑
i
=
n
s
a
m
p
l
i
e
s
−
1
(
y
i
−
y
i
^
)
2
∑
i
=
n
s
a
m
p
l
i
e
s
−
1
(
y
i
−
y
¯
)
2
代碼:
sklearn.metrics
from sklearn.metrics import explained_variance_score
explained_variance_score(y_true,y_pred)
from sklearn.metrics import mean_absolute_error
mean_absolute_error(y_true,y_pred)
from sklearn.metrics import mean_squared_error
mean_squared_error(y_true,y_pred)
from sklearn.metrics import
四、決策樹(分類回歸樹)分類标準
>
Gain(A) = Variance(父) - Variance(子) #Gain(A)資訊增益
五、相關和回歸
5.1 相關和回歸的關系
都是研究變量互相關系的分析方法
相關分析是回歸分析基礎和前提,回歸分析是變量之間相關程度的具體形式
相關分析:正相關,負相關
相關形式: 線性, 非線性
>
5.2 線性相關性度量:皮爾遜相關系數
r=∑ni=1(xi−x¯)(yi−y¯)∑ni=1(xi−x¯)2−−−−−−−−−−−√∑ni=1(yi−y¯)2−−−−−−−−−−−√
r
=
∑
i
=
1
n
(
x
i
−
x
¯
)
(
y
i
−
y
¯
)
∑
i
=
1
n
(
x
i
−
x
¯
)
2
∑
i
=
1
n
(
y
i
−
y
¯
)
2
相關VS回歸:
六、一進制線性回歸
6.1 一進制線性回歸模型
該方法是尋找最佳拟合直線的參數(斜率和截距)
min∑i=1n(Yi−Yi^)2=min∑i=1nεi^2
m
i
n
∑
i
=
1
n
(
Y
i
−
Y
i
^
)
2
=
m
i
n
∑
i
=
1
n
ε
i
^
2
參數估計 回歸表達式: Yi^=β0^+β1^xi
Y
i
^
=
β
^
+
β
1
^
x
i
斜率: β1^=SSxySSxx=∑(xi−x¯)yi−y¯)∑(xi−x¯)2
斜
率
:
β
1
^
=
S
S
x
y
S
S
x
x
=
∑
(
x
i
−
x
¯
)
y
i
−
y
¯
)
∑
(
x
i
−
x
¯
)
2
七、課程總結
分類與回歸 差別與聯系
相似之處:
都是有監督學習
最重要的兩種預測模型
決策樹既可以分類 也可以做回歸
二進制分類模型的經典算法邏輯回歸算法,本質上也是一種回歸算法
差別:
回歸目标變量是連續型變量
分類目标變量是類别型變量
常見的餓回歸算法和模型
1 基于最小二乘法的一進制/多元線性回歸
2 多項式回歸(非線性)
3 Ridge 回歸(L2正則化回歸),嶺回歸
4 Lasso 回歸(L1正則化回歸),套索回歸
5 決策樹(CART,分類回歸樹)
6 邏輯回歸