天天看點

201116西瓜書機器學習系列---11、特征選擇

201116西瓜書機器學習系列---11、特征選擇

一、總結

一句話總結:

特征選擇的【步驟】,特征選擇的【方法】
201116西瓜書機器學習系列---11、特征選擇

1、稀疏學習?

201116西瓜書機器學習系列---11、特征選擇

2、資訊增益如何做特征選擇?

【資訊增益越大,特征越重要】
201116西瓜書機器學習系列---11、特征選擇

3、過濾式特征選擇:代表算法Relief(Relevant Feature)?

Relief原理:【能區分開目标的特征挑出來,區分不開目标的特征給它去掉】
$$\delta ^ { j } = \sum _ { i = 1 } ^ { M } - \operatorname { diff } ( x _ { i } ^ { j } , x _ { i , n h } ^ { j } ) ^ { 2 } + \operatorname { diff } ( x _ { i } ^ { j } , x _ { i , n i n } ^ { j } ) ^ { 2 }$$
201116西瓜書機器學習系列---11、特征選擇
201116西瓜書機器學習系列---11、特征選擇

4、L1正則化?

L1正則化使得W變的【稀疏】,L2正則化【使得W變的比較小】
201116西瓜書機器學習系列---11、特征選擇
201116西瓜書機器學習系列---11、特征選擇

5、為什麼L1正則化可以讓特征變少(為什麼L1正則化使得W變的稀疏)?

$$\operatorname { obj } ( w ) = \min \sum _ { i = 1 } ^ { m } ( y _ { i } - w ^ { T } x _ { i } ) ^ { 2 } + \lambda \| w \| _ { 1 }$$
201116西瓜書機器學習系列---11、特征選擇
201116西瓜書機器學習系列---11、特征選擇
【L1正則化交點常在坐标軸上】,這樣【某個特征值就會為0】,表示這個特征沒影響,而【L2正則化的交點常不在坐标軸上】,看圖非常好了解

6、特征工程?

做一個模型,【70%-90%時間】會花在特征工程上面;【最耗時、最有創造力】的部分;【不同模型】對特征工程【要求不一樣】;【cnn、dnn對特征工程要求較低】
201116西瓜書機器學習系列---11、特征選擇
201116西瓜書機器學習系列---11、特征選擇

二、特征選擇

部落格對應課程的視訊位置:

201116西瓜書機器學習系列---11、特征選擇

繼續閱讀