天天看點

轉:機器學習是否需要考慮共線性、異方差等問題?

轉自:https://www.zhihu.com/question/310448033/answer/596576732

作者:劉一刀

連結:https://www.zhihu.com/question/310448033/answer/596576732

來源:知乎

著作權歸作者所有。商業轉載請聯系作者獲得授權,非商業轉載請注明出處。

機器學習裡隻不過是換了名字,l1正則化和l2正則化實際上就是套索回歸和嶺回歸,實際上就是為了解決異方差等問題。

共線性的話要具體看,比如我的模型隻是為了預測,那麼可以一定程度上不用考慮共線性,隻要避免模型過拟合就好了,因為理論上講每增加一個feature,我的模型的預測能力就可以更強,是以你在做預測的時候隻用專心調參讓預測結果更好,泛化能力更強就好了,但是反過來,你在調參的過程中,是在一定程度上做了避免共線性的處理的,比如最大樹深了,最大樣本量了,最大特征數了等等,但是沒有統計學中做的徹底,對于統計學,特别經濟等相關領域,做模型主要是為了解釋問題,這時候就要特别考慮共線性了,因為共線性會導緻原來x和y是正相關,結果出來結果x的系數是負的,這個就尴尬了,是以要嚴格處理。

綜合來講,對于機器學習模型,如神經網絡、SVM等模型等,你在調參的過程是一定程度上是考慮了的,同時你做模型不是為了解釋性,是以有一定程度的共線性等也是沒有問題的,隻要最後的模型準确度高,泛化能力強就行了。

但是如果你的模型是為了解釋什麼問題,重點關注的是模型本身的系數,那麼這些問題都要特别考慮。當然這時候是不适合做機器學習模型的,stata,eviews,spss等軟體有想應的工具包解決這些問題。