轉：機器學習是否需要考慮共線性、異方差等問題？

2023-04-22 17:22:58

轉自：https://www.zhihu.com/question/310448033/answer/596576732

作者：劉一刀

連結：https://www.zhihu.com/question/310448033/answer/596576732

來源：知乎

著作權歸作者所有。商業轉載請聯系作者獲得授權，非商業轉載請注明出處。

機器學習裡隻不過是換了名字，l1正則化和l2正則化實際上就是套索回歸和嶺回歸，實際上就是為了解決異方差等問題。

共線性的話要具體看，比如我的模型隻是為了預測，那麼可以一定程度上不用考慮共線性，隻要避免模型過拟合就好了，因為理論上講每增加一個feature，我的模型的預測能力就可以更強，是以你在做預測的時候隻用專心調參讓預測結果更好，泛化能力更強就好了，但是反過來，你在調參的過程中，是在一定程度上做了避免共線性的處理的，比如最大樹深了，最大樣本量了，最大特征數了等等，但是沒有統計學中做的徹底，對于統計學，特别經濟等相關領域，做模型主要是為了解釋問題，這時候就要特别考慮共線性了，因為共線性會導緻原來x和y是正相關，結果出來結果x的系數是負的，這個就尴尬了，是以要嚴格處理。

綜合來講，對于機器學習模型，如神經網絡、SVM等模型等，你在調參的過程是一定程度上是考慮了的，同時你做模型不是為了解釋性，是以有一定程度的共線性等也是沒有問題的，隻要最後的模型準确度高，泛化能力強就行了。

但是如果你的模型是為了解釋什麼問題，重點關注的是模型本身的系數，那麼這些問題都要特别考慮。當然這時候是不适合做機器學習模型的，stata，eviews，spss等軟體有想應的工具包解決這些問題。

轉：機器學習是否需要考慮共線性、異方差等問題？

繼續閱讀

轉：IV值和WOE值的了解1.IV的用途2.對IV的直覺了解3.IV的計算4.關于IV和WOE的進一步思考