Coursera機器學習基石筆記week4

Feasibility of Learning

Learning is Impossible？

我們想要在D以外的資料中更接近目标函數似乎是做不到的，隻能保證對D有很好的分類結果。機器學習的這種特性被稱為沒有免費午餐（No Free Lunch）定理。NFL定理表明沒有一個學習算法可以在任何領域總是産生最準确的學習器。不管采用何種學習算法，至少存在一個目标函數，能夠使得随機猜測算法是更好的算法。

Probability to the Rescue

Coursera機器學習基石筆記week4

Connection to Learning

下面，我們将罐子的内容對應到機器學習的概念上來。機器學習中hypothesis與目标函數相等的可能性，類比于罐子中橙色球的機率問題；罐子裡的一顆顆彈珠類比于機器學習樣本空間的x；橙色的彈珠類比于h(x)與f不相等；綠色的彈珠類比于h(x)與f相等；從罐子中抽取的N個球類比于機器學習的訓練樣本D，且這兩種抽樣的樣本與總體樣本之間都是獨立同分布的。是以呢，如果樣本N夠大，且是獨立同分布的，那麼，從樣本中 h ( x ) ≠ f ( x ) ) h(x)\neq f(x)) h(x)̸=f(x))的機率就能推導在抽樣樣本外的所有樣本中 h ( x ) ≠ f ( x ) h(x)\neq f(x) h(x)̸=f(x)的機率是多少。

這裡我們引入兩個值 E i n ( h E_{in}(h Ein(h)和 E o u t ( h ) E_{out}(h) Eout(h)。 E i n ( h ) E_{in}(h) Ein(h)表示在抽樣樣本中，h(x)與 y n y_n yn不相等的機率； E o u t ( h ) E_{out}(h) Eout(h)表示實際所有樣本中，h(x)與f(x)不相等的機率是多少。

Coursera機器學習基石筆記week4

Connection to Real Learning

Coursera機器學習基石筆記week4

也就是說，不同的資料集 D n D_n Dn，對于不同的hypothesis，有可能成為Bad Data。隻要 D n D_n Dn在某個hypothesis上是Bad Data，那麼 D n D_n Dn就是Bad Data。隻有當 D n D_n Dn在所有的hypothesis上都是好的資料，才說明 D n D_n Dn不是Bad Data，可以自由選擇演算法A進行模組化。那麼，根據Hoeffding’s inequality，Bad Data的上界可以表示為連級（union bound）的形式：

Coursera機器學習基石筆記week4

其中，M是hypothesis的個數，N是樣本D的數量， ϵ \epsilon ϵ是參數。該union bound表明，當M有限，且N足夠大的時候，Bad Data出現的機率就更低了，即能保證D對于所有的h都有 E i n ≈ E o u t E_{in}\approx E_{out} Ein≈Eout，滿足PAC，演算法A的選擇不受限制。那麼滿足這種union bound的情況，我們就可以和之前一樣，選取一個合理的演算法（PLA/pocket），選擇使 E i n E_{in} Ein最小的 h m h_m hm作為g，一般能夠保證 g ≈ f g\approx f g≈f，即有不錯的泛化能力。

是以，如果hypothesis的個數M是有限的，N足夠大，那麼通過演算法A任意選擇一個g，都有 E i n ≈ E o u t E_{in}\approx E_{out} Ein≈Eout成立；同時，如果找到一個g，使 E i n ≈ 0 E_{in}\approx 0 Ein≈0，PAC就能保證 E o u t ≈ 0 E_{out}\approx 0 Eout≈0。至此，就證明了機器學習是可行的。

但是如果M是無數個，例如之前介紹的PLA的直線具有無數條，那麼是否這些推論就不成立了呢？

總結

本節課主要介紹了機器學習的可行性。首先引入NFL定理，說明機器學習無法找到一個g能夠完全和目标函數f一樣。接着介紹了可以采用一些統計上的假設，例如Hoeffding不等式，建立 E i n E_{in} Ein和 E o u t E_{out} Eout的聯系，證明對于某個h，當N足夠大的時候， E i n E_{in} Ein和 E o u t E_{out} Eout是PAC的。最後，對于h個數很多的情況，隻要有h個數M是有限的，且N足夠大，就能保證 E i n ≈ E o u t E_{in}\approx E_{out} Ein≈Eout，證明機器學習是可行的。

Coursera機器學習基石筆記week4

Feasibility of Learning

Learning is Impossible？

Probability to the Rescue

Connection to Learning

Connection to Real Learning

總結

繼續閱讀

簡單文檔分類——樸素貝葉斯算法樸素貝葉斯算法簡單文檔分類執行個體步驟總結樸素貝葉斯分類調用(sklearn)

【分類算法】什麼是分類算法定義分類與聚類分類過程方法

分類算法的評價名額

K-近鄰算法以及圖像分類應用

weka之NB算法

使用weka的select attribute

weka中分類器算法

在weka中內建自己的算法

【多變量線性回歸】學習記錄序思路實作終

申請評分模型拒絕推斷（RI）方法申請評分模型拒絕推斷（RI）方法

【人工智能行業大師訪談1】吳恩達采訪 Geoffery Hinton

【趨高機器視覺】機器視覺技術原了解析及解決方案

吳恩達 coursera ML 第七課總結+作業答案前言目錄正文模型表示作業答案

XGBoost Plotting API以及GBDT組合特征實踐 XGBoost Plotting API以及GBDT組合特征實踐

解碼器用于語義分割：資料依賴的解碼可以實作靈活的特征聚合

2021-2025年中國運動療法（KT）帶行業市場供需與戰略研究報告