統計學習
統計學習是基于資料構模組化型,并運用模型對資料進行預測和分析的一門學科。
統計學習對資料的基本假設是同類資料具有一定的統計規律性,即可以用機率統計方法來學習。
監督學習的假設是訓練資料和測試資料是依聯合機率分布P(X,Y)獨立同分布産生的,獨立同分布就是比如随機變量(X1,Y1)與(X2,Y2)具有相同的機率分布,并且取值互相獨立。比如實驗條件保持不變,一系列的抛硬币的正反面結果就是獨立同分布的。
統計學習的步驟:
1. 得到有限的訓練資料集合;
2. 确定假設空間;
3. 确定模型選擇的準則,也就是政策;
4. 實作求解模型的算法;
5. 通過學習方法選擇最優模型;
6. 利用模型對新資料進行預測與分析。
一 統計學習三要素
方法=模型+政策+算法
1. 模型
統計學習首先要考慮學習什麼樣的模型。
模型是輸入空間(特征空間)到輸出空間的映射,映射的集合就是假設空間。
監督學習的模型可以是機率模型或非機率模型,由條件機率分布P(Y|X)或決策函數Y=f(X)表示。
比如假設決策函數是輸入變量的線性函數,那麼模型的假設空間就是所有這些線性函數構成的函數集合。
2. 政策
政策是選擇最優模型的準則,也即判斷模型預測好壞的準則。
損失函數度量模型一次預測錯誤的程度。常用的損失函數有0-1損失函數、平方損失函數、絕對損失函數、對數損失函數(對數似然損失函數)。
損失函數越小,模型就越好。
風險函數是損失函數的期望R(f)={L(x,f(x))P(x,y)dxdy。學習的目标就是選擇期望風險最小的模型。
風險函數分為經驗風險和結構風險。訓練資料集上的平均損失成為經驗風險,根據大數定律,當樣本數趨于無窮時,經驗風險趨于期望風險,按照經驗風險最小化最有模型就是求解最優化問題:min1/N(sum(L(yi,f(xi)))。當樣本容量很小時,為了防止過拟合,結構風險在經驗風險上加了表示模型複雜度的正則化項。按照結構風險最小化最有模型就是求解最優化問題:min1/N(sum(L(yi,f(xi))+aJ(f))。
當模型是條件機率分布,損失函數是對數損失函數時,檢驗風險最小化就等價于極大似然估計。證明可參考http://blog.csdn.net/xmu_jupiter/article/details/44965391
極大似然估計是模型一定,參數未知,選擇參數的準則就是使得到現有觀測的機率最大。具體解釋可參考http://www.cnblogs.com/liliu/archive/2010/11/22/1883702.html
當模型是條件機率分布,損失函數是對數損失函數,模型複雜度由模型的先驗機率表示時,結構風險最小化等價于最大後驗機率估計。證明可參考http://blog.csdn.net/xmu_jupiter/article/details/44996261
最大後驗估計與最大似然的不同之處就是融入了要估計量的先驗分布在其中,可以看做正則化的最大似然估計。具體解釋可參考http://www.cnblogs.com/liliu/archive/2010/11/24/1886110.html
其差别可參考http://ask.julyedu.com/question/150?rf=false&item_id=810#!answer_810
3. 算法
標明了學習政策,統計學習問題可歸結為最優化問題,統計學習的算法成為求解最優化問題的算法。
二 模型評估與模型選擇
如果假設空間中存在真模型,我們希望我們得到的模型逼近真模型。如果一味的追求對訓練資料的預測能力,所選模型的複雜度往往會很高,太對未知資料的預測能力就會很弱,也即泛化能力很弱,這種現象稱為過拟合。防止過拟合的兩種常用方法:正則化與交叉驗證。
1.正則化
正則化是結構風險最小化的實作。正則化可以取不同的形式,比如可以是參數向量的L2範數。
正則化符合奧卡姆剃刀原理。從貝葉斯估計的角度來看,正則化對應于模型的先驗機率,複雜的模型有較小的先驗機率,簡單的模型有較大的先驗機率。
同時,正則化提供了有唯一解的可能性。
2.交叉驗證
另一種常用的模型選擇方法是交叉驗證。将給定的資料分為訓練集和測試集,在此基礎是反複地進行訓練、測試以及模型的選擇。分為簡單交叉驗證、S折交叉驗證、留一交叉驗證(适合資料缺乏的情況)。
3.泛化能力
泛化能力是是學習方法本質上的重要的性質。
泛化誤差是所學習到模型的期望風險。
泛化誤差上界,具體來說就是通過比較兩種學習方法的泛化誤差上界的大小來比較他們的優劣。
三 生成方法與判别方法
生成方法:由資料學習聯合機率密度分布P(X,Y),然後求出條件機率分布P(Y|X)作為預測的模型,即生成模型:P(Y|X)= P(X,Y)/ P(X)。基本思想是首先建立樣本的聯合機率機率密度模型P(X,Y),然後再得到後驗機率P(Y|X),再利用它進行分類。由于資料是通過聯合機率分布獨立同分布産生的,也即生成方法考慮了資料生成的機率分布函數。它是完全基于統計和貝葉斯理論的。包括樸素貝葉斯法和隐馬爾科夫模型。
判别方法:由資料直接學習決策函數Y=f(X)或者條件機率分布P(Y|X)作為預測的模型,即判别模型。基本思想是有限樣本條件下建立判别函數,在資料中找到不同類資料的差别,比如決策面,不考慮樣本的産生模型,直接研究預測模型。典型的判别模型包括k近鄰,感覺級,決策樹,支援向量機等。判決模型一個很重要的因素就是要先人為地選擇一個判決機制(LR,SVM等)。
詳細解釋可參考http://blog.csdn.net/zouxy09/article/details/8195017
四 分類問題、标注問題、回歸問題
二分類問題和标注問題的常用評價名額是精确率和召回率。
回歸問題的常用的損失函數是平方損失函數,在此情況下,回歸問題可以有最小二乘法求解。