分類
第一步,建立一個模型,描述預定的資料類集或者概念集。
第二步,使用模型進行分類。
補充說明:
1 資料類集或者概念集還可以被稱為樣本、執行個體、對象。
2為建立模型而被分析的資料類集稱為訓練資料集。
3 這是一種有指導的學習,而在聚類中,使用的是無指導的學習。
對分類方法進行評估
可以采用的評估标準包括:預測的準确率、速度、強壯性、可伸縮性、可解釋性。
![](https://img.laitimes.com/img/__Qf2AjLwojIjJCLyojI0JCLiYWan5Cazp0N2ITN2kDNzgjMx8FMvw1MvwVOwATMwIzLcRnbl1GajFGd0F2LcRXZu5ibkN3YukGavw1LcpDc0RHaiojIsJye.gif)
判定樹的可伸縮性
大部分判定樹算法都把訓練樣本限制在了記憶體中,然而包含數以百萬計樣本的非常大的訓練集是很普通的。是以,這一限制就制約了算法的可伸縮性。目前針對此問題的的改進算法是SLIQ和SPRINT,核心解決之道是預排序
貝葉斯分類
算法實作(以後單獨寫出)
其它分類方法
k-最鄰近分類
基于案例的推理(case-based reasoning)
遺傳算法
粗糙集方法
模糊集方法
預測
一般認為,如果預測結果是離散值,則應該叫做分類。
如果預測結果是連續值,則應該叫做預測。
預測的方法
線性回歸:使用最小二乘法
多元回歸
非線性回歸