《資料挖掘概念與技術》學習筆記第7章(7/10)分類和預測

2023-05-13 00:05:45

分類

第一步，建立一個模型，描述預定的資料類集或者概念集。

第二步，使用模型進行分類。

補充說明：

1 資料類集或者概念集還可以被稱為樣本、執行個體、對象。

2為建立模型而被分析的資料類集稱為訓練資料集。

3 這是一種有指導的學習，而在聚類中，使用的是無指導的學習。

對分類方法進行評估

可以采用的評估标準包括：預測的準确率、速度、強壯性、可伸縮性、可解釋性。

《資料挖掘概念與技術》學習筆記第7章(7/10)分類和預測

判定樹的可伸縮性

大部分判定樹算法都把訓練樣本限制在了記憶體中，然而包含數以百萬計樣本的非常大的訓練集是很普通的。是以，這一限制就制約了算法的可伸縮性。目前針對此問題的的改進算法是SLIQ和SPRINT，核心解決之道是預排序

貝葉斯分類

算法實作(以後單獨寫出)

其它分類方法

k-最鄰近分類

基于案例的推理(case-based reasoning)

遺傳算法

粗糙集方法

模糊集方法

預測

一般認為，如果預測結果是離散值，則應該叫做分類。

如果預測結果是連續值，則應該叫做預測。

預測的方法

線性回歸：使用最小二乘法

多元回歸

非線性回歸

繼續閱讀