Weka分類器結果名額含義

Weka分類器結果的名額根據所選擇的測試模式，顯示不同文字。例如，如果選擇十折交叉驗證，顯示Stratified cross-validation；如果選擇使用訓練集，顯示Classifier model(full training set)，等等。由于評估内容較多，将結果分解顯示如下。

1.Summary(總結)：一個統計清單，根據所選擇的測試模式，總結分類期預測執行個體真實分類的準确度。具體項目如下。

Correctly Classified Instances(正确分類的執行個體)：顯示正确分類的執行個體的絕對數量和百分比。
Incorrectly Classified Instances(錯誤分類的執行個體)：顯示錯誤分類的執行個體的絕對數量和百分比。
Kappa statistic(Kappa 統計)：顯示Kappa 統計量，[-1,1]範圍的小數。Kappa 統計名額用于評判分類器的分類的分類結果與随機分類的差異度。K=1表明分類器完全與随機分類器相異，K=0表明分類器與随機分類相同(即分類器沒有效果)，K=-1表明分類器比随機分類還要差。一般來說，Kappa統計名額的結果是與分類器的AUC名額以及準确率程正相關的，是以該值越接近1越好。
Mean absolute error(平均絕對誤差)：顯示平均絕對誤差，此值越小實驗越準确。
Root mean squared error(均方根誤差)：顯示均方根誤差。
Relative absolute error(相對絕對誤差)：顯示相對絕對誤差，百分數，此值越小實驗越準确。
Root relative squared error(相對均方根誤差)：顯示相對均方根誤差，百分數。
Coverage of cases(0.95 level)(案例的覆寫度)：顯示案例的覆寫度，該值是分類器使用分類規則對全執行個體的覆寫度，百分數越高說明該規則越有效。
Mean rel.region size(0.95 level)(平均相對區域大小)：顯示平均相對區域大小，百分數。
Total Number of Instances(執行個體總數)：顯示執行個體總數。

2.Detailed Accuracy By Class(按類别的詳細準确性)：按每個類别分解的更詳細的分類器的預測精确度。結果以表格形式輸出，其中，表格列的含義如下。

TP Rate(真陽性率)：顯示真陽性率，[0,1]範圍的小數。
FP Rate(假陽性率)：顯示假陽性率，[0,1]範圍的小數。另外，常使用TN和FN分别代表真陰性率和假陰性率。
Precision(查準率)：顯示查準率，[0,1]範圍的小數。查準率用于衡量檢索系統拒絕非相關資訊的能力，計算公式為Precision = 檢索到的相關的文檔量/檢索到的文檔總量 = TP/(TP+FP)。
Recall(查全率)：顯示查全率，[0,1]範圍的小數。查全率用于衡量檢索系統檢出相關資訊的能力，計算公式為Recall = 檢索到的相關的文檔量/全部相關的文檔總量 = TP/(TP+FN)。
F-Measure(F 度量)：顯示F路徑成本，[0,1]範圍的小數。F度量是查準率和查全率的調和平均數，其計算公式為F-Measure = (2 x 查全率 x 查準率)/(查全率+查準率) = (2 x TP)/(2 x TP + FP + FN)。
MCC(The Matthews Correlation Coefficient，Matthews相關系數)：顯示Matthews相關系數，[0,1]範圍的小數。這是一個針對二進制分類的有趣性能名額，特别是各個類别在數量上不平衡時。其計算公式為

Weka分類器結果名額含義
。
ROC Area(接受者操作特征曲線下面積)：顯示ROC面積，[0,1]範圍的小數。ROC面積一般大于0.5，這個值越接近1，說明模型的分類效果越好。這個值在0.5 ~ 0.7時有較低準确度，在0.7 ~ 0.9時有一定準确度，在0.9以上時有較高的準确度。如果該值等于0.5，說明分類方法完全不起作用，沒有價值；而小于0.5的值不符合真實情況，在實際中極少出現。
PRC Area(查準率 - 查全率曲線下面積)：顯示PRC面積，[0,1]範圍的小數。
Class(類别)：顯示類别标簽。

表格前面幾行按類别分别顯示預測精确度，最後一行是各個類别的權重平均(Weighted Avg.)。

3.Confusion Matrix(混淆矩陣)：顯示每一個類别有多少個執行個體。矩陣元素顯示測試的樣本數，表行為實際的類别，表列為預測的類别。

Weka分類器結果名額含義

Weka分類器結果的名額根據所選擇的測試模式，顯示不同文字。例如，如果選擇十折交叉驗證，顯示Stratified cross-validation；如果選擇使用訓練集，顯示Classifier model(full training set)，等等。由于評估内容較多，将結果分解顯示如下。

注：本文所有内容均摘自《資料挖掘與機器學習-weka應用技術與實踐》

繼續閱讀

Weka(二)—Classification(糖尿病資料集&Cross-validation交叉驗證&meta-classifier(CVParameter)&Weka Knowledge Flow)How to use Weka to run a classifier(a classification model)meta-classifier

Weka下的線性回歸分類以及基于預測值進行分類

Weka下使用Libsvm詳細步驟

資料挖掘的weka包和資料集

基于Weka的典型資料挖掘應用實驗目标實驗内容實驗步驟

Weka Percentage split 分割資料集

weka的參數使用

weka貝葉斯2

weka貝葉斯

weka文本聚類（3）--文本轉換成arff

機器學習之 weka學習（三）

weka中文使用說明（五）3 指令行界面

weka算法系列（cluster）——Canopy（1）

使用weka的select attribute

weka中分類器算法

在weka中內建自己的算法