天天看點

Weka分類器結果名額含義

       Weka分類器結果的名額根據所選擇的測試模式,顯示不同文字。例如,如果選擇十折交叉驗證,顯示Stratified cross-validation;如果選擇使用訓練集,顯示Classifier model(full training set),等等。由于評估内容較多,将結果分解顯示如下。

1.Summary(總結):一個統計清單,根據所選擇的測試模式,總結分類期預測執行個體真實分類的準确度。具體項目如下。

  • Correctly Classified Instances(正确分類的執行個體):顯示正确分類的執行個體的絕對數量和百分比。
  • Incorrectly Classified Instances(錯誤分類的執行個體):顯示錯誤分類的執行個體的絕對數量和百分比。
  • Kappa statistic(Kappa 統計):顯示Kappa 統計量,[-1,1]範圍的小數。Kappa 統計名額用于評判分類器的分類的分類結果與随機分類的差異度。K=1表明分類器完全與随機分類器相異,K=0表明分類器與随機分類相同(即分類器沒有效果),K=-1表明分類器比随機分類還要差。一般來說,Kappa統計名額的結果是與分類器的AUC名額以及準确率程正相關的,是以該值越接近1越好。
  • Mean absolute error(平均絕對誤差):顯示平均絕對誤差,此值越小實驗越準确。
  • Root mean squared error(均方根誤差):顯示均方根誤差。
  • Relative absolute error(相對絕對誤差):顯示相對絕對誤差,百分數,此值越小實驗越準确。
  • Root relative squared error(相對均方根誤差):顯示相對均方根誤差,百分數。
  • Coverage of cases(0.95 level)(案例的覆寫度):顯示案例的覆寫度,該值是分類器使用分類規則對全執行個體的覆寫度,百分數越高說明該規則越有效。
  • Mean rel.region size(0.95 level)(平均相對區域大小):顯示平均相對區域大小,百分數。
  • Total Number of Instances(執行個體總數):顯示執行個體總數。

2.Detailed Accuracy By Class(按類别的詳細準确性):按每個類别分解的更詳細的分類器的預測精确度。結果以表格形式輸出,其中,表格列的含義如下。

  • TP Rate(真陽性率):顯示真陽性率,[0,1]範圍的小數。
  • FP Rate(假陽性率):顯示假陽性率,[0,1]範圍的小數。另外,常使用TN和FN分别代表真陰性率和假陰性率。
  • Precision(查準率):顯示查準率,[0,1]範圍的小數。查準率用于衡量檢索系統拒絕非相關資訊的能力,計算公式為Precision = 檢索到的相關的文檔量/檢索到的文檔總量 = TP/(TP+FP)。
  • Recall(查全率):顯示查全率,[0,1]範圍的小數。查全率用于衡量檢索系統檢出相關資訊的能力,計算公式為Recall = 檢索到的相關的文檔量/全部相關的文檔總量 = TP/(TP+FN)。
  • F-Measure(F 度量):顯示F路徑成本,[0,1]範圍的小數。F度量是查準率和查全率的調和平均數,其計算公式為F-Measure = (2 x 查全率 x 查準率)/(查全率+查準率) = (2 x TP)/(2 x TP + FP + FN)。
  • MCC(The Matthews Correlation Coefficient,Matthews相關系數):顯示Matthews相關系數,[0,1]範圍的小數。這是一個針對二進制分類的有趣性能名額,特别是各個類别在數量上不平衡時。其計算公式為
    Weka分類器結果名額含義
  • ROC Area(接受者操作特征曲線下面積):顯示ROC面積,[0,1]範圍的小數。ROC面積一般大于0.5,這個值越接近1,說明模型的分類效果越好。這個值在0.5 ~ 0.7時有較低準确度,在0.7 ~ 0.9時有一定準确度,在0.9以上時有較高的準确度。如果該值等于0.5,說明分類方法完全不起作用,沒有價值;而小于0.5的值不符合真實情況,在實際中極少出現。
  • PRC Area(查準率 - 查全率曲線下面積):顯示PRC面積,[0,1]範圍的小數。
  • Class(類别):顯示類别标簽。

表格前面幾行按類别分别顯示預測精确度,最後一行是各個類别的權重平均(Weighted Avg.)。

3.Confusion Matrix(混淆矩陣):顯示每一個類别有多少個執行個體。矩陣元素顯示測試的樣本數,表行為實際的類别,表列為預測的類别。

注:本文所有内容均摘自《資料挖掘與機器學習-weka應用技術與實踐》