在機器學習中,性能評估是必不可少的任務,是以,當涉及分類問題時,我們可以使用AUC-ROC曲線進行評價,當需要檢查或可視化多類分類問題的性能時,我們使用AUC-ROC曲線,這是檢查任何分類模型性能的最重要的評估名額之一。
1. 什麼是AUC-ROC曲線?
AUC-ROC曲線是針對各種門檻值設定下的分類問題的性能度量。ROC是機率曲線,AUC表示可分離的程度或測度,它告訴我們多少模型能夠區分類别。
用TPR相對FPR繪制ROC曲線,其中TPR在y軸熵,FPR在x軸上,如圖:
AUC值就是ROC曲線下的面積(灰色部分),介于0.1和1之間,作為數值可以直覺的評價分類器的好壞,值越大越好。
- 若随機抽取一個陽性樣本和一個陰性樣本,分類器正确判斷陽性樣本的值高于陰性樣本之機率 = AUC值
- 簡單說:AUC值越大的分類器,正确率越高。
2. 定義
首先定義混淆矩陣:
[外鍊圖檔轉存失敗,源站可能有防盜鍊機制,建議将圖檔儲存下來直接上傳(img-qPJWudCs-1636598007516)(en-resource://database/2871:1)]
- TP(True Positive): 真實為1,預測也為1
- FN(False Negative): 真實為1,預測為0
- FP(False Positive): 真實為0,預測為1
- TN(True Negative): 真實為0,預測也為0
T/F 表示分類正确或者錯誤,P/N 表示預測是正例還是反例
TPR(真陽性率)/ 召回 / 敏感度
T P R = T P T P + F N TPR = \frac{TP}{TP + FN} TPR=TP+FNTP
FPR (假陽性率)
F P R = F P T N + F P FPR = \frac{FP}{TN + FP} FPR=TN+FPFP
橫縱坐标分别對應混淆矩陣裡面的兩行
縱坐标真(第一行),縱坐标假(第二行)
如何深刻了解 AUC-ROC 曲線
維基百科ROC曲線