天天看點

NLP Evaluation Metric 分類問題

在學會了用deeplearning做情感分類之後,如何評價自己的模型有效果呢?如果沒有評價名額的話,别人也沒法知道你的方法好不好,那麼你所做的一切都是浮雲。

最簡單的評價名額就是準确率(Accuracy),常用的還有精确率(Precision)、召回率(Recall)、F值、宏平均與微平均等等。并且現在的分類基本上都是多分類問題,我就直接按照多分類來闡述。

多類分類問題中,分類結果一般有4種情況:

  • 屬于類C的樣本被正确分類到類C,記這一類樣本數為TP
  • 不屬于類C的樣本被錯誤分類到類C,記這一類樣本數為FP
  • 屬于類别C的樣本被錯誤分類到類C的其他類,記這一類樣本數為FN
  • 不屬于類别C的樣本被正确分類到了類别C的其他類,記這一類樣本數為TN

1、Accuracy

準确率

Accuracy=TP+TNTP+FP+FN+TNAccuracy=TP+TNTP+FP+FN+TN

2、Precision

精确率

Precision=TPTP+FPPrecision=TPTP+FP

3、Recall

召回率

Recall=TPTP+FNRecall=TPTP+FN

4、F-measure

F值

F=(1+β2)∗Precision+Recall(β2∗Precision)+RecallF=(1+β2)∗Precision+Recall(β2∗Precision)+Recall

通常情況下,ββ取為1。

5、Macro-averaging

宏平均是指所有類别的每一個統計名額值的算數平均值,也就是宏精确率

Precisionmacro=1N∑i=0NPiPrecisionmacro=1N∑i=0NPi

Recallmacro=1N∑i=0NRiRecallmacro=1N∑i=0NRi

Fmacro=2∗Precisionmacro∗RecallmacroPmacro+RmacroFmacro=2∗Precisionmacro∗RecallmacroPmacro+Rmacro

不得不說這個有很多錯誤,但還是有值得借鑒的地方

https://sanmisanfan.github.io/2017/08/16/mulitlable-classification/ http://www.cnblogs.com/robert-dlut/p/5276927.html https://zhuanlan.zhihu.com/p/30953081

繼續閱讀