NLP Evaluation Metric 分類問題

2018-05-13 23:50:00

在學會了用deeplearning做情感分類之後，如何評價自己的模型有效果呢？如果沒有評價名額的話，别人也沒法知道你的方法好不好，那麼你所做的一切都是浮雲。

最簡單的評價名額就是準确率（Accuracy），常用的還有精确率（Precision）、召回率（Recall）、F值、宏平均與微平均等等。并且現在的分類基本上都是多分類問題，我就直接按照多分類來闡述。

多類分類問題中，分類結果一般有4種情況:

1、Accuracy

準确率

Accuracy=TP+TNTP+FP+FN+TNAccuracy=TP+TNTP+FP+FN+TN

2、Precision

精确率

Precision=TPTP+FPPrecision=TPTP+FP

3、Recall

召回率

Recall=TPTP+FNRecall=TPTP+FN

4、F-measure

F值

F=(1+β2)∗Precision+Recall(β2∗Precision)+RecallF=(1+β2)∗Precision+Recall(β2∗Precision)+Recall

通常情況下，ββ取為1。

5、Macro-averaging

宏平均是指所有類别的每一個統計名額值的算數平均值，也就是宏精确率

Precisionmacro=1N∑i=0NPiPrecisionmacro=1N∑i=0NPi

Recallmacro=1N∑i=0NRiRecallmacro=1N∑i=0NRi

Fmacro=2∗Precisionmacro∗RecallmacroPmacro+RmacroFmacro=2∗Precisionmacro∗RecallmacroPmacro+Rmacro

不得不說這個有很多錯誤，但還是有值得借鑒的地方

繼續閱讀