NLP Evaluation Metric 分类问题

2018-05-13 23:50:00

在学会了用deeplearning做情感分类之后，如何评价自己的模型有效果呢？如果没有评价指标的话，别人也没法知道你的方法好不好，那么你所做的一切都是浮云。

最简单的评价指标就是准确率（Accuracy），常用的还有精确率（Precision）、召回率（Recall）、F值、宏平均与微平均等等。并且现在的分类基本上都是多分类问题，我就直接按照多分类来阐述。

多类分类问题中，分类结果一般有4种情况:

1、Accuracy

准确率

Accuracy=TP+TNTP+FP+FN+TNAccuracy=TP+TNTP+FP+FN+TN

2、Precision

精确率

Precision=TPTP+FPPrecision=TPTP+FP

3、Recall

召回率

Recall=TPTP+FNRecall=TPTP+FN

4、F-measure

F值

F=(1+β2)∗Precision+Recall(β2∗Precision)+RecallF=(1+β2)∗Precision+Recall(β2∗Precision)+Recall

通常情况下，ββ取为1。

5、Macro-averaging

宏平均是指所有类别的每一个统计指标值的算数平均值，也就是宏精确率

Precisionmacro=1N∑i=0NPiPrecisionmacro=1N∑i=0NPi

Recallmacro=1N∑i=0NRiRecallmacro=1N∑i=0NRi

Fmacro=2∗Precisionmacro∗RecallmacroPmacro+RmacroFmacro=2∗Precisionmacro∗RecallmacroPmacro+Rmacro

不得不说这个有很多错误，但还是有值得借鉴的地方

继续阅读