天天看点

26-中文微博情感分析评测大纲(修订版).pdf

作者:知情达理小鱼w

中文微博情感分析评测大纲(修订版)

1.评测对象

本次评测的对象是面向中文微博的情感分析核心技术,包括观点句识别、情感倾向性分

析和情感要素抽取。

2.任务设置

本评测设置了如下3个子任务,其中任务1是必选任务,任务2和任务3都是基于任务

1的,参赛队伍可以选做。

2.1观点句识别

针对每条微博中的各个句子,本任务要求判断出该句是观点句还是非观点句。

提交格式:

idrun-tagweibo-idsentence-idopinionated

说明

id:结果序号

run-tag:队伍结果标识

weibo-id:微博id

sentence-id:句子id

opinionated:观点句标识,是观点句则为Y,非观点句则为N

注:run-tag的格式为“队伍标识_提交结果组号”,队伍标识可自定,组号用于区

分同一队伍的多组提交结果。不同字段之间用\t隔开。下同。

例如如下两条微博:

weibo1:

渭南城管撕春联事件在成都公交车上的分众传媒广泛报道!

渭南城管真变态啊!

weibo2:

#iPad3#这么麻烦的东西怎么还有那么多人在用,又是越狱又

是破解。

顺便问一下怎么越狱啊?

weibo1中有两个句子,第一句是非观点句,第二句是观点句。weibo2中有两个句子,

其中第一句是观点句,第二句是非观点句。则正确的输出结果为:

1xyz11N

2xyz12Y

3xyz21Y

4xyz22N

注:本评测中观点句的定义不包括表达自我情感、意愿或心情的句子,比如“我感到很

高兴”这样的句子是情感句,但不属于本评测定义的观点句。本评测定义的观点句只限定于

对特定事物或对象的评价(例如“我真心喜欢iphone的屏幕效果。”),不包括内心自我情感、

意愿或心情。

评价标准

本任务使用正确率(Precision),召回率(Recall)和F值(F-measure)来评价各个参

赛队伍对观点句的识别结果。其计算公式如下:

#_()

Precision

#_()

systemcorrectopinionY

systemproposedopinionY

#_()

Recall

#()

systemcorrectopinionY

goldopinionY

2PrecisionRecall

F-measure

Precision+Recall



#gold是人工标注结果的数目,#system_correct是提交结果中与人工标注匹配的数目,

#system_proposed是提交结果的数目。

2.2情感倾向性判断

本任务要求判断微博中每条观点句的情感倾向。评测数据集包含每条微博中的各个句子,

参赛队伍需要先进行观点句识别再进行观点句的倾向性分析。观点句的情感倾向可以分为正

面(POS),负面(NEG)和其他(OTHER)。

提交格式:

idrun-tagweibo-idsentence-idpolarity

说明

id:结果序号

run-tag:队伍结果标识

weibo-id:微博id

sentence-id:观点句id

polarity:情感倾向标识,正面为POS,负面为NEG,中性以及其它无法明确归为

正面或者负面的为OTHER。

比如:上面weibo1和weibo2两条微博中,weibo1的第二句是观点句,情感倾向为负

面。weibo2的第一句是观点句,情感倾向为负面。则其结果应如下:

1xyz12NEG

2xyz21NEG

评价标准

本任务同样使用正确率(Precision),召回率(Recall)和F值(F-measure)作为评价

标准。

#_(,,)

Precision

#_()

systemcorrectpolarityPOSNEGOTHER

systemproposedopinionY

#_(,,)

Recall

#()

systemcorrectpolarityPOSNEGOTHER

goldopinionY

2PrecisionRecall

F-measure

Precision+Recall



#gold(opinion=Y)是人工标注结果中观点句的数目,#system_correct(polarity=POS,NEG,

OTHER)是提交结果中与人工标注匹配的数目,#system_proposed(opinion=Y)是提交的所有观

点句的数目。

3.3情感要素抽取

本任务要求找出微博中每条观点句作者的评价对象,即情感对象。同时判断针对情感对

象的观点极性。评测数据集包含每条微博中的各个句子,参赛队伍需要先进行观点句识别再

进行情感要素抽取。

注:

1.只对微博中的观点句进行情感要素的抽取。

2.情感对象应首先从当前句子中抽取,如果情感对象不存在于当前句子中,再从整条

微博中抽取。对于第二种情况,应优先从当前句子的前一句(包括句子中包含的

hashtag)开始依次向前寻找情感对象,如果没有再从当前句子的后一句(包括句

子中包含的 hashtag)开始依次往后寻找。对于那些整条微博中都没有出现的情感

对象(有些情况情感对象是隐含的)的观点句,参赛队伍不必进行抽取。

3. 一个句子中,可以出现多个情感对象,应抽取出每个情感片段所对应的情感对象。

“你根本已经不是个人了,你比蛇还冷血,你比畜生还畜生。”,要求抽取出三个“你”。

4. 抽取情感对象时,要求抽取出尽可能完整和明确的对象,例如“ipad 的屏幕很棒!”,

要求抽取出情感对象“ipad 的屏幕”,而不仅是“屏幕”。

5. 对于人称代词(你,我,他,它,你们,我们,他们,它们等)单独作为情感对象出

现时,需要在该微博范围内(不包括转发、评论信息)尽量进行指代消解(无法指代

消解的情况可以采用这些代词作为对象)。例如,“小明就读于北京大学,他是名优

秀的学生。”情感对象是“小明”而不能是“他”。

提交格式

id run-tag weibo-idsentence-id target begin-offsetend-offsetpolarity

说明

id:结果序号

run-tag:队伍结果标识

weibo-id:微博id

sentence-id:句子id

target:情感对象

begin-offset: 情感对象在整条微博中的起始位置

end-offset:情感对象在整条微博中的终止位置

polarity:对情感对象的观点极性,POS 代表正面,NEG 代表负面, OTHER 代表

中性或者无法明确归为正面或者负面的其它情形。

注:对于从当前某个句子中抽取得到的情感对象,其起始位置与终止位置也要基

于整条微博来计算。

比如weibo1 和weibo2 的情感要素抽取结果如下:

1xyz12渭南城管 2629NEG

2xyz21iPad315NEG

文件采用unicode(utf-16)编码,每个字符都占两个字节,任意微博中第一个字符的offset

为0,第二个字符的offset 为1,以此类推。比如:weibo1 第二句开始位置的“渭南城管”

这四个字符在整条微博中对应的offset 分别为26,27,28,29。评价情感对象时只以begin-offset

和end-offset 作为判断依据,target 不参与评价。

评价标准:

本任务同样采用精确(Strict)评价和宽松(Lenient)评价两种方式,均使用准确率

(Precision)、召回率(Recall)以及F 值(F-measure)作为评价标准。

在精确评价中,要求提交的情感对象的offset 和答案完全相同并且情感对象极性也相同

时才算正确。

# _

Precision

# _

system correct

system proposed

# _

Recall

#gold

system correct

2 Pr ecision Recall

F-measure

Pr ecision+Recall

 

#gold 是人工标注结果中情感对象的数目,#system_correct 是提交结果中与人工标注匹

配的数目,#system_proposed 是提交的情感对象的数目。

在宽松评价中,一个结果包含4 个参与评测的元素:句子微博id,句子id,情感对象区

间(由起始位置和终止位置构成)和极性,即r=(wid, sid, s, p)。我们首先定义两个结果之间

的覆盖率c:

 

& &

s s

if p p wid wid sid sid

c r r s

else

  

     

  

其中s 和s’为两个结果r 和r’中情感对象的区间,p 和p’为对应的极性,wid 和wid’为微博id,

sid 和sid’为句子id。|*| 表示计算区间的长度。

两个结果集合R 和R’之间的覆盖率C 定义为:

  , ( , )

i j

r R

继续阅读