中文微博情感分析评测大纲(修订版)
1.评测对象
本次评测的对象是面向中文微博的情感分析核心技术,包括观点句识别、情感倾向性分
析和情感要素抽取。
2.任务设置
本评测设置了如下3个子任务,其中任务1是必选任务,任务2和任务3都是基于任务
1的,参赛队伍可以选做。
2.1观点句识别
针对每条微博中的各个句子,本任务要求判断出该句是观点句还是非观点句。
提交格式:
idrun-tagweibo-idsentence-idopinionated
说明
id:结果序号
run-tag:队伍结果标识
weibo-id:微博id
sentence-id:句子id
opinionated:观点句标识,是观点句则为Y,非观点句则为N
注:run-tag的格式为“队伍标识_提交结果组号”,队伍标识可自定,组号用于区
分同一队伍的多组提交结果。不同字段之间用\t隔开。下同。
例如如下两条微博:
weibo1:
渭南城管撕春联事件在成都公交车上的分众传媒广泛报道!
渭南城管真变态啊!
weibo2:
#iPad3#这么麻烦的东西怎么还有那么多人在用,又是越狱又
是破解。
顺便问一下怎么越狱啊?
weibo1中有两个句子,第一句是非观点句,第二句是观点句。weibo2中有两个句子,
其中第一句是观点句,第二句是非观点句。则正确的输出结果为:
1xyz11N
2xyz12Y
3xyz21Y
4xyz22N
注:本评测中观点句的定义不包括表达自我情感、意愿或心情的句子,比如“我感到很
高兴”这样的句子是情感句,但不属于本评测定义的观点句。本评测定义的观点句只限定于
对特定事物或对象的评价(例如“我真心喜欢iphone的屏幕效果。”),不包括内心自我情感、
意愿或心情。
评价标准
本任务使用正确率(Precision),召回率(Recall)和F值(F-measure)来评价各个参
赛队伍对观点句的识别结果。其计算公式如下:
#_()
Precision
#_()
systemcorrectopinionY
systemproposedopinionY
#_()
Recall
#()
systemcorrectopinionY
goldopinionY
2PrecisionRecall
F-measure
Precision+Recall
#gold是人工标注结果的数目,#system_correct是提交结果中与人工标注匹配的数目,
#system_proposed是提交结果的数目。
2.2情感倾向性判断
本任务要求判断微博中每条观点句的情感倾向。评测数据集包含每条微博中的各个句子,
参赛队伍需要先进行观点句识别再进行观点句的倾向性分析。观点句的情感倾向可以分为正
面(POS),负面(NEG)和其他(OTHER)。
提交格式:
idrun-tagweibo-idsentence-idpolarity
说明
id:结果序号
run-tag:队伍结果标识
weibo-id:微博id
sentence-id:观点句id
polarity:情感倾向标识,正面为POS,负面为NEG,中性以及其它无法明确归为
正面或者负面的为OTHER。
比如:上面weibo1和weibo2两条微博中,weibo1的第二句是观点句,情感倾向为负
面。weibo2的第一句是观点句,情感倾向为负面。则其结果应如下:
1xyz12NEG
2xyz21NEG
评价标准
本任务同样使用正确率(Precision),召回率(Recall)和F值(F-measure)作为评价
标准。
#_(,,)
Precision
#_()
systemcorrectpolarityPOSNEGOTHER
systemproposedopinionY
#_(,,)
Recall
#()
systemcorrectpolarityPOSNEGOTHER
goldopinionY
2PrecisionRecall
F-measure
Precision+Recall
#gold(opinion=Y)是人工标注结果中观点句的数目,#system_correct(polarity=POS,NEG,
OTHER)是提交结果中与人工标注匹配的数目,#system_proposed(opinion=Y)是提交的所有观
点句的数目。
3.3情感要素抽取
本任务要求找出微博中每条观点句作者的评价对象,即情感对象。同时判断针对情感对
象的观点极性。评测数据集包含每条微博中的各个句子,参赛队伍需要先进行观点句识别再
进行情感要素抽取。
注:
1.只对微博中的观点句进行情感要素的抽取。
2.情感对象应首先从当前句子中抽取,如果情感对象不存在于当前句子中,再从整条
微博中抽取。对于第二种情况,应优先从当前句子的前一句(包括句子中包含的
hashtag)开始依次向前寻找情感对象,如果没有再从当前句子的后一句(包括句
子中包含的 hashtag)开始依次往后寻找。对于那些整条微博中都没有出现的情感
对象(有些情况情感对象是隐含的)的观点句,参赛队伍不必进行抽取。
3. 一个句子中,可以出现多个情感对象,应抽取出每个情感片段所对应的情感对象。
“你根本已经不是个人了,你比蛇还冷血,你比畜生还畜生。”,要求抽取出三个“你”。
4. 抽取情感对象时,要求抽取出尽可能完整和明确的对象,例如“ipad 的屏幕很棒!”,
要求抽取出情感对象“ipad 的屏幕”,而不仅是“屏幕”。
5. 对于人称代词(你,我,他,它,你们,我们,他们,它们等)单独作为情感对象出
现时,需要在该微博范围内(不包括转发、评论信息)尽量进行指代消解(无法指代
消解的情况可以采用这些代词作为对象)。例如,“小明就读于北京大学,他是名优
秀的学生。”情感对象是“小明”而不能是“他”。
提交格式
id run-tag weibo-idsentence-id target begin-offsetend-offsetpolarity
说明
id:结果序号
run-tag:队伍结果标识
weibo-id:微博id
sentence-id:句子id
target:情感对象
begin-offset: 情感对象在整条微博中的起始位置
end-offset:情感对象在整条微博中的终止位置
polarity:对情感对象的观点极性,POS 代表正面,NEG 代表负面, OTHER 代表
中性或者无法明确归为正面或者负面的其它情形。
注:对于从当前某个句子中抽取得到的情感对象,其起始位置与终止位置也要基
于整条微博来计算。
比如weibo1 和weibo2 的情感要素抽取结果如下:
1xyz12渭南城管 2629NEG
2xyz21iPad315NEG
文件采用unicode(utf-16)编码,每个字符都占两个字节,任意微博中第一个字符的offset
为0,第二个字符的offset 为1,以此类推。比如:weibo1 第二句开始位置的“渭南城管”
这四个字符在整条微博中对应的offset 分别为26,27,28,29。评价情感对象时只以begin-offset
和end-offset 作为判断依据,target 不参与评价。
评价标准:
本任务同样采用精确(Strict)评价和宽松(Lenient)评价两种方式,均使用准确率
(Precision)、召回率(Recall)以及F 值(F-measure)作为评价标准。
在精确评价中,要求提交的情感对象的offset 和答案完全相同并且情感对象极性也相同
时才算正确。
# _
Precision
# _
system correct
system proposed
# _
Recall
#gold
system correct
2 Pr ecision Recall
F-measure
Pr ecision+Recall
#gold 是人工标注结果中情感对象的数目,#system_correct 是提交结果中与人工标注匹
配的数目,#system_proposed 是提交的情感对象的数目。
在宽松评价中,一个结果包含4 个参与评测的元素:句子微博id,句子id,情感对象区
间(由起始位置和终止位置构成)和极性,即r=(wid, sid, s, p)。我们首先定义两个结果之间
的覆盖率c:
& &
s s
if p p wid wid sid sid
c r r s
else
其中s 和s’为两个结果r 和r’中情感对象的区间,p 和p’为对应的极性,wid 和wid’为微博id,
sid 和sid’为句子id。|*| 表示计算区间的长度。
两个结果集合R 和R’之间的覆盖率C 定义为:
, ( , )
i j
r R