中文微網誌情感分析評測大綱(修訂版)
1.評測對象
本次評測的對象是面向中文微網誌的情感分析核心技術,包括觀點句識别、情感傾向性分
析和情感要素抽取。
2.任務設定
本評測設定了如下3個子任務,其中任務1是必選任務,任務2和任務3都是基于任務
1的,參賽隊伍可以選做。
2.1觀點句識别
針對每條微網誌中的各個句子,本任務要求判斷出該句是觀點句還是非觀點句。
送出格式:
idrun-tagweibo-idsentence-idopinionated
說明
id:結果序号
run-tag:隊伍結果辨別
weibo-id:微網誌id
sentence-id:句子id
opinionated:觀點句辨別,是觀點句則為Y,非觀點句則為N
注:run-tag的格式為“隊伍辨別_送出結果組号”,隊伍辨別可自定,組号用于區
分同一隊伍的多組送出結果。不同字段之間用\t隔開。下同。
例如如下兩條微網誌:
weibo1:
渭南城管撕春聯事件在成都公共汽車上的分衆傳媒廣泛報道!
渭南城管真變态啊!
weibo2:
#iPad3#這麼麻煩的東西怎麼還有那麼多人在用,又是越獄又
是破解。
順便問一下怎麼越獄啊?
weibo1中有兩個句子,第一句是非觀點句,第二句是觀點句。weibo2中有兩個句子,
其中第一句是觀點句,第二句是非觀點句。則正确的輸出結果為:
1xyz11N
2xyz12Y
3xyz21Y
4xyz22N
注:本評測中觀點句的定義不包括表達自我情感、意願或心情的句子,比如“我感到很
高興”這樣的句子是情感句,但不屬于本評測定義的觀點句。本評測定義的觀點句隻限定于
對特定事物或對象的評價(例如“我真心喜歡iphone的螢幕效果。”),不包括内心自我情感、
意願或心情。
評價标準
本任務使用正确率(Precision),召回率(Recall)和F值(F-measure)來評價各個參
賽隊伍對觀點句的識别結果。其計算公式如下:
#_()
Precision
#_()
systemcorrectopinionY
systemproposedopinionY
#_()
Recall
#()
systemcorrectopinionY
goldopinionY
2PrecisionRecall
F-measure
Precision+Recall
#gold是人工标注結果的數目,#system_correct是送出結果中與人工标注比對的數目,
#system_proposed是送出結果的數目。
2.2情感傾向性判斷
本任務要求判斷微網誌中每條觀點句的情感傾向。評測資料集包含每條微網誌中的各個句子,
參賽隊伍需要先進行觀點句識别再進行觀點句的傾向性分析。觀點句的情感傾向可以分為正
面(POS),負面(NEG)和其他(OTHER)。
送出格式:
idrun-tagweibo-idsentence-idpolarity
說明
id:結果序号
run-tag:隊伍結果辨別
weibo-id:微網誌id
sentence-id:觀點句id
polarity:情感傾向辨別,正面為POS,負面為NEG,中性以及其它無法明确歸為
正面或者負面的為OTHER。
比如:上面weibo1和weibo2兩條微網誌中,weibo1的第二句是觀點句,情感傾向為負
面。weibo2的第一句是觀點句,情感傾向為負面。則其結果應如下:
1xyz12NEG
2xyz21NEG
評價标準
本任務同樣使用正确率(Precision),召回率(Recall)和F值(F-measure)作為評價
标準。
#_(,,)
Precision
#_()
systemcorrectpolarityPOSNEGOTHER
systemproposedopinionY
#_(,,)
Recall
#()
systemcorrectpolarityPOSNEGOTHER
goldopinionY
2PrecisionRecall
F-measure
Precision+Recall
#gold(opinion=Y)是人工标注結果中觀點句的數目,#system_correct(polarity=POS,NEG,
OTHER)是送出結果中與人工标注比對的數目,#system_proposed(opinion=Y)是送出的所有觀
點句的數目。
3.3情感要素抽取
本任務要求找出微網誌中每條觀點句作者的評價對象,即情感對象。同時判斷針對情感對
象的觀點極性。評測資料集包含每條微網誌中的各個句子,參賽隊伍需要先進行觀點句識别再
進行情感要素抽取。
注:
1.隻對微網誌中的觀點句進行情感要素的抽取。
2.情感對象應首先從目前句子中抽取,如果情感對象不存在于目前句子中,再從整條
微網誌中抽取。對于第二種情況,應優先從目前句子的前一句(包括句子中包含的
hashtag)開始依次向前尋找情感對象,如果沒有再從目前句子的後一句(包括句
子中包含的 hashtag)開始依次往後尋找。對于那些整條微網誌中都沒有出現的情感
對象(有些情況情感對象是隐含的)的觀點句,參賽隊伍不必進行抽取。
3. 一個句子中,可以出現多個情感對象,應抽取出每個情感片段所對應的情感對象。
“你根本已經不是個人了,你比蛇還冷血,你比畜生還畜生。”,要求抽取出三個“你”。
4. 抽取情感對象時,要求抽取出盡可能完整和明确的對象,例如“ipad 的螢幕很棒!”,
要求抽取出情感對象“ipad 的螢幕”,而不僅是“螢幕”。
5. 對于人稱代詞(你,我,他,它,你們,我們,他們,它們等)單獨作為情感對象出
現時,需要在該微網誌範圍内(不包括轉發、評論資訊)盡量進行指代消解(無法指代
消解的情況可以采用這些代詞作為對象)。例如,“小明就讀于北京大學,他是名優
秀的學生。”情感對象是“小明”而不能是“他”。
送出格式
id run-tag weibo-idsentence-id target begin-offsetend-offsetpolarity
說明
id:結果序号
run-tag:隊伍結果辨別
weibo-id:微網誌id
sentence-id:句子id
target:情感對象
begin-offset: 情感對象在整條微網誌中的起始位置
end-offset:情感對象在整條微網誌中的終止位置
polarity:對情感對象的觀點極性,POS 代表正面,NEG 代表負面, OTHER 代表
中性或者無法明确歸為正面或者負面的其它情形。
注:對于從目前某個句子中抽取得到的情感對象,其起始位置與終止位置也要基
于整條微網誌來計算。
比如weibo1 和weibo2 的情感要素抽取結果如下:
1xyz12渭南城管 2629NEG
2xyz21iPad315NEG
檔案采用unicode(utf-16)編碼,每個字元都占兩個位元組,任意微網誌中第一個字元的offset
為0,第二個字元的offset 為1,以此類推。比如:weibo1 第二句開始位置的“渭南城管”
這四個字元在整條微網誌中對應的offset 分别為26,27,28,29。評價情感對象時隻以begin-offset
和end-offset 作為判斷依據,target 不參與評價。
評價标準:
本任務同樣采用精确(Strict)評價和寬松(Lenient)評價兩種方式,均使用準确率
(Precision)、召回率(Recall)以及F 值(F-measure)作為評價标準。
在精确評價中,要求送出的情感對象的offset 和答案完全相同并且情感對象極性也相同
時才算正确。
# _
Precision
# _
system correct
system proposed
# _
Recall
#gold
system correct
2 Pr ecision Recall
F-measure
Pr ecision+Recall
#gold 是人工标注結果中情感對象的數目,#system_correct 是送出結果中與人工标注匹
配的數目,#system_proposed 是送出的情感對象的數目。
在寬松評價中,一個結果包含4 個參與評測的元素:句子微網誌id,句子id,情感對象區
間(由起始位置和終止位置構成)和極性,即r=(wid, sid, s, p)。我們首先定義兩個結果之間
的覆寫率c:
& &
s s
if p p wid wid sid sid
c r r s
else
其中s 和s’為兩個結果r 和r’中情感對象的區間,p 和p’為對應的極性,wid 和wid’為微網誌id,
sid 和sid’為句子id。|*| 表示計算區間的長度。
兩個結果集合R 和R’之間的覆寫率C 定義為:
, ( , )
i j
r R