天天看點

26-中文微網誌情感分析評測大綱(修訂版).pdf

作者:知情達理小魚w

中文微網誌情感分析評測大綱(修訂版)

1.評測對象

本次評測的對象是面向中文微網誌的情感分析核心技術,包括觀點句識别、情感傾向性分

析和情感要素抽取。

2.任務設定

本評測設定了如下3個子任務,其中任務1是必選任務,任務2和任務3都是基于任務

1的,參賽隊伍可以選做。

2.1觀點句識别

針對每條微網誌中的各個句子,本任務要求判斷出該句是觀點句還是非觀點句。

送出格式:

idrun-tagweibo-idsentence-idopinionated

說明

id:結果序号

run-tag:隊伍結果辨別

weibo-id:微網誌id

sentence-id:句子id

opinionated:觀點句辨別,是觀點句則為Y,非觀點句則為N

注:run-tag的格式為“隊伍辨別_送出結果組号”,隊伍辨別可自定,組号用于區

分同一隊伍的多組送出結果。不同字段之間用\t隔開。下同。

例如如下兩條微網誌:

weibo1:

渭南城管撕春聯事件在成都公共汽車上的分衆傳媒廣泛報道!

渭南城管真變态啊!

weibo2:

#iPad3#這麼麻煩的東西怎麼還有那麼多人在用,又是越獄又

是破解。

順便問一下怎麼越獄啊?

weibo1中有兩個句子,第一句是非觀點句,第二句是觀點句。weibo2中有兩個句子,

其中第一句是觀點句,第二句是非觀點句。則正确的輸出結果為:

1xyz11N

2xyz12Y

3xyz21Y

4xyz22N

注:本評測中觀點句的定義不包括表達自我情感、意願或心情的句子,比如“我感到很

高興”這樣的句子是情感句,但不屬于本評測定義的觀點句。本評測定義的觀點句隻限定于

對特定事物或對象的評價(例如“我真心喜歡iphone的螢幕效果。”),不包括内心自我情感、

意願或心情。

評價标準

本任務使用正确率(Precision),召回率(Recall)和F值(F-measure)來評價各個參

賽隊伍對觀點句的識别結果。其計算公式如下:

#_()

Precision

#_()

systemcorrectopinionY

systemproposedopinionY

#_()

Recall

#()

systemcorrectopinionY

goldopinionY

2PrecisionRecall

F-measure

Precision+Recall



#gold是人工标注結果的數目,#system_correct是送出結果中與人工标注比對的數目,

#system_proposed是送出結果的數目。

2.2情感傾向性判斷

本任務要求判斷微網誌中每條觀點句的情感傾向。評測資料集包含每條微網誌中的各個句子,

參賽隊伍需要先進行觀點句識别再進行觀點句的傾向性分析。觀點句的情感傾向可以分為正

面(POS),負面(NEG)和其他(OTHER)。

送出格式:

idrun-tagweibo-idsentence-idpolarity

說明

id:結果序号

run-tag:隊伍結果辨別

weibo-id:微網誌id

sentence-id:觀點句id

polarity:情感傾向辨別,正面為POS,負面為NEG,中性以及其它無法明确歸為

正面或者負面的為OTHER。

比如:上面weibo1和weibo2兩條微網誌中,weibo1的第二句是觀點句,情感傾向為負

面。weibo2的第一句是觀點句,情感傾向為負面。則其結果應如下:

1xyz12NEG

2xyz21NEG

評價标準

本任務同樣使用正确率(Precision),召回率(Recall)和F值(F-measure)作為評價

标準。

#_(,,)

Precision

#_()

systemcorrectpolarityPOSNEGOTHER

systemproposedopinionY

#_(,,)

Recall

#()

systemcorrectpolarityPOSNEGOTHER

goldopinionY

2PrecisionRecall

F-measure

Precision+Recall



#gold(opinion=Y)是人工标注結果中觀點句的數目,#system_correct(polarity=POS,NEG,

OTHER)是送出結果中與人工标注比對的數目,#system_proposed(opinion=Y)是送出的所有觀

點句的數目。

3.3情感要素抽取

本任務要求找出微網誌中每條觀點句作者的評價對象,即情感對象。同時判斷針對情感對

象的觀點極性。評測資料集包含每條微網誌中的各個句子,參賽隊伍需要先進行觀點句識别再

進行情感要素抽取。

注:

1.隻對微網誌中的觀點句進行情感要素的抽取。

2.情感對象應首先從目前句子中抽取,如果情感對象不存在于目前句子中,再從整條

微網誌中抽取。對于第二種情況,應優先從目前句子的前一句(包括句子中包含的

hashtag)開始依次向前尋找情感對象,如果沒有再從目前句子的後一句(包括句

子中包含的 hashtag)開始依次往後尋找。對于那些整條微網誌中都沒有出現的情感

對象(有些情況情感對象是隐含的)的觀點句,參賽隊伍不必進行抽取。

3. 一個句子中,可以出現多個情感對象,應抽取出每個情感片段所對應的情感對象。

“你根本已經不是個人了,你比蛇還冷血,你比畜生還畜生。”,要求抽取出三個“你”。

4. 抽取情感對象時,要求抽取出盡可能完整和明确的對象,例如“ipad 的螢幕很棒!”,

要求抽取出情感對象“ipad 的螢幕”,而不僅是“螢幕”。

5. 對于人稱代詞(你,我,他,它,你們,我們,他們,它們等)單獨作為情感對象出

現時,需要在該微網誌範圍内(不包括轉發、評論資訊)盡量進行指代消解(無法指代

消解的情況可以采用這些代詞作為對象)。例如,“小明就讀于北京大學,他是名優

秀的學生。”情感對象是“小明”而不能是“他”。

送出格式

id run-tag weibo-idsentence-id target begin-offsetend-offsetpolarity

說明

id:結果序号

run-tag:隊伍結果辨別

weibo-id:微網誌id

sentence-id:句子id

target:情感對象

begin-offset: 情感對象在整條微網誌中的起始位置

end-offset:情感對象在整條微網誌中的終止位置

polarity:對情感對象的觀點極性,POS 代表正面,NEG 代表負面, OTHER 代表

中性或者無法明确歸為正面或者負面的其它情形。

注:對于從目前某個句子中抽取得到的情感對象,其起始位置與終止位置也要基

于整條微網誌來計算。

比如weibo1 和weibo2 的情感要素抽取結果如下:

1xyz12渭南城管 2629NEG

2xyz21iPad315NEG

檔案采用unicode(utf-16)編碼,每個字元都占兩個位元組,任意微網誌中第一個字元的offset

為0,第二個字元的offset 為1,以此類推。比如:weibo1 第二句開始位置的“渭南城管”

這四個字元在整條微網誌中對應的offset 分别為26,27,28,29。評價情感對象時隻以begin-offset

和end-offset 作為判斷依據,target 不參與評價。

評價标準:

本任務同樣采用精确(Strict)評價和寬松(Lenient)評價兩種方式,均使用準确率

(Precision)、召回率(Recall)以及F 值(F-measure)作為評價标準。

在精确評價中,要求送出的情感對象的offset 和答案完全相同并且情感對象極性也相同

時才算正确。

# _

Precision

# _

system correct

system proposed

# _

Recall

#gold

system correct

2 Pr ecision Recall

F-measure

Pr ecision+Recall

 

#gold 是人工标注結果中情感對象的數目,#system_correct 是送出結果中與人工标注匹

配的數目,#system_proposed 是送出的情感對象的數目。

在寬松評價中,一個結果包含4 個參與評測的元素:句子微網誌id,句子id,情感對象區

間(由起始位置和終止位置構成)和極性,即r=(wid, sid, s, p)。我們首先定義兩個結果之間

的覆寫率c:

 

& &

s s

if p p wid wid sid sid

c r r s

else

  

     

  

其中s 和s’為兩個結果r 和r’中情感對象的區間,p 和p’為對應的極性,wid 和wid’為微網誌id,

sid 和sid’為句子id。|*| 表示計算區間的長度。

兩個結果集合R 和R’之間的覆寫率C 定義為:

  , ( , )

i j

r R

繼續閱讀