黃永峰:各位老師、同學們,上午好!很榮幸有這個機會跟大家交流,我的題目是網絡社交媒體的情感認知與計算。
下面我将從這三個方面為大家逐一介紹。
情感計算的曆史是1997年由mit的picard教授提出的,她指出情感計算是與情感相關,來源于情感或能夠對情感施加影響的計算。情感分為四類:情感識别、情感表示、情感模組化、情感互動。今天我講的更像是情感識别方面的研究。情感計算分為四個過程:情感資訊采集、情感識别分析、情感了解認知、情感資訊表達,這四個方面我們做得更多的是識别分析,了解認知是我們下一步想做的。
picard提出這個計算的時候,最開始的想法是從一些圖像的表情、語音的語調、姿态中采集資料,通過特征資訊的抽取和分析,最後識别情感而今天我所做的情感是利用網際網路這樣一個平台來采集大量語言的資訊或者語言資料來分析個體的情感。我們為什麼要采集情感?首先情感的采集比别的更豐富,語言是人類思維的直接現實,是思想的傳播載體,也是情感表達的媒介,通過采集語言資料分析情感是完全可能的。但是有沒有難度?有個統計資料指出一個語言的情感資訊10%來自于語言本身的内容,20%來自于語言的語調、語氣,70%來自于表情。傳統語言的語調、語氣信号用于分析情感相對更容易,而我們基于語言内容來分析情感難度會大很多。
什麼叫情感?首先要對情感的模型有一個了解。plutchik提出了一個最典型的情緒模型,他把人的情感分為八個類别、四個種類,分别用錐形模型和展開後的模型描述。從這兩個模型我們能夠看出情感的描述有很多方法,目前用得最普遍的是三維模型,把情感用強度劃分為三個等級,這八個類别相對的是不同極性情感,相鄰的情感區域的情感是很相似的,即情感的第3維,相似性。我們後面展開的情感研究主要是對這24類情感研究的一個簡單的量化,情感很複雜,我們的研究從兩個方面進行量化,第一個是強度,第二個是把相似性和極性合到一起研究。
以往我們網絡媒體情感的研究主要是對網絡媒體情感的傾向性進行計算,基本方法是利用自然語言處理、文本分析、計算語言學的方法,從文本中挖掘人們的觀點、情感、評價、态度和情緒,也稱之為觀點挖掘。基本部署是通過一些知識庫,再加上統計學的一些基本原理,建構系統,對網絡的文本進行分類,能夠得出它的極性以及極性的強度。
第二個問題是社交媒體。我們今天強調的是社交網絡。我們了解的社交媒體是由web2.0産生的長度比較短的文本都叫網絡文本,我們的網絡情感計算就是從這些網絡媒體中生産的資料來挖掘情緒強度,我們的網絡媒體是一個典型的大資料。
首先資料量大,騰訊每日同時線上qq使用者是1.6億,每天的存儲容量是300g。新浪每天通路量是10億,高峰期每秒要有100萬的響應。
第二資料更新快,新浪微網誌每秒發帖量2500條以上,twitter每秒發帖量在14300條,這些都有動态特征和時間演化特征。
第三多樣性,這個和大資料的多樣性的了解不太一樣,我們認為的多樣性是網絡媒體的數字來自于不同的使用者,不同使用者的誠信度不一樣,可信度也不一樣。表達語言有多樣性,表達方式有表情符号、中文、英文等。還有一個很大的特點,網絡是非正式語言,有很多網絡新詞,而網絡新詞代表語義,而且拼寫錯誤很多,這也是造成多樣性的一個方面。
四,不确定性,做過語言的人都知道,語言最大的難度是語義,我們分析的時候主要是詞的情感有不确定性以及噪聲也有不确定性。比如說工資上漲及物價上漲,同樣是上漲的詞,工資上漲很高興,物價上漲肯定是不高興的。同時對一個句子來說,比如說國足太差了,後面另外一個網絡使用者說我同意,單從我同意這三個字很難了解他的網絡極性,聯合上下文了解,這是作為句子的不确定性。
為什麼要對網絡媒體内容的情感進行分析?從這個ppt中可以看出,現在不管是社交網絡還是即時通訊的短文本,都包含了大量的情感資訊。這些情感資訊反映了對某個事件、某個公衆人物、某個産品、某個企業的态度,通過對這些文本情感極性的分析,我們能夠了解這個商店是好還是壞。
網絡媒體情感計算的應用,這裡就不詳細介紹了。
這是幾個典型的應用案例。
我們對網絡媒體情感計算的學術意義做了分析。該領域從2006年開始成為研究熱點,根據論文發表數目和被引用數目,其熱度還處于線性上升的階段。
微軟發表文章指出情感計算是人工智能的重要發展方向。前不久有一個資料問答機器,下一步的目标是研究具有表情、情緒的機器人實作在舞台上的表演。如果說智能回答是人工智能的進步,有情感将是人工智能更高的境界。在2009年發表的社會計算學的文章中指出情感計算是社會計算的一個重要研究方向,在認知實體學的報告裡指出認知實體學發展到較高層面也是情感計算。
我們實驗室在網絡媒體情感計算領域做了哪些事呢?首先我們分析了網絡媒體在情感計算方面存在的挑戰,跟傳統文本相比網絡媒體存在四方面的特點,也帶來了相應的挑戰。
一,網絡媒體中表示情感的符号更豐富,除了一些語義詞、情感詞之外還有一些符号,大家經常發微信同時發一些符号,是一個圖文并茂的結構。
二,網絡媒體一般來說都很小,在200字以内,是以存在很多詞彙特征的稀疏性問題,但是情感資訊很豐富。
三,網絡是非正式的語言,以前寫錯别字或者語句不通,大家會感覺很不好。但是在網絡上能夠表達意思就可以了,根本不關心表達方式,這樣的文本載體對我們分析情感帶來很大的挑戰。
四,網絡新詞很多,每天都會出現很多不同的新詞,新詞出現以後語義也發生了變化。
我們要解決的最關鍵問題是情感語義的不确定性,具體表現為兩方面:情感詞極性的歧義性、情感詞強度的模糊性。在情感詞極性的歧義性方面主要有兩個問題,第一個是依賴文本語境資訊,在不同的文本語境下極性不一樣。第二個是依賴使用者的語境資訊。
在文本的語境資訊裡,情感詞極性上下文依賴,像剛才說的成本效益高和價格高,兩個都是高,但是表現的情感極性是不一樣的。然後是情感詞極性的領域依賴。第三個是使用者個性化依賴,可能同樣的事件,一個說不錯,一個說良好,兩個詞都是表示正面情感,強度是否相同?第四個是跟上下文的社交依賴,我們說這個畫面很漂亮和美得令人窒息,這兩個都是表達情感的,他們使用不同的詞,情感是否相同?
這是我們做情感計算要解決的關鍵問題,如何對情感的極性和強度的不确定性進行分析。目前采用的方法歸類為三種,另外一種是統計和規則方法。
我們站在知識庫的角度分為二個方面:一,情感詞庫和知識庫建構一個分類器,現在有正向和負向詞集,然後建構一個文本詞集進而分析。二,利用網絡這樣的平台産生大量的文本語料,在文本語料的統計下,挖掘與正負向基準情感詞的相似度。在基準正負情感詞集之上建構情感語素集合,以這個詞庫為基礎再建立情感模型。
我們前期完成一個項目是在國家863項目支援之下做的情感分析研究,我們當時的研究主要貫穿在以下四個方面:
第一個方面是對情感詞的極性分類,在此基礎上再分析極性詞的強度。在這個項目裡我們的研究亮點是對傳統的情感詞極性庫加了不同的特征。
第二個方面是對文本語義的特征進行分類,情感詞的極性對領域的依賴性很強,是以我們進行情感分類之前要擷取語義特征,在此基礎之上對文本進行分析。
第三個方面是在社交網絡基礎上通過社交網絡語境來進行情感計算。
第四個方面是在網絡文本極性分類基礎上對峰值和強度進行預測。這四個方面中我重點介紹社交網絡語境下的情感計算,我們計算的主題主要是社交網絡媒體。
我們在社交網絡語境下的情感計算,主要還是利用它的語境關聯解決情感詞的不确定性問題。具體的方法是對網絡社交語境進行模組化,确定社交的上下文關聯以及話題關聯,在這兩個關聯的基礎上分别提出了社交上下文限制下的網絡文本計算和特定話題下的網絡文本計算。我們根據這方面的研究寫了三篇代表性的論文:
一,社交上下文限制下的網絡文本情感計算。這裡面的内容是網絡社交文本存在于豐富的社交上下文之中,但是這些文本的長度比較短,資訊不完整。而且單個整句也可能産生歧義,是以我們必須結合上下文了解。
我們的研究思路是聯合網絡社交文本的情感得分再加上社交上下文的限制,來最終确定文本的極性。基本理論是這樣的兩個假設,第一個假設是情感一緻性,使用者在同一時間内對同一個話題的觀點較為一緻;第二個假設是情感傳播,一個社交網絡内的社群觀點較為一緻。基于這兩個假設,我們建構了分類器。
這是我們的目标函數和限制條件。
上圖是不同社交上下文的實驗結果展示。
二,在特定社交話題下的網絡短文本情感分析。情感的極性和話題具有極大的依賴性,我們在分析之前,首先要确定這個話題的主題。我們的做法是從海量無标注的資料中提取話題的特征知識,包括詞的極性知識以及詞與詞相似性的知識,然後把這些知識融入到标注資料的模型中進行分類。
我們使用數學模型對情感詞的極性進行描述,兩個詞在社交文本中共現的機率越大,攜帶近似極性也可能越大。在這基礎上我們建立了這個模型:情感詞的極性知識、詞與詞情感關聯知識,通過引進這樣的知識項對模型進行優化。
除了建立數學模型之外,在模型求解我們提出一個fused lasso的算法,使得疊代計算速度更快。
這是情感詞的基本測試結果,我們在多個資料集上進行了實驗,結果還是比較好的。
三,研究解決個性化的情感分類。前面主要是利用上下文和話題解決情感極性和不确定的問題,在一個社交網絡環境下,每個人對評論都有個性化的特征,如何描述它的個性化特征?我們使用這個數學模型為每個使用者分别訓練一個個性化的情感分類器,通過這些分類器降低模型對标注資料的依賴程度,然後來分析文本的情感模式,圖中是人性化依賴的情感極性分類模型。
這是我們的三篇研究成果,結合我們在社交媒體的研究成果,我們開發了一個系統,網絡大資料下的分享平台,其中有一個重要的功能,線上對網絡文本進行情感分析。能夠對五個新聞網站、四個社交網絡的媒體資料進行實時采集和實時情感分析。
我們下一步要做的事情,我歸納為是認知情景下的網絡社交媒體的情感計算。前面的情感計算主要是對文本内容的情感特征詞、上下文的資訊輔助分類模型進行分類,我們知道情感和心理活動是很有關聯的,而且我們分析的手段目前還隻是統計方法。這頁ppt是ibm研究院孫博士的ppt,他把這資料分析分為四個階段,描述性分析、預測性分析、指令性分析和認知性分析,我們對情感的分析是否可以引入這個認識性的分析?
認知性分析有三個特點:一,了解自然語言和人類溝通方式;二,基于資料認知和推理産生評估結果;三,産生自學習機制。
我們分析一下,根據心理學的基本原理,一個人的情緒分四個方面,首先與情景相關,在這個情景下心情好,換一個情景心情就不好了,是以有觸景生情這一個說法;其次與需求相關,需求得到滿足情緒就好,如果需求沒有滿足,情緒可能就是負向的;第三與人的認知有關,我們經常說仁者見仁、智者見智的;第四與行為有關,情感是行為的最終表達,行為的實施對情感産生影響,我們從小說要助人為樂,把做好事作為一件快樂的事情,這就是行為的影響。這些資料媒體帶毛的、鮮活的、有情感的原生态資料,展現了認知過程中在語境、語構、語用和語義方面的不确定性,我們對這些資料進行挖掘,并利用這四要素對人的情感進行計算,能否比我們前面的計算更準确?
出于這個基本考慮,我們提出了基于情感認知情景下的情感計算。這個題目去年獲得了國家課題支撐。
情感計算首先要研究情感認知,包括以下兩方面,一個是從心理學的角度研究情感認知的内在機理,作為網絡虛拟社會,網絡使用者跟平常的使用者不一樣,心理也不一樣,網絡媒體跟傳統媒體不一樣。那麼特定的網絡使用者在網絡虛拟社會環境下,對網絡媒體這種新興媒體的認知心理和傳統的認知心理有什麼不一樣?這是我們研究的第一個問題。另一個是我們要利用網絡大資料挖掘情感産生的外在原因,我們将這種外在原因稱為社會因素,我們試圖從人的心理與大資料的關聯找出情感與情感的關系。中國人為什麼都喜歡紅色?原因是說不清楚的,但是我們可以通過大資料分析來給出答案。這個社會屬性從心理機理方面無法得到答案,但是從大資料挖掘中可以找出社會關聯。基于情感認知的心理機理和資料挖掘共同建構一個情感覺識庫,在情感覺識庫的基礎上再來解決情感計算不确定性的問題。我們這個項目中的研究思路是在情感認知方面研究内在機理和外在誘因,分别帶着社會屬性和自然屬性。然後建構情感覺識庫、情感詞庫,主要研究網絡圖文關聯的極性計算,我們前期計算主要是基于文本内容計算,可以從剛才的文本分析中看出,很多網絡媒體除了文字之外,還有一些辨別符、情感符号和縮微的圖形,這些也包含一些情感資訊,我們是不是能夠把這些關聯起來進行研究?我們在情感計算裡引入了基于模糊強度的理論。
原文釋出時間為:2016-03-04
本文來自雲栖社群合作夥伴“大資料文摘”,了解相關資訊可以關注“bigdatadigest”微信公衆号