天天看點

文本情感分析

作者:知情達理小魚w

心理學術語 心理學術語

文本情感分析

01

簡介

資訊抽取

方法

具體介紹

研究領域

目錄

03

05

02

04

基本資訊

文本情感分析:又稱意見挖掘、傾向性分析等。簡單而言,是對帶有情感色彩的主觀性文本進行分析、處理、

歸納和推理的過程。互聯(如部落格和論壇以及社會服務絡如大衆點評)上産生了大量的使用者參與的、對于諸如人物、

事件、産品等有價值的評論資訊。這些評論資訊表達了人們的各種情感色彩和情感傾向性,如喜、怒、哀、樂和批

評、贊揚等。基于此,潛在的使用者就可以通過浏覽這些主觀色彩的評論來了解大衆輿論對于某一事件或産品的看法。

簡介

情感分析或意見挖掘是人們的觀點,情緒,評估對諸如産品,服務,組織等實體的态度。該領域的發展和快

速起步得益于絡上的社交媒體,例如産品評論,論壇讨論,,的快速發展,因為這是人類曆史上第一次有如此巨

大數字量的形式記錄。自2000年初以來,情緒分析已經成長為自然語言處理(NLP)中最活躍的研究領域之一。

也是在資料挖掘,Web挖掘,文本挖掘和資訊檢索方面有廣泛的研究。事實上,它已經從計算機科學蔓延到管理

科學和社會科學,如市場營銷,金融,政治學,通訊,醫療科學,甚至是曆史,由于其重要的商業性引發整個社

會的共同。這種擴散是由于意見是事實的中心,幾乎所有的人類活動,在相當程度上,很在意别人怎麼看。出于

這個原因,無論何時我們需要做出決定,我們都會經常尋找别人的意見。這不僅是對企業而言對個人也是如此。

如今,如果一個人想購買消費産品,其不再局限于問一個人的朋友和家人的意見,因為有很多使用者評論和對

産品讨論在絡上的公共論壇,我們可以在評論中找出我們想知道的問題,可能還會有令人意想不到的收獲。對于

一個組織,它可能不再需要進行調查,民意調查和重點人群,以收集公衆的意見,因為有豐盈

這樣的資訊公開。近年來,我們目睹了那些文章通過社交媒體重塑企業形象,讨論明星生活,左右公衆的情

緒和情感,其中有深刻地影響我們的社會和政治制度,這樣的文章還動員群衆政治的變化。當我們在感歎人言可

畏的同時,我們也不得不承認社交絡的快速發展帶來的巨大的道德問題。由此情感分析孕育而生,我們可以通過

情感分析或者是輿情系統來幫助政府監控群衆的情感變化或者是輿論趨勢,來避免發生惡性事件或者是虛假事件

的發生。

通常來說,情感分析的目的是為了找出說話者/作者在某些話題上或者針對一個文本兩極的觀點的态度。

篇章級 詞語級

句子級

篇章級

篇章級别的情感分類是指定一個整體的情緒方向/極性,即确定該文章(例如,完整的線上評論)是否傳達

總體正面或負面的意見。在這種背景下,這是一個二進制分類任務。它也可以是回歸任務,例如,從1到5星的審查

推斷的總體評分。也可以認為這是一次5級分類任務。

我們可以将自然語言處理技術與模糊邏輯技術相結合,基于手動建立的模糊情感詞典,對新聞故事和電影評

論進行情感分析。定義情感種類,在模糊情感詞典中标注情感類别及其強度。每個詞語可以屬于多個情感類别。

在實驗中,可以對比采用詞頻、與長度相關的特征、語義傾向、情感PMI—IR、強調詞和特殊符号等不同特征時

的結果。最後對文章的主動性/被動性和積極/消極性進行了判斷。

句子級

由于句子的情感分析離不開構成句子的詞語的情感,其方法劃分為三大類:(1)基于知識庫的分析方法;(2)

基于絡的分析方法;(3)基于語料庫的分析方法。

我們在對文本資訊中句子的情感進行識别時,通常建立的情感資料庫會包含一些情感符号、縮寫、情感詞、

修飾詞等等。我們在具體的實驗中會定義幾種情感(生氣、憎恨、害怕、内疚、感興趣、高興、悲傷等),對句

子标注其中一種情感類别及其強度值來實作對句子的情感分類。

詞語級

詞語的情感是句子或篇章級情感分析的基礎。早期的文本情感分析主要集中在對文本正負極性的判斷。詞語

的情感分析方法主要可歸納為三類:(1)基于詞典的分析方法;(2)基于絡的分析方法;(3)基于語料庫的分析方

法。

基于詞典的分析方法利用詞典中的近義、反義關系以及詞典的結構層次,計算詞語與正、負極性種子詞彙之

間的語義相似度,根據語義的遠近對詞語的情感進行分類。

基于絡的分析方法利用萬維的搜尋引擎擷取查詢的統計資訊,計算詞語與正、負極性種子詞彙之間的語義關

聯度,進而對詞語的情感進行分類。

基于語料庫的分析方法,運用機器學習的相關技術對詞語的情感進行分類。機器學習的方法通常需要先讓分

類模型學習訓練資料中的規律,然後用訓練好的模型對測試資料進行預測。

資訊抽取

情感分析的最底層的任務,它旨在抽取情感評論文本中有意義的資訊單元,情感資訊抽取可提煉出對情感分

析有貢獻的詞或短語元素,其結果對特征降維、提高系統性能有重要作用,常用的統計分析方法有基于資訊增益、

互資訊、期望交差熵、詞頻、文檔頻次等。

評價詞語的抽取和判别

即為評價詞語的識别和極性及度量判斷,評價詞語的抽取和判别往往是一個一體化的工作,主要分為基于語

料庫和基于詞典兩種方法。

基于語料庫的評價詞語抽取和判别:

主要是利用大語料庫的統計特性,觀察一些現象來挖掘語料庫中的評價詞語并判斷極性。其最重要的優點在

于簡單易行,缺點在于評論語料庫有限,同時評論詞語在大語料庫中的分布等現象不易歸納。

基于詞典的評價詞語抽取及判别方法:

主要是使用詞典中的詞語之間的詞義來挖掘評價詞,其中難度最大的是詞典的更新程度決定詞義分析。

研究領域

文本情感分析的一個基本步驟是對文本中的某段已知文字的兩極性進行分類,這個分類可能是在句子級、功

能級。分類的作用就是判斷出此文字中表述的觀點是積極的、消極的、還是中性的情緒。更進階的“超出兩極性”

的情感分析還會尋找更複雜的情緒狀态,比如“生氣”、“悲傷”、“快樂”等等。

在文本情感分析領域,早期做出研究貢獻的有 Turney和 Pang他們運用了多種方法探測商品評論和電影影

評的兩極觀點。此研究是建立在文檔級所進行的分析。另一種文檔意見的分類方式可以是多重等級的,Pang和

Snyder(among others):延伸了早先的基礎兩極意見研究,将電影影評分類并預測為3至4星的多重級别,而

Snyder就餐館評論做了個深度分析,從多種不同方面預測餐館的評分,比如食物、氣氛等等 (在一個5星的等級

制度上)。盡管在大多數統計方面的分類方式中,“中性”類是經常被忽略的,因為“中性”類的文本經常是處

于一個兩極分類的邊緣地帶,但是很多研究者指出,在每個兩極化問題當中,都應該識别出三個不同的類别。進

一步的說,一些現有的分類方式例如 Max Entropy和 SVMs可以證明,在分類過程中區分出“中性”類可以幫助

提高分類算法的整體準确率。

另一種判定文本情緒的方法是利用比例換算系統。當一個詞普遍被認為跟消極、中性或是積極的情感有關聯

時,将這個詞賦予一個-10到+10之中的數字級别(最消極到最正向情感),在使用自然語言處理來分析一個非結

構化文本資料後,餘下的的概念也可以被分析來得出詞與概念的相關性。接下來,每一個概念都可以被賦予一個

分數,這個分數是基于情感詞彙和這個概念的關聯度,以及他們本身的分數而得出的。

方法

現有的文本情感分析的途徑大緻可以集合成四類:關鍵詞識别、詞彙關聯、統計方法和概念級技術。關鍵詞

識别是利用文本中出現的清楚定義的影響詞(affect words),例如“開心”、“難過”、“傷心”、“害怕”、

“無聊”等等,來影響分類。詞彙關聯除了偵查影響詞以外,還附于詞彙一個和某項情緒的“關聯”值。統計方

法通過調控機器學習中的元素,比如潛在語意分析(latent semantic analysis),SVM(support vector

machines),詞袋(bag of words),等等。(參見Peter Turney在相關領域的研究成果。)一些更智能的方

法意在探測出情感持有者(保持情緒狀态的那個人)和情感目标(讓情感持有者産生情緒的實體)。要想挖掘在

某語境下的意見,或是擷取被給予意見的某項功能,需要使用到文法之間的關系。文法之間互相的關聯性經常需

要通過深度解析文本來擷取。與單純的語義技術不同的是,概念級的算法思路權衡了知識表達(knowledge

representation)的元素,比如知識本體 (ontologies)、語意絡(semantic networks),是以這種算法也

可以探查到文字間比較微妙的情緒表達。例如,分析一些沒有明确表達相關資訊的概念,但是通過他們對于明确

概念的不明顯來擷取所求資訊。

有很多開源軟體使用機器學習(machine learning)、統計、自然語言處理的技術來計算大型文本集的情

感分析,這些大型文本集合包括頁、絡新聞、上讨論群、絡評論、部落格和社交媒介。

謝 謝 觀 看

繼續閱讀