天天看點

《中國人工智能學會通訊》——3.11 觀點層

社會媒體資料的開放性,吸引了很多的研究人員進行觀點分析的相關研究。Kouloumpis 等[3]權衡了推特資料中存在的話題标簽,以此來建構訓練資料,并且也證明了詞性特征可能對推特資料的情感分析是沒有任何用處的。Mehta 等[4]使用推特資料作為情感分析的語料庫,追蹤了某品牌活動在社交網絡中的影響。此外,資料可視化是情感分析的一個重要人機互動(HCI)手段,如圖 1 所示,我們研究并建構“流圖(river graph)”來可視化社會媒體中特定話題觀點的強度和變化趨勢[5] 。通過有效的人機互動,首先計算機完成擅長的大規模資料統計、歸類和布局;接下來人們可以高效地進行所擅長的識别、推演和決策等工作。觀點分析方面有很多技術可以利用傳統文檔的情感分析技術,但在此基礎上又有諸如話題标簽、表情符、時效性、動态演化等社會媒體的特點。

《中國人工智能學會通訊》——3.11 觀點層

社會媒體中包含了一大類,如推特微網誌、社交網絡朋友分享和評論等,缺少總體打分、評級等機制的“自由文本”。這些文本數量大,又是不可被忽略的。這就為有監督的情感分析模型帶來了人工标注資料的大量費用和時間代價,增加了情感分析的成本,降低了分析效率。此外,在帶有評分機制的平台上,不同使用者打分所代表的程度也會有差異。喜歡打高分的使用者,在 5 分制平台中打 3 分,可能就意味着負面評價;喜歡打低分的使用者,3 分則可能是比較不錯的評價。這種差異也帶來了直接利用評分判斷大衆觀點做法的可靠性問題。是以,如何利用大量無監督資料或者利用少量标注資料進行有效的情感分類,成為情感分析在社會媒體環境下需要着重強調的研究任務。

在無需人工标注的方法中,Turney [6] 曾提出過一種有效的無監督學習算法 PMI-IR,基于搜尋引擎的共現檢索,以此來計算一個情感詞的權重,并以此做簡單統計,判斷文檔的情感。該方法适用于情感比較穩定的情感詞,即與領域和話題無關,并對文檔進行粗略的判斷。Go 等[7]提出一種弱監督的學習方法,在推特資料中使用有噪音的表情符号作為情感标注,訓練情感分類模型。另一方面,半監督學習模型能夠利用大量的無監督資料來改善标注資料稀缺情況下的分類精度。S3VM(Semi-supervised Support Vector Machines) 就是一種成熟的自訓練(self-training)技術。如果情感特征能夠劃分為獨立的兩個視圖,協同訓練(co-training)的半監督架構能進一步提高學習效果。除了這兩種需要特征工程的架構外,直接端到端的深度學習方法也被研究者所青睐。文獻 [8] 在 RAE(RecursiveAutoencoders)的無監督自編碼單元中加入少量的情感标注資訊,同時優化重構誤差和交叉熵誤差,實作半監督的情感分類。Zhai 等[9]指出,情感分類文本中詞的表達學習不應隻重點考慮高頻詞的重構誤差。是以,利用一部分标注資料學習詞的權重,并在大量無标注資料中學習詞表達,使權重越高的詞,重構誤差越小,最後達到利用學習到的表達優化情感分類的目的。此外,利用其他自然語言處理任務的标注資料,如詞性标注(POS)、短語分詞(chunking)、命名實體識别(NER),并結合無監督的自編碼,可以通過多任務學習(multi-tasklearning)來改進情感分類。這在統一自然語言處理的深度神經網絡模型[10]中得到了驗證。

情感分析的另一大挑戰是情感分類模型與訓練的話題領域有很強的依賴,即在某個話題的标注資料訓練的分類器,在其他話題上可能表現得很差。其本質原因在于不同目标話題讨論、表達觀點使用的詞,甚至句式可能是有很大不同的。例如,“時間長”在“手機電池續航時間”和“相機聚焦時間”情景下,表達的觀點完全相反。對于像推特、朋友分享和評論這樣的“自由文本”,其中的話題讨論更加自由、多樣并不可預知。這樣不同話題标注資料又無法直接利用,需要對每一個差異的話題重新标注資料,使得本來就面臨人工标注稀缺的情感分析模型雪上加霜。是以,話題自适應或跨領域情感分類任務是社會媒體環境下更具有挑戰和亟待解決的問題。

幸運的是,過去的幾年裡跨領域(話題)的情感分類在很多特定應用場景,研究提出了有效的解決方法。Blitzer 等[11]曾提出結構一緻學習方法SCL(Structural correspondence learning), 将轉軸特征(pivot features)用于連接配接源話題和目标話題領域,通過轉軸特征訓練模型,發現跨領域的特征相關性,擴充引入目标話題的特征向量,并最小化跨領域轉變的相關性錯誤。譜特征對齊算法SFA(Spectral feature alignment) [12] 和 跨 領 域話題索引 CDTI(cross-domain topic indexing)[13] ,分别在譜特征、機率的隐式主題空間上通過映射關系的學習,從語義層來橋接不同領域。由于跨領域的關鍵是話題相關的情感詞典,是以 Li 等[14]提出了一種領域自适應架構,實作跨領域的情感與話題詞典的共現抽取。由于可以借助已有很多其他領域的标記資料,該方法可以不用任何目标領域的标記資料。以上提到的以及很多未提及的研究都利用了充足的标注資料和特征,預先構造出跨領域情感分類的“橋梁”,實作情感分類模型從源話題訓練後到目标話題的轉變。

Chen 等[15]提出結合半監督的手段,包括自訓練和協同訓練,實作話題自适應。該方法基于皮爾遜相關系數(PCC)優化兩個領域語料特征分布的相容誤差,通過規範化項鼓勵分類器盡量選擇在兩話題領域表現相近的特征。然而話題自适應情感分類,往往除了一部分表現相近的特征外,還有相當數量的話題獨有的情感詞特征,甚至共有但觀點相反的,這些特征反而至關重要。是以,我們提出一種新的、可操作性強的話題自适應情感分類模型TASC [16] 。它利用所有話題中表現相近的情感特征(公共情感詞),以及不分話題的少量标注資料,學習初始的通用情感分類器。然後在目标話題的未标注資料上,将與其依賴的情感特征(話題相關情感詞)作為待選擇和學習的參數,進行半監督的話題自适應情感分類。文獻 [17] 随後通過分析社會媒體中使用者、網絡關系屬性等對情感觀點的影響,改進 TASC 模型,結果如圖 2 所示;以及考慮到社會媒體話題的動态演變特性,在原有模型基礎上設計了随時間線動态自适應分類的架構(TASC-t)。除此之外,Glorot 等[18]提出從含有很多話題的無監督語料中深度學習(堆疊的降噪自編碼器 SDA)得到的表達,然後通過線性分類模型在源話題的标注資料上學習後,可以天然地自适應到目标話題。随後,Chen 等[19]在邊緣化的降噪自編碼器 mSDA上得到了相同的結論,并且模型複雜度更低。

《中國人工智能學會通訊》——3.11 觀點層

情感詞表達的觀點除了與目标話題相關外,在不同使用者的表達中也會有差别。例如,有的使用者說good,其實是表達“just-so-so”,而有的則是表達“excellent”。為此我們提出一個新的、考慮使用者 -物品的有監督話題模型(SUIT)進行情感分析[20] 。該模型通過張量積同時考慮評論内容、使用者、物品等因素在隐式空間對于觀點極性的作用。

繼續閱讀