天天看点

文本情感分析

作者:知情达理小鱼w

心理学术语 心理学术语

文本情感分析

01

简介

信息抽取

方法

具体介绍

研究领域

目录

03

05

02

04

基本信息

文本情感分析:又称意见挖掘、倾向性分析等。简单而言,是对带有情感色彩的主观性文本进行分析、处理、

归纳和推理的过程。互联(如博客和论坛以及社会服务络如大众点评)上产生了大量的用户参与的、对于诸如人物、

事件、产品等有价值的评论信息。这些评论信息表达了人们的各种情感色彩和情感倾向性,如喜、怒、哀、乐和批

评、赞扬等。基于此,潜在的用户就可以通过浏览这些主观色彩的评论来了解大众舆论对于某一事件或产品的看法。

简介

情感分析或意见挖掘是人们的观点,情绪,评估对诸如产品,服务,组织等实体的态度。该领域的发展和快

速起步得益于络上的社交媒体,例如产品评论,论坛讨论,,的快速发展,因为这是人类历史上第一次有如此巨

大数字量的形式记录。自2000年初以来,情绪分析已经成长为自然语言处理(NLP)中最活跃的研究领域之一。

也是在数据挖掘,Web挖掘,文本挖掘和信息检索方面有广泛的研究。事实上,它已经从计算机科学蔓延到管理

科学和社会科学,如市场营销,金融,政治学,通讯,医疗科学,甚至是历史,由于其重要的商业性引发整个社

会的共同。这种扩散是由于意见是事实的中心,几乎所有的人类活动,在相当程度上,很在意别人怎么看。出于

这个原因,无论何时我们需要做出决定,我们都会经常寻找别人的意见。这不仅是对企业而言对个人也是如此。

如今,如果一个人想购买消费产品,其不再局限于问一个人的朋友和家人的意见,因为有很多用户评论和对

产品讨论在络上的公共论坛,我们可以在评论中找出我们想知道的问题,可能还会有令人意想不到的收获。对于

一个组织,它可能不再需要进行调查,民意调查和重点人群,以收集公众的意见,因为有丰盈

这样的信息公开。近年来,我们目睹了那些帖子通过社交媒体重塑企业形象,讨论明星生活,左右公众的情

绪和情感,其中有深刻地影响我们的社会和政治制度,这样的帖子还动员群众政治的变化。当我们在感叹人言可

畏的同时,我们也不得不承认社交络的快速发展带来的巨大的道德问题。由此情感分析孕育而生,我们可以通过

情感分析或者是舆情系统来帮助政府监控群众的情感变化或者是舆论趋势,来避免发生恶性事件或者是虚假事件

的发生。

通常来说,情感分析的目的是为了找出说话者/作者在某些话题上或者针对一个文本两极的观点的态度。

篇章级 词语级

句子级

篇章级

篇章级别的情感分类是指定一个整体的情绪方向/极性,即确定该文章(例如,完整的在线评论)是否传达

总体正面或负面的意见。在这种背景下,这是一个二元分类任务。它也可以是回归任务,例如,从1到5星的审查

推断的总体评分。也可以认为这是一次5级分类任务。

我们可以将自然语言处理技术与模糊逻辑技术相结合,基于手动创建的模糊情感词典,对新闻故事和电影评

论进行情感分析。定义情感种类,在模糊情感词典中标注情感类别及其强度。每个词语可以属于多个情感类别。

在实验中,可以对比采用词频、与长度相关的特征、语义倾向、情感PMI—IR、强调词和特殊符号等不同特征时

的结果。最后对文章的主动性/被动性和积极/消极性进行了判断。

句子级

由于句子的情感分析离不开构成句子的词语的情感,其方法划分为三大类:(1)基于知识库的分析方法;(2)

基于络的分析方法;(3)基于语料库的分析方法。

我们在对文本信息中句子的情感进行识别时,通常创建的情感数据库会包含一些情感符号、缩写、情感词、

修饰词等等。我们在具体的实验中会定义几种情感(生气、憎恨、害怕、内疚、感兴趣、高兴、悲伤等),对句

子标注其中一种情感类别及其强度值来实现对句子的情感分类。

词语级

词语的情感是句子或篇章级情感分析的基础。早期的文本情感分析主要集中在对文本正负极性的判断。词语

的情感分析方法主要可归纳为三类:(1)基于词典的分析方法;(2)基于络的分析方法;(3)基于语料库的分析方

法。

基于词典的分析方法利用词典中的近义、反义关系以及词典的结构层次,计算词语与正、负极性种子词汇之

间的语义相似度,根据语义的远近对词语的情感进行分类。

基于络的分析方法利用万维的搜索引擎获取查询的统计信息,计算词语与正、负极性种子词汇之间的语义关

联度,从而对词语的情感进行分类。

基于语料库的分析方法,运用机器学习的相关技术对词语的情感进行分类。机器学习的方法通常需要先让分

类模型学习训练数据中的规律,然后用训练好的模型对测试数据进行预测。

信息抽取

情感分析的最底层的任务,它旨在抽取情感评论文本中有意义的信息单元,情感信息抽取可提炼出对情感分

析有贡献的词或短语元素,其结果对特征降维、提高系统性能有重要作用,常用的统计分析方法有基于信息增益、

互信息、期望交差熵、词频、文档频次等。

评价词语的抽取和判别

即为评价词语的识别和极性及度量判断,评价词语的抽取和判别往往是一个一体化的工作,主要分为基于语

料库和基于词典两种方法。

基于语料库的评价词语抽取和判别:

主要是利用大语料库的统计特性,观察一些现象来挖掘语料库中的评价词语并判断极性。其最重要的优点在

于简单易行,缺点在于评论语料库有限,同时评论词语在大语料库中的分布等现象不易归纳。

基于词典的评价词语抽取及判别方法:

主要是使用词典中的词语之间的词义来挖掘评价词,其中难度最大的是词典的更新程度决定词义分析。

研究领域

文本情感分析的一个基本步骤是对文本中的某段已知文字的两极性进行分类,这个分类可能是在句子级、功

能级。分类的作用就是判断出此文字中表述的观点是积极的、消极的、还是中性的情绪。更高级的“超出两极性”

的情感分析还会寻找更复杂的情绪状态,比如“生气”、“悲伤”、“快乐”等等。

在文本情感分析领域,早期做出研究贡献的有 Turney和 Pang他们运用了多种方法探测商品评论和电影影

评的两极观点。此研究是建立在文档级所进行的分析。另一种文档意见的分类方式可以是多重等级的,Pang和

Snyder(among others):延伸了早先的基础两极意见研究,将电影影评分类并预测为3至4星的多重级别,而

Snyder就餐馆评论做了个深度分析,从多种不同方面预测餐馆的评分,比如食物、气氛等等 (在一个5星的等级

制度上)。尽管在大多数统计方面的分类方式中,“中性”类是经常被忽略的,因为“中性”类的文本经常是处

于一个两极分类的边缘地带,但是很多研究者指出,在每个两极化问题当中,都应该识别出三个不同的类别。进

一步的说,一些现有的分类方式例如 Max Entropy和 SVMs可以证明,在分类过程中区分出“中性”类可以帮助

提高分类算法的整体准确率。

另一种判定文本情绪的方法是利用比例换算系统。当一个词普遍被认为跟消极、中性或是积极的情感有关联

时,将这个词赋予一个-10到+10之中的数字级别(最消极到最正向情感),在使用自然语言处理来分析一个非结

构化文本数据后,余下的的概念也可以被分析来得出词与概念的相关性。接下来,每一个概念都可以被赋予一个

分数,这个分数是基于情感词汇和这个概念的关联度,以及他们本身的分数而得出的。

方法

现有的文本情感分析的途径大致可以集合成四类:关键词识别、词汇关联、统计方法和概念级技术。关键词

识别是利用文本中出现的清楚定义的影响词(affect words),例如“开心”、“难过”、“伤心”、“害怕”、

“无聊”等等,来影响分类。词汇关联除了侦查影响词以外,还附于词汇一个和某项情绪的“关联”值。统计方

法通过调控机器学习中的元素,比如潜在语意分析(latent semantic analysis),SVM(support vector

machines),词袋(bag of words),等等。(参见Peter Turney在相关领域的研究成果。)一些更智能的方

法意在探测出情感持有者(保持情绪状态的那个人)和情感目标(让情感持有者产生情绪的实体)。要想挖掘在

某语境下的意见,或是获取被给予意见的某项功能,需要使用到语法之间的关系。语法之间互相的关联性经常需

要通过深度解析文本来获取。与单纯的语义技术不同的是,概念级的算法思路权衡了知识表达(knowledge

representation)的元素,比如知识本体 (ontologies)、语意络(semantic networks),因此这种算法也

可以探查到文字间比较微妙的情绪表达。例如,分析一些没有明确表达相关信息的概念,但是通过他们对于明确

概念的不明显来获取所求信息。

有很多开源软件使用机器学习(machine learning)、统计、自然语言处理的技术来计算大型文本集的情

感分析,这些大型文本集合包括页、络新闻、上讨论群、络评论、博客和社交媒介。

谢 谢 观 看

继续阅读