天天看点

《中国人工智能学会通讯》——3.13 行为层

用户给出对目标事物的观点和评价是社会媒体中最常见的行为,形成用户、事物、评价和时间四个要素。在电商场景下,存在许多观点数据,如Yelp 的饭店评论、Amozon 的商品评论、携程的酒店评论等。这些信息包含了丰富的用户经验和观点,一方面能帮助其他消费者做好的选择;另一方面,帮助商家改进商品、服务或者扩大市场。在社会场景下,这些行为反映了人们对社会方方面面的观点和反馈,比如交通的拥堵、油价的涨落等,成为社会管理者的决策效果和服务质量的指示器。正是社会媒体情感信息的重要性,使这些在线系统成为观点欺诈(opinion fraud)行为的重点目标。

以往仅停留在观点层的分析,往往将这些行为看作是孤立的一条条记录,很难辨认出虚假的观点。而简单地将这些记录进行汇聚和总结,往往不是大众观点的真实反映。因此,观点欺诈是影响社会媒体情感分析的主要问题。影响在线电商平台正常竞争,损害卖家和买家的利益。因此,社会媒体要求我们从行为层出发,研究异常行为、观点欺诈检测,还原真实大众的观点,促进公平的、洁净的市场和社会环境。

Jindal 等[35]通过检测重复的评论来识别观点垃圾。一些研究试图通过更好的特征工程,包括打分、品牌、评论者的属性信息等改进分类效果[36] 。其他的方法还包括启发式行为,如利用评分的偏差 [37] 、发掘评价频繁的产品集检测欺诈团伙[38]等。然而,这些方法仅使用于特定场景,不具备通用性。于是,基于图的评论欺诈行为检测方法,因其具有较好的普适性受到学界和业界的普遍关注。Wang 等[39]提出由用户、观点、商品构成的异质评论图,基于图中的交互来识别可疑的评论。CopyCatch [40] 则将 Facebook 用户对机构网页标注喜欢的行为,即〈用户、网页、标注时间〉三元组,建模成为用户-网页的二部图,边上带有标注时间。可疑标注定义为时间一致性的二部图核 TBC,即同时同批用户标注同组网页的标注行为(lockstep), 如图 4 所示。Akoglu 等[41]在此基础上,将用户对产品评论的情感极性建模到二部图的边权上,利用置信度传播方法 BP 来检测虚假好评(hype-spam)和恶意差评(defaming-spam)两种欺诈。此外,基于二部图的谱分析方法 fBox [42] ,即通过重构误差来发现可疑行为,也取得了比较好的效果。

《中国人工智能学会通讯》——3.13 行为层

最后,值得注意的是卡耐基梅龙大学的 C.Faloutsos 教授、伊利诺伊大学芝加哥分校的刘兵教授以及纽约州立大学石溪分校的 L. Akoglu 和 Y.Choi 等,联合从自然语言、用户行为、网络效应三方面,来研究统一的欺诈检测框架。

继续阅读