天天看点

《中国人工智能学会通讯》——9.27 针对垂直搜索结果的点击模型

随着 Web2.0 时代的快速发展,搜索引擎页面正在变得越来越异质化,大量包含富文本信息的搜索结果被引入搜索页面。这些搜索结果来自于搜索引擎的多个具有特定搜索目标的子引擎,通常称为垂直搜索引擎。这些来自垂直搜索引擎的垂直搜索结果(例如图片搜索引擎得到的图片结果)往往与传统的结果具有不同展现形式,因此现今搜索页面上的搜索结果正在变得非常异质化,这也使得用户浏览行为习惯和偏好可能产生比较大的变化。

Wang et al [11] 对一家中文商业搜索引擎的大规模搜索日志进行了分析(详细分析结果请见下一小节),发现当前中文搜索环境下超过 80% 的搜索结果页面包含有垂直结果,并且不同展现形式的垂直结果对用户的行为产生了很大影响,包括对于垂直结果本身(局部影响)和对整个搜索页面(全局影响)。因此,对于现今的搜索引擎来说,考虑不同垂直结果是非常重要的因素。

他们根据中文搜索引擎常见的搜索结果(如图5 所示),结果根据展现形式进行了下述分类。

(1)普通结果:非垂直结果,最常见的搜索结果展现形式,由一条超链接标题和一段文本摘要组成。

(2)文本类垂直结果:由一段文本摘要和多条超链接标题组成,例如新闻类或者百科类搜索结果。

(3)多媒体类垂直结果:主要由一组多媒体组件(通常为一组图片)组成,例如视频、图片类搜索结果。

(4)应用类垂直结果:由嵌入搜索页面的一组组件组成,用户可以通过与组件交互直接得到搜索结果,例如计算汇率兑换的计算器。

《中国人工智能学会通讯》——9.27 针对垂直搜索结果的点击模型

FCM 模型

Chen et al [16] 最早提出了针对垂直结果的点击模型,他们分析了部分垂直结果对用户点击的影响,提出了 Federated Click Model (FCM) 模型,该模型假设用户的检验概率可能会受到最近的上一个垂直结果的影响(吸引假设):

P(A = 1) = hpos rvert

P(E i = 1 | A = 0) =ϕ i

P(E i = 1 | A = 1) =ϕ i +(1-ϕ i )β dist

式中 A 表示用户是否被垂直结果所吸引,如果用户被垂直结果吸引 A = 1,那么该用户的检验其他普通结果的概率会收到一定的影响。

VCM 模型

Wang et al [11] 利用眼动追踪设备对用户的搜索浏览行为进行了深入分析,他们发现不同展现类型的垂直结果对用户的视线注视行为有很大影响。如图 6 所示,左侧为不含垂直结果的页面,右侧为包含多媒体垂直结果的页面,热度图越暖色表示用户的视觉注视越多。可以看到,当多媒体垂直结果加入页面后,用户的视线被很大程度吸引,从而不再像左图一样的自上而下的递减分布。

《中国人工智能学会通讯》——9.27 针对垂直搜索结果的点击模型

Wang et al [11] 针对用户的浏览行为变化进行了深入的分析,最终总结了 4 个用户行为偏执假设。

(1)吸引力偏执假设:如果有一个垂直结果在搜索结果页面中出现,那么用户有一定的概率首先检验该垂直结果。

(2)全局影响偏执假设:如果有一个垂直结果在搜索结果页面中出现,并且用户首先检验了该垂直结果,那么用户会对整个页面有一个全局印象,该印象会使用户对普通搜索结果的检验和点击偏好产生影响。

(3)首位偏执影响假设:如果有一个垂直结果在搜索结果页面中出现,并且该垂直结果被排在了第 1 位,那么用户就可能会更多地点击该垂直结果而较少点击其他结果。

(4)浏览顺序偏执影响假设:如果有一个垂直结果在搜索结果页面中出现,并且用户首先检验了该垂直结果,那么用户会在接下来回看垂直结果之前的搜索结果,回看的路径或者为回到顶端自上而下浏览,或者为沿着自下而上的顺序反序浏览。相应的点击模型描述为

P(C i =1|E i =0)=0

P(C i =1|E i =1)=P(A i =1|E i =1)

P(F=1)=ϕ t v ,l vP(E i =1|F=0,C 1:i-1 )=γ i,i-l i

P(E i =1|F=1,C 1:i-1 )=γ i,i-l i +θ q,iP(A i =1|E i =1,F=0)=α q,i

P(A i =1|E i =1,F=1)=α q,i +β q,i

P(B=1|F=0)=0

P(B=1|F=1)=σ t v ,l v

其描述的用户浏览行为决策过程可以用图 7 表示。用户在开始浏览时,他会有一定的几率决定是否首先去检验垂直结果,如果检验了垂直结果,那么用户会继续约定是否回到页面顶端自上而下浏览,亦或是自下而上反序浏览。

《中国人工智能学会通讯》——9.27 针对垂直搜索结果的点击模型

继续阅读