新零售智能引擎事业群出品
论文链接:
https://arxiv.org/pdf/1910.07099.pdf
1. 全空间建模任务的背景
随着移动互联网的兴起,从海量的数据中挖掘出有价值的信息并呈现给用户,已成了电商、 社交、新闻等主流应用的核心功能,推荐系统正是在这样的背景下诞生的。在电商领域,高 质量的推荐系统能为用户提供精准、及时、甚至带有一定惊喜性的个性化服务,进而有效地 增加了用户与系统之间的黏性,同时也能为平台带来一定的收入。一般说来,电商领域(如 淘宝)的推荐系统架构主要包括两个阶段:系统决策和用户决策,如下图所示:
1)系统决策:淘宝上有数亿商品,如何从中挑选最适合的少量商品展现给用户呢?这就是 推荐系统存在的价值。推荐系统首先会根据用户的长短期兴趣召回大量(一般是千级别的数 量级)相关的商品;接着将头部的商品传递给后续的精排阶段。精排阶段则结合着用户、商 品、上下文等特征,对商品的点击率(CTR)、转化率(CVR)等排序指标进行建模。然后,系统 会按照一定的商业目标(例如GMV)综合所有的排序指标并计算出最终的排序分,最后系统会 将排序分最靠前的商品展现给用户。由此可见,精准地预估CTR、CVR等排序指标对最后的商品展现起着至关重要的作用。
2)用户决策:当商品曝光给用户后,用户会在商品上产生一系列行为。首先用户会点击令 他们感兴趣的商品,接着还可能对点击商品产生更进一步的购买行为,这一序列行为过程可 以表示成“Impression→Click→Buy”。另外,用户各阶段的行为数据会反馈给推荐系统做更 进一步的迭代升级。
通常来讲,传统的推荐系统会根据用户在不同阶段的反馈数据建立对应的算法模型,例如, 根据用户从曝光到点击阶段的行为数据构建点击率预估模型;根据用户从点击到购买阶段的 行为数据构建转化率预估模型等。但是,多阶段独立建模存在一些问题。以post-clickCVR 模型为例,直观的建模方式是采用点击数据:点击且购买为正样本,点击非购买为负样本; 但它存在两个非常明显的问题:
1)样本选择偏差(SampleSelectionBias,SSB)问题: 训练CVR模型时,只采用点击样本; 但是线上serving的时候,用户直接面对的是曝光商品,而不是点击后的商品。这样, training 空间和线上inference空间的不一致性,必然会使CVR预估产生有偏的结果,进而损失效 果及收益。因此,CVR建模时,应充分保障training空间与线上inference空间的一致性
2)数据稀疏性(DataSparsity,DS)问题: 通常说来,CVR任务的参数量与CTR任务的参数 量规模相当;但是如果只使用点击数据训练CVR任务,其样本量将比CTR任务的样本量小 1~3个量级,导致CVR模型参数的更新必然是不充分的,进一步会影响线上效果。 另外,建模时,我们还需要考虑每个任务与场景最终目标的关系。以商家私域推荐为例,它 的目标是GMV,虽然它与CTR、CVR都强相关,但是这并不意味着我们应该分阶段独立预 估CTR和CVR。根据我们的实践经验,模型能做到CVR很高,即点击后商品的转化率很 高;但是我们发现商品本身的CTR却上不去,整体而言,用户的成交笔数本身却没有明显 的提升。事实上,我们建模时,应该从全局优化的角度出发,基于曝光(全)空间的建模则是 一个很好的切入点。
2. 全空间建模已有工作:ESMM模型
ESMM模型是阿里广告算法团队提出的首个同时解决SSB和DS问题的转户率预估模型。 具体而言,它基于用户行为路径“Impression→Click→Buy”建模,并引入了两个基于全空间 的辅任务: “Impression→Click”(CTR)和“Impression→Buy”(CTCVR)。这样,由CTR和CTCVR任 务推导而来的CVR任务也受益于全空间建模,保证了training空间与inference空间的一 致性,解决了SSB问题。
同时,ESMM借鉴了多任务学习的框架,让作为主任务的CVR网络和作为辅任务的CTR 网络共享底层Embedding。事实上,Embedding的参数规模主导了整个网络的参数量,它 依赖于数据规模同样很大的曝光样本,并生成较为准确的用户和商品的特征表达。 Embedding层的共享缓解了CVR任务正样本稀疏的现状,一定程度上解决了DS问题。 ESMM的模型结构图如下:
总之,ESMM模型将CTR、CVR、及CTCVR任务融入到一个统一的模型架构中,线上场 景可以结合自己的业务目标选择与之匹配的排序指标。精妙的模型结构同时解决了转化率预 估模型中普遍存在的SSB和DS两大关键性问题。
虽然ESMM模型的设计已经很精妙了,线上也取得了不错的业务效果。但是,当我们进一 步分析实际的业务数据后,发现ESMM模型还有进一步的优化空间。 1)ESMM模型对用户的行为路径建模过于简单,仅仅只考虑了“Impression→Click→Buy”。 事实上,用户的行为路径是十分复杂的,例如,用户点击商品后,可能不会直接购买,而是 先将商品加入购物车中,再通过购物车路径产生购买行为,这样该用户的行为路径就变成了 “曝光->点击->加购->购买”;那么,我们在建模过程中应该如何考虑用户更加真实且复杂的 行为路径呢?
2)根据业务数据分析发现,用户产生的购买正样本非常稀疏,例如从曝光到最后的购买, 往往在千分之几甚至万分之几的量级。正样本量的稀疏对转化率预估模型的构建提出了不小 的挑战。虽然ESMM模型借助于Embedding共享的技术一定程度上缓解了样本稀疏性的 问题,但是却不能直接解决购买样本天然缺乏的问题,一种较直接的解法是引入用户更多与 购买相关的反馈信息。事实上,我们发现,用户在点击商品详情页后,往往会发生很多与购 买行为强相关的post-click行为,例如加购、收藏行为等。那么,我们如何引入与用户购买 行为强相关的post-click行为进一步构建转化率预估模型呢?
3. ESM^2: 基于全空间的概率分解
3.1 ESM^2 建模动机
用户对商品的购买决策过程是非常复杂的,如下图(a)所示,例如,用户点击商品后,可能 先加入购物车,然后再通过购物车购买商品;又或者,用户点击商品后,先加入购物车,再 通过购物车打开商品详情页接着再加入收藏夹,最后通过收藏夹购买等;显然,用户从点击 到购买的行为路径是多样化的,而我们在建模时不可能枚举所有从点击到购买的行为路径。
事实上,我们可以在点击到购买路径中插入若干预先定义好的关键节点,例如加购(cart)、 收藏(wish)等,如上图(b)所示。例如,用户点击商品后,先加购再购买;或点击后,先收 藏再购买等。定义的关键节点简化了用户非常复杂的购买决策过程,同时又为建模提供了理 论上的可能性。值得一提的是,我们定义的关键节点需要同时满足如下3个特性:
1)这些节点自带用户直接的反馈信号,例如用户是否发生加购行为,是否发生收藏行为等
2)相比购买行为,这些节点对应的数据稀疏性问题能得到一定的缓解,例如从点击到购买 的转化率为2.5%,但是从点击到加购(收藏)的概率分别为8.3%(3.2%)。
3)关键节点与用户的购买行为强相关,例如,从加购到购买的概率为18.4%,从收藏到购 买的概率为6.3%等。
接着,我们再针对关键节点定义若干算子事件,而这些算子事件的作用在于对商品post-click 空间进行完备划分。例如,当关键节点是加购和收藏时,那么对post-click空间完备划分的 一种方案可以是 和与之对应的补集 ,如上图(c)所示。有了基于商品 post-click空间的完备划分,自然的,我们可以引入全概率的思想对转化率预估进行建模。假 设事件1 、 2 、 ... 、 为post-click空间的一种完备划分,从点击到事件发生的概率为, 且事件到购买的概率为,那么,post-clickCVR定义为: =1 ,其中 =1 =1。 接下去,我们以 和 作为post-click空间完备划为为例,推导post-click CVR的全概率建模过程。为了叙述方便,我们定义事件DAction代表事件 , OAction代表事件 ,如上图(d)所示。
3.2 转化率 CVR的全概率建模推导
首先,我们用符号 am代表商品的点击率,它代表图中路径Impression→Click,进一步可以数 学化为:
其中,我们用b代表b=1。另外,商品只有点击后才会有后续购买行为发生,所以,
。这样,基于全空间的用户行为图:I mpression→Click→DAction/Action→Buy被分解成Impression→Click和C lick→DAction/OAction→Buy。换句话说,根据链式法则,等式(4)集成了等式(1)和等式(3)的结果。
3.3 ESM^2 模型结构
根据上面的全概率公式推导发现:pi ctr、pi ctavr、pi ctcvr这三个基于全空间的辅助任务能由y1i、 y2i、y3i及y4i四个隐变量推导而来,而这4个隐变量分别代表了路径Impression→Click、 Click→DAction、DAction→Buy、OAction→Buy发生的条件概率。一方面,这4个隐变量 的训练全都是基于曝光样本得到的,以y2i为例,直接用Click→DAction的样本训练会产生 SSB问题,但是我们注意到y2i能由pi ctr和pi ctavr根据公式(2)推导而来,并且pi ctr和pi ctavr是基于 全空间建模的,这样推导而来的y2i也受益于全空间建模,消除了SSB问题。另一方面,三 个辅助任务pi ctr、pi ctavr、pi ctcvr的label很容易从用户行为日志中得到,三个辅助任务的引入 会帮助学习相关的4个隐变量的学习,而多个变量的学习可以借助于multi-task的框架。整个模型结构如下图所示:
模型解读:
1)整个模型结构上分为Input、SEM、DPM、SCM四个部分;Input为原始的One-hot编码 特征输入, SEM则将one-hot进行embedding编码表达,所有的4个子网络共享embedding。接 着DPM通过4个网络分别预估出4个隐变量的值;最后,SCM则根据上一节推导的概率公 式计算出pi ctr、pi ctavr、pi ctcvr及pi cvr的值,并配合上相应的label进行loss的计算。
2)用于建模1、2、3及4这4个隐变量的4个网络的输入都是曝光样本,这样由它们 推导而出的 bm也受益于全空间建模,解决了直接从点击到购买建模CVR带来的SSB问题
3)引入充足且与购买行为强相关的post-click行为,进一步缓解购买正样本稀疏的DS问题
3.4 ESM^2 模型实验结论
为了进一步评估ESM^2模型的效率,我们做了大量的离线和在线实验,对比的模型主要包 括GBDT、DNN、DNN-OS、ESMM。其中,DNN模型分别使用“曝光到点击”、“点击到购 买”的样本训练点击率(ctr)和转化率(cvr)模型,再将两个预估分相乘得到ctcvr分;DNN-OS 模型则针对“点击到购买”的样本进行了过采样,其他操作类似于DNN模型;ESMM则基于 用户行为序列“Impression→Click→Buy”训练多任务模型,同时得到ctr、cvr和ctcvr(ctr*cvr) 预估分。
离线实验结论:我们对比过AUC和F1分数, ESM^2模型效果表现均最好,例如相比ESMM 模型,在CVRAUC上提升0.0088。
离线AUC评估结果:
离线F1评估结果:
在线实验结论: ESM^2在所有的对比模型中,表现也是最好的。例如,相比之前最好的 ESMM模型,转化率提升超过3%。
ESM^2线上效果:
另外,我们还做了大量的Ablation实验,包括网络参数设置、post-click行为选取等,具体 实验结论如下:
网络参数设置实验:
post-click 行为选取:
4. 总结与展望
本文在ESMM模型的基础上,充分考虑到了用户点击后的 post-click行为,进一步地提出 了 ESM^2 模型,它建模用户行为路径时从传统的“Impression→Click→Buy”升级为 “Impression→Click→DAction/Action→Buy”,它缓解了SSB和DS问题,并且从离线/在线 实验来看,效果均好于其他相关的代表模型。后续工作将进一步围绕引入更加丰富的 post-click行为展开。
5. 参考文献
[1] Xiao Ma, Liqin Zhao, Guan Huang, Zhi Wang, Zelin Hu, Xiaoqiang Zhu, and Kun Gai. 2018. Entire space multi-task model: An effective approach for estimating post-click conversion rate. In T h e 4 1 s t I n t e r n a ti o n a l A C M S I G I R C o n f e r e n c e o n R e s e a r c h & D e v e l o p m e n t i n I n f o r m a ti o n R e tri e v a l . ACM, 1137 –1140.
[2] Hong Wen, Jing Zhang, Quan Lin, Keping Yang, and Pipei Huang. 2019. MultiLevel Deep Cascade Trees for Conversion Rate Prediction in Recommendation System. In P r o c e e d i n g s o f t h e A A A I C o n f e r e n c e o n A rtifi c i a l I n t e lli g e n c e .
[3] Yelong Shen, Xiaodong He, Jianfeng Gao, Li Deng, and Grégoire Mesnil. 2014. A latent semantic model with convolutional-pooling structure for information retrieval. In P r o c e e d i n g s o f t h e 2 3 r d A C M i n t e r n a ti o n a l c o n f e r e n c e o n c o n f e r e n c e o n i n f o r m a ti o n a n d k n o w l e d g e m a n a g e m e n t . ACM, 101–110.
[4] Yufei Feng, Fuyu Lv, Weichen Shen, Menghan Wang, Fei Sun, Yu Zhu, and Keping Yang. 2019. Deep Session Interest Network for Click-Through Rate Prediction. a r X i v p r e p ri n t a r X i v : 1 9 0 5 . 0 6 4 8 2 (2019).
[5] Guorui Zhou, Xiaoqiang Zhu, Chenru Song, Ying Fan, Han Zhu, Xiao Ma, Yanghui Yan, Junqi Jin, Han Li, and Kun Gai. 2018. Deep interest network for click-through rate prediction. In P r o c e e d i n g s o f t h e 2 4 t h A C M S I G K D D I n t e r n a ti o n a l C o n f e r e n c e o n K n o w l e d g e D i s c o v e r y & D a t a M i n i n g . ACM, 1059– 1068.
[6] Han Zhu, Junqi Jin, Chang Tan, Fei Pan, Yifan Zeng, Han Li, and Kun Gai. 2017. Optimized cost per click in taobao display advertising. In P r o c e e d i n g s o f t h e 2 3 r d A C M S I G K D D I n t e r n a ti o n a l C o n f e r e n c e o n K n o w l e d g e D i s c o v e r y a n d D a t a M i n i n g .
[7] Han Zhu, Xiang Li, Pengye Zhang, Guozheng Li, Jie He, Han Li, and Kun Gai. 2018. Learning Tree-based Deep Model for Recommender Systems. In P r o c e e d i n g s o f t h e 2 4 t h A C M S I G K D D I n t e r n a ti o n a l C o n f e r e n c e o n K n o w l e d g e D i s c o v e r y & D a t a M i n i n g . ACM, 1079–1088.
[8] Fuyu Lv, Taiwei Jin, Changlong Yu, Fei Sun, Quan Lin, Keping Yang, and Wilfred Ng. 2019. SDM: Sequential deep matching model for online large-scale recommender system. In P r o c e e d i n g s o f t h e 2 8 t h A C M I n t e r n a ti o n a l C o n f e r e n c e o n I n f o r m a ti o n a n d K n o w l e d g e M a n a g e m e n t . 2635–2643.
更多信息检索技术内容请查看:
独家下载!《SIGIR 顶会论文解读》电子书重磅发布