SIGIR'22「微软」CTR估计：利用上下文信息促进特征表征学习

关注我们，一起学习~

title：Enhancing CTR Prediction with Context-Aware Feature Representation Learning

link：https://arxiv.org/pdf/2204.08758.pdf

code: https://github.com/frnetnetwork/frnet

from: SIGIR 2022

1. 导读

本文考虑点击率预估中，特征表征与上下文（context）之间的关系，提出特征细化网路FRNet，该模块在不同上下文中为每个特征学习位级别（bit-level）的上下文感知特征表征。FRNet 由两个关键组件组成：

1）信息提取单元（IEU），它捕获上下文信息和交叉特征关系，以指导上下文感知的特征细化；
2）互补选择门（CSGate），它自适应地将在 IEU 中学习的原始和互补特征表征与位级权重相结合。

FRNet是一个模块，可以与其他ctr模型结合来提升性能。对于CTR的基模型的基础流程这里不再赘述，想了解的小伙伴可以前往论文的第三章阅读。

2. 方法

image.png

2.1 信息提取单元IEU

IEU 由三个基本组件组成：1) Self-Attention 单元，用于捕获同时出现的特征之间的显式交叉特征关系；2）上下文信息提取器（CIE），对不同的上下文信息进行编码；3）集成单元，集成来自Self-Attention单元和CIE的信息。将两个 IEU 分别用于 𝐼𝐸𝑈𝑊 学习位级权重，𝐼𝐸𝑈𝐺 产生互补的特征表征。

2.1.1 自注意力单元

其中自注意力单元为常规的自注意力计算，结构如图2b所示，这里不赘述，总体可以表示为

Q_{vec}=Attention(Q,K,V)W^P

。自注意力机制可以通过捕获所有特征对之间的交叉特征关系来细化不同上下文下的特征表征，从而实现部分上下文感知的特征表征学习。然而，自注意力仅利用了由成对特征交互表征的部分上下文信息，因此无法利用完整的上下文信息来指导特征细化。

2.1.2 上下文信息提取CIE

每个实例中的上下文信息都隐含在所有特征中。因此，需要确保所有特征都对每个实例中的上下文信息有贡献。由于上下文信息通常不是很复杂，因此采用MLP提取。首先将原始特征表征拼接为

E_{con}

作为输入，每层的MLP表示如下，

h_0=E_{con}

，

h_{l+1}=PReLU(W_lh_l+b_l)

最后一层隐藏层将维度映射到d维（即拼接前各个向量的维度），得到下式，由于

O_{bit}

压缩了来自

E_{con}

的所有信息，因此它可以表示特定实例中的上下文信息。上下文信息

O_{bit}

对于每个实例都是唯一的，因为不同的实例包含不同的特征。

O_{bit}=PReLU(W_Lh_L+b_L)

2.1.3 集成单元

经过上述两个部分得到

O_{vec}

和

O_{bit}

后，进行逐元素加权，公式如下，确保每个特征在不同的实例中可以有显着不同的表征。

O_{IEU}=O_{vec} \odot O_{bit}

如图2a所示，使用两个独立的IEU分别学习权重

W_b

和补充特征

E_g

，表示如下，

E_g=IEU_G(E),W_b=IEU_W(E)

2.2 互补选择门CSGate

在 CSGate 中，设计了一种新颖的门机制来控制信息流，并从具有位级权重的原始和互补特征中选择重要信息。如图 2 (a) 所示，CSGate 有三个不同输入：1) 互补特征表征

E_g

；2) 权重矩阵

W_b

；3) 原始特征表示E。CSGate 的输出是上下文感知特征表示，公式如下，σ为sigmoid函数，

\mathbf{E}_{\mathbf{r}}=\underbrace{\mathbf{E} \odot \sigma\left(\mathbf{W}_{\mathbf{b}}\right)}_{\text {Selected features }}+\underbrace{\mathbf{E}_{\mathbf{g}} \odot\left(1-\sigma\left(\mathbf{W}_{\mathbf{b}}\right)\right)}_{\text {Complementary features }}

3. 结果