SIGIR'22「微軟」CTR估計：利用上下文資訊促進特征表征學習

關注我們，一起學習~

title：Enhancing CTR Prediction with Context-Aware Feature Representation Learning

link：https://arxiv.org/pdf/2204.08758.pdf

code: https://github.com/frnetnetwork/frnet

from: SIGIR 2022

1. 導讀

本文考慮點選率預估中，特征表征與上下文（context）之間的關系，提出特征細化網路FRNet，該子產品在不同上下文中為每個特征學習位級别（bit-level）的上下文感覺特征表征。FRNet 由兩個關鍵元件組成：

1）資訊提取單元（IEU），它捕獲上下文資訊和交叉特征關系，以指導上下文感覺的特征細化；
2）互補選擇門（CSGate），它自适應地将在 IEU 中學習的原始和互補特征表征與位級權重相結合。

FRNet是一個子產品，可以與其他ctr模型結合來提升性能。對于CTR的基模型的基礎流程這裡不再贅述，想了解的小夥伴可以前往論文的第三章閱讀。

2. 方法

image.png

2.1 資訊提取單元IEU

IEU 由三個基本元件組成：1) Self-Attention 單元，用于捕獲同時出現的特征之間的顯式交叉特征關系；2）上下文資訊提取器（CIE），對不同的上下文資訊進行編碼；3）內建單元，內建來自Self-Attention單元和CIE的資訊。将兩個 IEU 分别用于 𝐼𝐸𝑈𝑊 學習位級權重，𝐼𝐸𝑈𝐺 産生互補的特征表征。

2.1.1 自注意力單元

其中自注意力單元為正常的自注意力計算，結構如圖2b所示，這裡不贅述，總體可以表示為

Q_{vec}=Attention(Q,K,V)W^P

。自注意力機制可以通過捕獲所有特征對之間的交叉特征關系來細化不同上下文下的特征表征，進而實作部分上下文感覺的特征表征學習。然而，自注意力僅利用了由成對特征互動表征的部分上下文資訊，是以無法利用完整的上下文資訊來指導特征細化。

2.1.2 上下文資訊提取CIE

每個執行個體中的上下文資訊都隐含在所有特征中。是以，需要確定所有特征都對每個執行個體中的上下文資訊有貢獻。由于上下文資訊通常不是很複雜，是以采用MLP提取。首先将原始特征表征拼接為

E_{con}

作為輸入，每層的MLP表示如下，

h_0=E_{con}

，

h_{l+1}=PReLU(W_lh_l+b_l)

最後一層隐藏層将次元映射到d維（即拼接前各個向量的次元），得到下式，由于

O_{bit}

壓縮了來自

E_{con}

的所有資訊，是以它可以表示特定執行個體中的上下文資訊。上下文資訊

O_{bit}

對于每個執行個體都是唯一的，因為不同的執行個體包含不同的特征。

O_{bit}=PReLU(W_Lh_L+b_L)

2.1.3 內建單元

經過上述兩個部分得到

O_{vec}

和

O_{bit}

後，進行逐元素權重，公式如下，確定每個特征在不同的執行個體中可以有顯着不同的表征。

O_{IEU}=O_{vec} \odot O_{bit}

如圖2a所示，使用兩個獨立的IEU分别學習權重

W_b

和補充特征

E_g

，表示如下，

E_g=IEU_G(E),W_b=IEU_W(E)

2.2 互補選擇門CSGate

在 CSGate 中，設計了一種新穎的門機制來控制資訊流，并從具有位級權重的原始和互補特征中選擇重要資訊。如圖 2 (a) 所示，CSGate 有三個不同輸入：1) 互補特征表征

E_g

；2) 權重矩陣

W_b

；3) 原始特征表示E。CSGate 的輸出是上下文感覺特征表示，公式如下，σ為sigmoid函數，

\mathbf{E}_{\mathbf{r}}=\underbrace{\mathbf{E} \odot \sigma\left(\mathbf{W}_{\mathbf{b}}\right)}_{\text {Selected features }}+\underbrace{\mathbf{E}_{\mathbf{g}} \odot\left(1-\sigma\left(\mathbf{W}_{\mathbf{b}}\right)\right)}_{\text {Complementary features }}

3. 結果