天天看點

學習筆記: Predicting Clicks: Estimating the Click-Through Rate for New Ads

計費方式

cost-per-click (CPC): the search engine is paid every time the ad is clicked by a user

cost-per-impression (CPI): where advertisers are charged according to the number of times their ad was shown

cost-per-action (CPA): where advertisers are charged only when the ad display leads to some desired action by the user, such as purchasing a product or signing up for a newsletter).

模型

文中采用LR模型

\[ CTR = \frac{1}{1+e^{-Z}} \]

\[ Z = \sum_i \omega_i f_i(ad) \]

其中$f_i(ad)$指ad的第i個feature, $\omega_i$指該特征對應的學習到的權重.

feature可以是任意給定的, 例如title中word的數量, 是否存在某個word等

特征工程

增加一個恒為1的bias feature

對每個feature $f_i$, 增加特征$f_i^2$ 和 $\log ( f_i + 1)$.   (+1的原因是避免出現$log(0)$, 例如count計數值特征) 

标準化: 均值為0, 标準差為1.(均值和标準差從訓練集計算得出, 然後用該均值、标準差對訓練集和測試集都進行标準化)

截斷異常值:任何超過5倍标準差的值被截斷

term CTR

第一個特征是其他具有相同bid terms的廣告的平均CTR(非現有廣告主)。如果是從沒有出現過的terms,在訓練集上計算這些terms的平均CTR,并平滑到總平均CTR

學習筆記: Predicting Clicks: Estimating the Click-Through Rate for New Ads

其中N(ad_term)指具有該term的廣告數,CTR(ad_term)指這些廣告的平均CTR,alpha指平滑的強度。

related term CTR

measure of performance

measure: 在測試集上,predicted CTR與true CTR間的平均KL散度

\[ KL = - \sum_k p_k \log (\frac{p^'_k} {p_k}) \]

baseline model : average CTR on the training set

模型以KL散度的提升百分比來評估, 所有的提升被證明是統計顯著的(p值<0.01)

此外還會額外展現一個metric: MSE 

估計ad quality

如果限制到某個term(如surgery), CTR的方差可能仍然很大, e.g. surgery的CTR最大值是平均值的5倍

對于影響使用者是否點選ad的因素, 文中假設有4大類影響因素:

外觀: 是否符合使用者審美

注意力擷取: 是否吸引使用者的注意

名聲: 廣告主是否是知名的品牌

落地頁品質: 落地頁的呈現在click行為之後, 假設許多clicks去向的是使用者已經熟知的廣告主(如Amazon, eBay). 于是, 落地頁品質可以作為一個隐含影響因素, 并且有可能造成多次重複通路, 當使用者尋找新産品時

相關性: ad與search query之間的相關性

度量order specificity

廣告主的一個order:

Title: Buy shoes now,

Text: Shop at our discount shoe warehouse!

Url: shoes.com

Terms: {buy shoes, shoes, cheap shoes}.

在某些時候, 一個order的指向範圍會更廣:

Title: Buy [term] now,

Text: Shop at our discount warehouse!

Url: store.com

Terms: {shoes, TVs, grass, paint}.

于是可以考慮度量Terms對CTR的影響, 文中是這麼做的:

用一個naive Bayes trigram classifier将terms分為74個category.

計算每一個order的entropy of the distribution of categories(?), 将其作為預測模型的一個feature.

同時也将一個order中term的數量作為一個feature加入模型

以上兩個feature統稱為order specificity, 加入後模型表現提升了5.5%

繼續閱讀