計費方式
cost-per-click (CPC): the search engine is paid every time the ad is clicked by a user
cost-per-impression (CPI): where advertisers are charged according to the number of times their ad was shown
cost-per-action (CPA): where advertisers are charged only when the ad display leads to some desired action by the user, such as purchasing a product or signing up for a newsletter).
模型
文中采用LR模型
\[ CTR = \frac{1}{1+e^{-Z}} \]
\[ Z = \sum_i \omega_i f_i(ad) \]
其中$f_i(ad)$指ad的第i個feature, $\omega_i$指該特征對應的學習到的權重.
feature可以是任意給定的, 例如title中word的數量, 是否存在某個word等
特征工程
增加一個恒為1的bias feature
對每個feature $f_i$, 增加特征$f_i^2$ 和 $\log ( f_i + 1)$. (+1的原因是避免出現$log(0)$, 例如count計數值特征)
标準化: 均值為0, 标準差為1.(均值和标準差從訓練集計算得出, 然後用該均值、标準差對訓練集和測試集都進行标準化)
截斷異常值:任何超過5倍标準差的值被截斷
term CTR
第一個特征是其他具有相同bid terms的廣告的平均CTR(非現有廣告主)。如果是從沒有出現過的terms,在訓練集上計算這些terms的平均CTR,并平滑到總平均CTR
![](https://img.laitimes.com/img/9ZDMuAjOiMmIsIjOiQnIsISPrdEZwZ1Rh5WNXp1bwNjW1ZUba9VZwlHdsATOfd3bkFGazxCMx8VesATMfhHLlN3XnxCMwEzX0xiRGZkRGZ0Xy9GbvNGLpZTY1EmMZVDUSFTU4VFRR9Fd4VGdsYTMfVmepNHLrJXYtJXZ0F2dvwVZnFWbp1zczV2YvJHctM3cv1Ce-cmbw5SZ2kDM5MGZzAzN5ETNyU2N3MDZwEDNhRTYjVWN2EWNl9CXzIzLcdDMxIDMy8CXn9Gbi9CXzV2Zh1WavwVbvNmLvR3YxUjL3M3Lc9CX6MHc0RHaiojIsJye.png)
其中N(ad_term)指具有該term的廣告數,CTR(ad_term)指這些廣告的平均CTR,alpha指平滑的強度。
related term CTR
measure of performance
measure: 在測試集上,predicted CTR與true CTR間的平均KL散度
\[ KL = - \sum_k p_k \log (\frac{p^'_k} {p_k}) \]
baseline model : average CTR on the training set
模型以KL散度的提升百分比來評估, 所有的提升被證明是統計顯著的(p值<0.01)
此外還會額外展現一個metric: MSE
估計ad quality
如果限制到某個term(如surgery), CTR的方差可能仍然很大, e.g. surgery的CTR最大值是平均值的5倍
對于影響使用者是否點選ad的因素, 文中假設有4大類影響因素:
外觀: 是否符合使用者審美
注意力擷取: 是否吸引使用者的注意
名聲: 廣告主是否是知名的品牌
落地頁品質: 落地頁的呈現在click行為之後, 假設許多clicks去向的是使用者已經熟知的廣告主(如Amazon, eBay). 于是, 落地頁品質可以作為一個隐含影響因素, 并且有可能造成多次重複通路, 當使用者尋找新産品時
相關性: ad與search query之間的相關性
度量order specificity
廣告主的一個order:
Title: Buy shoes now,
Text: Shop at our discount shoe warehouse!
Url: shoes.com
Terms: {buy shoes, shoes, cheap shoes}.
在某些時候, 一個order的指向範圍會更廣:
Title: Buy [term] now,
Text: Shop at our discount warehouse!
Url: store.com
Terms: {shoes, TVs, grass, paint}.
于是可以考慮度量Terms對CTR的影響, 文中是這麼做的:
用一個naive Bayes trigram classifier将terms分為74個category.
計算每一個order的entropy of the distribution of categories(?), 将其作為預測模型的一個feature.
同時也将一個order中term的數量作為一個feature加入模型
以上兩個feature統稱為order specificity, 加入後模型表現提升了5.5%