天天看點

【SPA大賽】SPA大賽資料探索與解題思路

本次騰訊社交廣告算法大賽以移動app廣告轉化率預估為背景,以移動App廣告為研究對象,預測App廣告點選後被激活的機率:

【SPA大賽】SPA大賽資料探索與解題思路

,即給定廣告、使用者和上下文情況下廣告被點選後發生激活的機率。由于我是一個資料挖掘比賽的新人,是以我就說一下我參加比賽的體驗吧,和我們的一些結題思路吧。

1.每天的互動行為即點選數、安裝次數即轉化數、轉化率(如下2圖):

【SPA大賽】SPA大賽資料探索與解題思路
【SPA大賽】SPA大賽資料探索與解題思路

2.每天出現的使用者數量、app數量、app種類數量(如下3圖):

【SPA大賽】SPA大賽資料探索與解題思路
【SPA大賽】SPA大賽資料探索與解題思路
【SPA大賽】SPA大賽資料探索與解題思路

等等,資料的初始分析讓我們更好地了解資料的分布,加深對賽題的了解。

ID類特征,統計特征,基于業務的特征以及一些trick。

ID類特征:

1.年齡 2.性别 3.平台 4.聯網方式

以上的特征都采取one-hot編碼

統計特征:

1.使用者 2.素材 3.app 4.廣告主 5.廣告位 6.站點集合 7.聯網方式 8.營運商

以上特征分别計算點選數,下載下傳數,下載下傳率

基于業務的特征:

1.重複點選的情況

2.不同年齡段重複點選的下載下傳率

一些trick:

本題是一個使用者下載下傳率的問題,下載下傳的主體是客戶,是以要做細使用者的特征,但由于每一天新使用者(這裡的新使用者是指之前沒有發生過互動行為的使用者)占了很大的比重,是以之前對使用者做的一些統計特征會變的很稀疏,起不到什麼作用。但從業務的角度,當一個使用者對某個APP發 生了多次點選行為,這個使用者就會有更大的可能性會下載下傳,是以我們可以利用這種業務的情況來做一些統計特征。舉一個例子,之前對使用者的年齡做統計特征時,發 現各個年齡段的使用者的下載下傳率都差不多相同,但對重複點選的這種行為做統計後就可以發現,不同年齡段的人下載下傳率就會有比較大的差異,年齡比較小的人多次點選 的下載下傳率就比較高,年齡比較大的人多次點選的下載下傳率就比較低。其它的一些特征也是如此。

TRAIN SET:24、25、26、27、28

VAL SET:29

TEST SET:31

單模型:

Xgboost,LightGBM,GBDT,RF,LR等等我們都嘗試過。

目前來看基于我們提取的特征,單模型Xgboost效果會好點。

模型融合:

目前我們正在嘗試stacking的方式,其基本思路與方法為:

訓練過程:

【SPA大賽】SPA大賽資料探索與解題思路

預測過程:

【SPA大賽】SPA大賽資料探索與解題思路

最後感謝一下大賽的主辦方,為我們提供了一個鍛煉并提升自己的機會!