開發者學堂課程【MaxCompute 行業應用及調優:基于 MaxCompute 建構 Noxmobi 全球化精準營銷系統】學習筆記,與課程緊密聯系,讓使用者快速學習知識。
課程位址:
https://developer.aliyun.com/learning/course/88/detail/1346基于 MaxCompute 建構 Noxmobi 全球化精準營銷系統
内容簡介:
一、行業及公司背景介紹
二、廣告業務和系統
三、相關技術及 MaxCompute 應用
四、遇到的問題
數字營銷含義:
全球廣告市場規模約6000億,其中約30%為網際網路和移動網際網路廣告。
數字營銷、網際網路廣告、線上廣告、計算廣告、程式化廣告……。解決如何在網際網路媒體上投放廣告的問題。
廣告主(需求方) :如何成本更低,效果更好。效果如何定義,品牌 or 效果媒體(供應方) :如何收益更高,長期or短期。
中間商:連接配接供需,賺差價.規模效應和壟斷。
數字營銷,應用最新的網際網路技術來提高效率。
廣告主:減少浪費,讓最合适的人看到廣告。
媒體:把廣告位賣給最需要的人。
中間商:高效撮合交易。
廣告業務的主要流程,廣告系統的架構和我們的演進過程。
相關技術應用介紹:流式計算、高線計算、标簽抽取、Targeling、CTR 規估、Pacing。
相關技術介紹
(一)流式計算 Spark Streaming 應用
主要解決實時報表和部分實時特征的計算問題
1、要求:
必須穩定,7x24小時
可按受秒級延遲
可根招吞吐量橫向擴充
存在高要全球聚合的任務
2、方案:
Spark Streaming +Kata + Rds +Redis
原始日志壓縮流式回傳
中心節點部署,友善開發
3、問題:
穩定性和擴充性都高度依賴高速通道
(二)離線計算 MaxCompute 應用
解決各類資料計算問題,BI資料、廣告報表、反作弊、标簽抽取、特征資料計算、統一 使用者辨別、爬蟲資料處理等。
從自建 Hadoop 叢集,到EMR按量付費叢集,再到 MaxCompute.
優勢:
再也不用運維叢集了
計算速度更快
真正按量付費,成本大幅降低
SQL 開發效事高、調試友善,資料足夠
有一個還行的排程系統
直接享受大公司待遇
資料導入導出方案:
優先用資料同步服務,流式資料用 sdk ,實在不行就寫腳本+tunnel
(三)特征計算和标簽抽取
大部分特征和标簽使用 SQL 計算
定義特征,最近-周内活躍天數, 則有0~7的取值定義标簽規則,例如:
一周内活躍天、1天、2~3天、 4~5天、 6-7天的分别是不活躍、低活躍、中活躍、高活躍、極高活躍使用者。
做好定義,然後就是展現SQL技巧的時候了
多用 with,注意代碼風格
優先使用内建函數,無法滿足的時候考慮使用 UDF、UDAF. UDTF,還不行或者跑的太慢的時候使用 MapReduce,比如對一大批特征做等頻高散化。
向未實作平台化,還需寫代碼,好像有個服務能實作上面的功能,待試用
(四)Targeting
相對于把特征輸入模型而言,标簽式 Targeting 主要是
友善人來操作,使用投放人的經驗來優化。
Look-alike 方式的定向為尋找相似的人,種于使用者為正
例,從所有使用者中找到正例機率較大的人群。
(五)Ctr預估
預估轉化事,可能是 ctr. CVT 或 ctr'cvr 等
Ecpma ctr* price
Ecpm 為本次廣告展現的收益期望值,将指導絕大部分投放相關政策。
Online model
Deep leaming
(六)Pacing
不止考慮單次展現的收益,而要在單次競價時考慮對
全局收益的影響。
通過對流量分層和分時的統計和預估,用數學方法來
保證收益最大化。
方案來源于 Yahoo
在實踐中遇到了一些問題,有一些解決了,有一些還沒有全球化部署。