天天看點

【實習總結】百度小視訊政策--推薦算法實習生

終于結束了在百度的實習,想想真滴是累,天天11點才回到宿舍,出個問題整個周末就沒了。唉,不過也總歸是有些收獲。

這個部落格就稍微講講整個組推薦系統的架構吧(應該所有市面上的推薦系統都大緻是這個樣子,不過裡面的具體政策就略過啦)

般推薦都分為召回側和排序側,召回側通過各種政策對視訊進行打分篩選,例如對于一個使用者和多個視訊而言,可以關注的點為:該使用者對視訊的興趣;視訊相似度、dnn計算得分、協同過濾、matchnet等等,這裡的每一個政策都要求是簡單并且時間複雜度低的,因為對于一個請求而言,在召回側需要處理所有待分發的視訊,故結構應該盡量簡單。

接下來是排序側,排序首先就需要經過粗排和精排兩個部分,粗排的邏輯是将召回傳回的視訊打分,輸出給精排幾百條視訊;精排的邏輯是将粗排傳回的視訊打分,傳回10條視訊,這裡的10對應在app上每一刷出10個視訊。當然過了精排還不夠,例如雖然一個人非常喜歡美女,但不能刷一次推薦的10條視訊全是美女,是以每一個推薦系統都會加入多樣性的子產品,保證每一刷推薦視訊的豐富度以及類别散度。過了多樣性後,最後一個子產品是生态塊,這一塊主要是一些可持續發展的政策,比如要有新視訊提權、優質作者提權的政策。在多樣性和生态這兩塊主要做的就是一些視訊的替換,至此,我們這一塊要知道的推薦就完了,當然還有一些資料來源啊、日志落盤等等,都存在于上述子產品的上下遊,我也不是特别了解。

那具體還有一些問題,比如粗排和精排的具體模型結構是什麼,為什麼既有粗排也有精排等等,這些問題就留給大家自己去考慮啦

繼續閱讀