天天看點

基于内容和使用者畫像的個性化推薦

目前比較流行的個性化推薦算法有以下幾種:

基于内容的推薦:根據内容本身的屬性(特征向量)所作的推薦。

基于關聯規則的推薦:“啤酒與尿布”的方式,是一種動态的推薦,能夠實時對使用者的行為作出推薦。是基于物品之間的特征關聯性所做的推薦,在某種情況下會退化為物品協同過濾推薦。

協同過濾推薦:與基于關聯規則的推薦相比是一種靜态方式的推薦,是根據使用者已有的曆史行為作分析的基礎上做的推薦。可分為物品協同過濾、使用者協同過濾、基于模型的協同過濾。其中,基于模型的協同又可以分為以下幾種類型:基于距離的協同過濾;基于矩陣分解的協同過濾,即Latent Factor Model(SVD)或者ALS;基于圖模型協同,即Graph,也叫社會網絡圖模型。

本文所講述的基于内容和使用者畫像的個性化推薦屬于第一種。對于此種推薦,有兩個實體:内容和使用者,是以需要有一個聯系這兩者的東西,即為标簽。内容轉換為标簽即為内容特征化,使用者則稱為使用者特征化。對于此種推薦,主要分為以下幾個關鍵部分:

标簽庫

内容特征化

使用者特征化

隐語義推薦

綜合上面講述的各個部分即可實作一個基于内容和使用者畫像的個性化推薦系統。如下圖所示:

标簽是聯系使用者與物品、内容以及物品、内容之間的紐帶,也是反應使用者興趣的重要資料源。标簽庫的最終用途在于對使用者進行行為、屬性标記。是将其他實體轉換為計算機可以了解的語言關鍵的一步。

标簽庫則是對标簽進行聚合的系統,包括對标簽的管理、更新等。

一般來說,标簽是以層級的形式組織的。可以有一級次元、二級次元等。

标簽的來源主要有:

已有内容的标簽

網絡抓取流行标簽

對營運的内容進行關鍵詞提取

對于内容的關鍵詞提取,使用結巴分詞 + TFIDF即可。此外,也可以使用TextRank來提取内容關鍵詞。

這裡需要注意的一點是對于關聯标簽的處理,比如使用者的标簽是足球,而内容的标簽是德甲、英超,那麼使用者和内容是無法聯系在一起的。最簡單的方式是人工設定關聯标簽,此外也可以使用word2vec一類工具對标簽做聚類處理,建構主題模型,将德甲、英超聚類到足球下面。

内容特征化即給内容打标簽。目前有兩種方式:

人工打标簽

機器自動打标簽

針對機器自動打标簽,需要采取機器學習的相關算法來實作,即針對一系列給定的标簽,給内容選取其中比對度最高的幾個标簽。這不同于通常的分類和聚類算法。可以采取使用分詞 + Word2Vec來實作,過程如下:

将文本語料進行分詞,以空格,tab隔開都可以,使用結巴分詞。

使用word2vec訓練詞的相似度模型。

使用tfidf提取内容的關鍵詞A,B,C。

周遊每一個标簽,計算關鍵詞與此标簽的相似度之和。

取出TopN相似度最高的标簽即為此内容的标簽。

此外,可以使用文本主題挖掘相關技術,對内容進行特征化。這也分為兩種情況:

通用情況下,隻是為了效果優化的特征提取,那麼可以使用非監督學習的主題模型算法。如LSA、PLSI和GaP模型或者LDA模型。

在和業務強相關時,需要在業務特定的标簽體系下給内容打上适合的标簽。這時候需要使用的是監督學習的主題模型。如sLDA、HSLDA等。

使用者特征化即為使用者打标簽。通過使用者的行為日志和一定的模型算法得到使用者的每個标簽的權重。

使用者對内容的行為:點贊、不感興趣、點選、浏覽。對使用者的回報行為如點贊賦予權值1,不感興趣賦予-1;對于使用者的浏覽行為,則可使用點選/浏覽作為權值。

對内容發生的行為可以認為對此内容所帶的标簽的行為。

使用者的興趣是時間衰減的,即離目前時間越遠的興趣比重越低。時間衰減函數使用1/[log(t)+1], t為事件發生的時間距離目前時間的大小。

要考慮到熱門内容會幹預使用者的标簽,需要對熱門内容進行降級。使用click/pv作為使用者浏覽行為權值即可達到此目的。

此外,還需要考慮噪聲的幹擾,如标題黨等。

另,在非業務強相關的情況下,還可以考慮使用LSA主題模型等矩陣分解的方式對使用者進行标簽化。

有了内容特征和使用者特征,可以使用隐語義模型進行推薦。這裡可以使用其簡化形式,以達到實時計算的目的。

使用者對于某一個内容的興趣度(可以認為是CTR):

其中i=1…N是内容c具有的标簽,m(ci)指的内容c和标簽i的關聯度(可以簡單認為是1),n(ui)指的是使用者u的标簽i的權重值,當使用者不具有此标簽時n(ui)=0,q©指的是内容c的品質,可以使用點選率(click/pv)表示。

原文出處:後端技術雜談

<a href="http://www.rowkey.me/blog/2016/04/07/up-recommend/" target="_blank">原文連結</a>

轉載請與作者聯系,同時請務必标明文章原始出處和原文連結及本聲明。

繼續閱讀