天天看點

認知推薦:基于LLM的首頁推薦新範式

現代電商推薦系統的基本思想,是基于使用者的需求和喜好來推薦使用者可能感興趣的商品,但容易讓使用者老是看到差不多類型的東西,感覺像被困在一個小圈子裡,看不到新鮮玩意兒,這就是常說的“資訊繭房”。網購過程中的“使用者-商品”基本特點表現為類目聚集度高,且底池更新頻率相比于其它内容産品的頻率較低,進一步加劇推薦分發的類目集中程度,最終導緻不少使用者提出疑問:“為什麼推我看過的東西?”

經過廣泛調研和嘗試,淘天集團算法技術團隊發現具備強大的推理能力和通用世界知識的LLM(大語言模型)可以作為突破“資訊繭房”的有效工具。算法團隊建構了協同過濾+認知推薦的雙循環推薦系統,前者負責準确定位,後者負責提升體驗。在認知推薦的系統中,算法團隊通過LLM建構認知召回新範式,這類的召回基于對世界認知的了解,對使用者需求的了解,存在天然的可解釋性,是“意料之外,情理之中”的具有發現性的“猜你喜歡”。在後續鍊路,算法團隊通過工程開發實作了協同過濾和認知推薦的鍊路分離,具有發現性的商品比例有所提升。随着LLM不斷增強對使用者興趣商品的學習,推薦商品準确度有效提升,使用者體驗變好了,更多使用者選擇下滑浏覽,同時使用者次日來訪和長期來訪的比例有所增長。

認知推薦:基于LLM的首頁推薦新範式

在這個例子中,基于“協同過濾”的推薦系統會大力推薦使用者點選過的相似商品,使用者看到後再次點選,會逐漸加劇閉環,導緻看到的東西越來越相似;基于“認知推薦”的系統會根據世界知識(快到兒童節了)和推理能力(家有兒童,使用者有大促比價的習慣,推薦618期間推兒童反季羽絨服)增加了驚喜好物,而産生的新的點選會讓資料分布更加擴散、資料循環更加健康。

本文重點講述淘天集團算法技術團隊在淘寶App首頁猜你喜歡場景(以下簡稱“首猜”)召回側的工作,即如何讓首猜通過LLM的模型能力,增加具有發現性的召回商品。

認知推薦:基于LLM的首頁推薦新範式

認知召回主要子產品流程:DoR --> RecGPT --> Retrieve Model,各個子產品的分工如下:

· DoR(Description of Requirement) Model:依托大模型的社會/世界知識,根據使用者固定畫像和曆史購物情況生成認知畫像

· RecGPT:結合DoR生成思維鍊和自我提問,利用線上回報資料、外部熱點資訊等方法,請求推薦大模型,并最終産出使用者意圖示簽

· Retrieve Model:根據RecGPT擷取的使用者意圖檢索意願商品,其中包括向量檢索和結合搜尋服務等多種檢索方式

1. DoR 認知畫像模型

在推薦系統裡表示一個使用者,出于隐私保護,會用比較粗糙的人群畫像特征。比如,把使用者在淘寶裡送出的資料,如生日、性别、所在省市、家庭成員、寵物等資訊,用文本串聯起來就構成了使用者的簡易畫像,示例如下:

使用者畫像:40-45歲的已婚女性,現居住在廣東省。養寵物。家有15-18歲女孩子。

除了以上的靜态畫像,使用者的很多習慣、興趣會蘊含在平台購物中,這些習慣、興趣會幫助算法團隊更好地了解使用者、服務使用者。

1.1. 短期認知畫像

先從使用者的短期購物情況出發,從商品标題、品類文本、搜尋字元串的語義入手,對使用者購買進行組合解析,經過大模型CoT,得到推理結果,再經過曆史先驗、行為後驗和準入規則,最終得到使用者的短期購物興趣傾向,将從偏好商品類别、偏好品牌或IP、偏好商品屬性、推測興趣愛好和推測使用場景這5個方向歸類,避免模型過于發散,以求達到對标簽産出的“可解析性”、“粒度控制”和“降低幻覺”的品質保障。整個過程的流程圖如下:

認知推薦:基于LLM的首頁推薦新範式

短期認知畫像建立流程

以使用者搜尋詞為例,大模型給出的短期畫像和理由如下:

認知推薦:基于LLM的首頁推薦新範式

1.2. 長期認知畫像

長期認知畫像是對短期畫像的提取和歸納。相對于短期畫像的易變性,長期畫像追求穩定、準确,是以需要更為嚴謹的推理過程和置信分參考。是以,算法團隊會周期性地分析使用者短期購物情況,通過頻次驗證、周期性驗證、長效性驗證、多源交叉驗證作為長期畫像的準入條件,維護使用者長期畫像的标簽池,再結合疊代置信分作标簽的準入和退場。

認知推薦:基于LLM的首頁推薦新範式

長期認知畫像建立流程

通過長短期認知畫像的建立,DoR部分将得到極大程度的補充描述,對于使用者的曆史和目前狀态有更進一步的了解,友善為後續RecGPT部分提供充足的畫像資訊。當下使用者畫像的示例為:

使用者畫像:40-45歲的已婚女性,現居住在廣東省。養寵物。家有15-18歲女孩子。

認知長期畫像:使用者是高品質生活追求者,中高收入職業,注重生活品質、舒适感和美感,追求獨特和高端的生活體驗。

認知短期畫像:使用者目前可能有搬家、新房裝修的需求,近三天在搜尋高品質家電和智能家居産品,推測使用者追求高品質、舒适健康和科技感的生活方式。

2. RecGPT 使用者标簽預測

假定算法團隊已經有一個具備足夠商品常識、能夠完全了解使用者詢問的LLM。一個最為簡單的Prompt格式:

“因為使用者購買了Item,是以ta還有可能會購買Tag”

大模型能夠根據某個或某些特定購物路徑,來為這名使用者推斷出合适的使用者發現性意圖示簽(對應上述的 Tag )。算法團隊做了兩版RecGPT,第一版基于挖掘角度的豐富性,給出相應商品标簽;第二版基于線上資料回報的真實性,給出高效率的商品标簽。這兩個工作相輔相成,都線上上落地。

2.1. 基于挖掘角度的豐富性

這部分工作基于“因為使用者購買了xx,是以ta還有可能會購買xx”想法的樸素拓展,充分利用LLM思維鍊的能力,增強預測結果的豐富性和準确性。

認知推薦:基于LLM的首頁推薦新範式

基于使用者行為擴充的RecGPT

上圖詳述了标簽生成的過程。簡化的商品标題被拼入構造好的Prompt模版中,模型基于思維鍊先後預測出商品介紹文本,挖掘可能的推薦角度,對于每個推薦角度推理出合适的商品與推薦理由。

在這一設計中,需要LLM具備足夠的商品世界知識、常識推理、語義推理等能力,其中多數推理需要基于對品牌、商品屬性具備足夠的了解。為此,算法團隊設計構造了上述幾類任務的MFT (Multi-task Finetuning 多任務微調) 樣本集。進一步地,算法團隊為模型的 MFT 引入了課程學習 (Curriculum Learning) 的訓練方式:基于任務難度和任務對模型能力需求的前後順序,對子任務樣本進行拓撲排序,為大模型的訓練方式提供了一種新的可選方式。訓練産出的 LLM checkpoint 經過首猜線上回報樣本構造資料 SFT 後,可以一定程度上滿足任務需求(人工評測合理性 > 90%,标簽寬度 > 9)。

2.2. 基于線上資料回報的高效性

雖然認知推薦重點在做發現性,但發現性不等于瞎猜,算法團隊需要給出“意料之外,情理之中”的結果,這就不得不依賴線上資料給出的真實回報。給使用者曝光的發現性商品,如果使用者對其中某些進行了點選購買,那麼這将是一個正回報信号,算法團隊将其納入作為大模型推理的樣本資料,進而提升模型給出标簽的高效性。

2.2.1. 相關性過濾

在這部分工作中,資料清洗是重中之重。算法團隊首先過濾出首猜場景使用者的發現性點選,但是這些發現性點選不一定都是可以由大模型推理出來的,比如使用者誤點選或者僅僅是因為好奇點選了某個商品,這種突發信号并不适合作為模型的樣本。是以緊接其後,算法團隊專門訓練了一個相關性模型,用于給RecGPT挑選樣本:

使用者互動商品曆史:

大容量男士保溫杯簡約學生專用新款

大容量運動水杯男生夏天耐高溫便攜健身水壺

漢世劉家加厚大号垃圾袋家用商用實惠裝

英科紫色丁腈手套無粉食品級專用

xxx

互動的商品為:塑膠收納筐

{

“解釋”:“使用者的畫像顯示她是一位已婚女性,偏好居家用品、收納等。使用者互動的商品主要關注于居家用品、廚衛用品等方面。互動的商品,即塑膠收納筐,直接符合了使用者對收納和居家用品的偏好。是以,可以認為使用者點選塑膠收納筐這一行為與其上下文是高度相關的。",

"點選和上下文是否相關":"是”

}

最終統計發現,在首猜的使用者發現性點選中,有73%是具有相關性的。這個比例說明,使用者每日的首猜點選行為中,有30%可能是随機的、突發的、無法通過系統得到合理預測的,而約70%是算法團隊可以通過使用者畫像、過往曆史、目前環境等推理出來的,這70%即是LLM推理的上限。

2.2.2. 預測下一個發現性點選的商品标題

使用者按時間順序浏覽、點選後形成的資料,與自然語言一樣具有時序性。如果預測使用者下一個會點選的發現性商品的标題,訓練的目标函數可以為自回歸式地預測下一個點選的商品,這與LLM的預訓練的任務是高度相似的。在inference時,可以通過使用者畫像和之前的點選對下一個商品的标題進行預測。這種方式的好處是通過LLM将使用者的購物路徑進行模組化,幫助模型了解使用者購物興趣喜好,巧妙地将推薦的召回轉化為使用者購物邏輯的模組化。

在過濾出的73%相關性的樣本上,算法團隊建構基于使用者回報的下一個點選商品标題預測的prompt如下:

使用者畫像互動商品曆史:

大容量男士保溫杯簡約學生專用新款

大容量運動水杯男生夏天耐高溫便攜健身水壺

漢世劉家加厚大号垃圾袋家用商用實惠裝

英科紫色丁腈手套無粉食品級專用

xxx

推薦結果:

“因為使用者偏好收納且關注居家用品,是以還會購買[塑膠收納筐]”

訓練模型使用約3萬條資料進行sft。離線評測算法團隊采用了葉子類目hitrate來評估。在首猜發現性任務中,預測使用者下一個點選的短标題,對比沒有采用線上回報資料的模型,葉子類目的命中率提高了80%。

目前算法團隊已上線預測使用者在首猜的下一個發現性點選商品的短标題的任務,替換并對比沒有采用線上回報資料的模型,該路召回的CTR提高了12%。

3. Retrieve Model 商品檢索

在得到RecGPT的标簽後,下一步将是挂品。算法團隊線上實作了三路召回,分别是:查表 (tag2i)、搜尋服務調用 (seer)、向量召回 (im)。以im為例,這一路召回基于RecGPT的推理tag,調用打分服務進行打散截斷,最終取top 20去請求向量召回模型。向量召回的模型圖如下:

認知推薦:基于LLM的首頁推薦新範式

向量召回模型IM

算法團隊對向量模型做了以下優化:

· 全域發現性樣本優化:在樣本中混入全域的發現性點選,增強模型對于發現性的打分準度,在首猜發現性集合上hitrate有所提升

· 同類目困難負樣本優化:對每條樣本增加7個同類目的商品作為難負樣本,額外增加loss

目前線上采用的是同類目難負采樣的模型,發現性成交筆數提升了1%。

認知推薦:基于LLM的首頁推薦新範式

淘天集團算法技術團隊從首猜的實際問題出發,找到了大模型和首猜發現性的一些結合點,探索了一條基于LLM的認知召回方法來優化淘寶首頁商品推薦的發現性,全鍊路地完成了召回側、排序側的優化,最終線上上觀察到長期名額的持續正向。其中,人均發現性曝光類目數得到快速提升,發現性點選類目數得到較大提升,這說明發現性不僅出得更多了,也更好了。但同時,也必須指出,目前的工作還有非常大的優化空間,算法團隊正在進行的優化還有DoR和RecGPT的更緊密結合、RecGPT的強化學習等等,希望能夠為使用者提供更好的體驗。

作者:沉雨

來源-微信公衆号:淘天集團算法技術

出處:https://mp.weixin.qq.com/s/J2GVJcZoL5tSbgWR0qzZGQ

繼續閱讀