天天看點

語義與效率、算法與算力雙飛輪——小紅書廣告召回實踐

小紅書作為一個集内容分享、社群互動與電商購物于一體的平台,其搜尋功能已成為人們擷取資訊、做出消費決策的重要管道。随着使用者需求的多樣化和廣告物料的快速增長,小紅書搜尋廣告召回系統面臨着業務與技術上的多重挑戰。

本文深入探讨了小紅書在業務增長階段的搜尋廣告召回實踐與思考,通過召回水位分析與政策演進,介紹了如何通過建構資料循環、優化複雜召回模型等技術手段,在保證使用者體驗的同時實作廣告的高效分發。

此外,大模型技術的應用,如複雜查詢常識推理、大模型表征等,也為召回系統帶來了新的突破。在大模型時代,搜尋技術棧的變革将不可避免,小紅書搜尋廣告召回協同算力引擎團隊已經為未來做好了準備。

語義與效率、算法與算力雙飛輪——小紅書廣告召回實踐

小紅書是一個集高品質内容分享、多元有趣的社群氛圍、從種草到電商購物于一體的平台,已經成為許多年輕消費者的“生活百科全書”和“消費決策入口”。其内置搜尋入口是一個通用搜尋引擎,接納使用者各種各樣的搜尋詞查詢,對相關性、内容品質、使用者體驗上有着很高的要求。在小紅書的搜尋商業化中,商業化不作為對使用者體驗與内容品質的消耗,而是基于對使用者生活需求的了解與商家營銷訴求的滿足與比對,通過使用者和商家的良好體驗促進供需持續增長,長期帶動平台營收水漲船高。

作為搜尋商業化召回團隊,召回階段是在鍊路最上遊,從龐大廣告候選池中為使用者搜尋找到一批最相關、配置設定效率最高的廣告集合,通過解決使用者查詢的關鍵詞與廣告物料之間的檢索、改寫、擴充、推詞幾個技術問題,解決快速增長的使用者搜尋意圖與廣告主營銷意圖間的供需比對問題,提高商業化内容的分發品質與變現效率,平衡廣告主在競價環境下的投放可控性與公平性。

語義與效率、算法與算力雙飛輪——小紅書廣告召回實踐

圖1 搜尋廣告召回的幾個業務技術問題

小紅書搜尋廣告召回的業務特點主要展現在以下三個方面:

  • 『強語義限制』小紅書搜尋是一個通用搜尋引擎,非常注重對使用者查詢與内容的自然語言了解,在廣告召回過程中嚴格限制語義相關性與使用者體驗;
  • 『物料高速增長』小紅書搜尋廣告現階段的物料規模快速增長,對新且優質物料的召回有時效性與覆寫率的要求,并比對後鍊路的排序與機制變化,保持在增長階段對召回供給的業務敏銳度;
  • 『多種投放目标并存』小紅書搜尋廣告中點選、成交、線索留資等多種投放目标的廣告計劃并存,對召回來說難以靜态的描述廣告價值,召回要在語義與體驗限制下優化為廣告主傳遞的轉化目标,最大化平台的配置設定效率。

牽引召回疊代的水位名額

根據小紅書搜尋廣告的物料快速增長的特點,我們清晰定義了召回的目标和水位,哪裡有召回效果、馬太效應狀态一覽無餘:

  • 怎麼觀測召回的水位與效果空間:為了解耦庫存增長與其他排序階段,獨立觀測召回算法能力的水位狀态,我們核心關注的是『應召盡召』、『噪聲糾偏』與『即投即召』三個方面
    • 『應召盡召』:将有商業價值流量拆分為頭/腰/尾三段,頭部泛需求流量上符合相關性廣告的物料供給充足,我們重點關注效果類名額,強化高價值廣告的資料循環;腰部尾部上因為查詢詞比較具體精确,能夠滿足高相關性的物料相比頭部流量大幅減少,對于精确意圖搜尋相關性是強限制,重點關注對這部分高相關物料的召回是否充分;
    • 『噪聲糾偏』:在廣告系統穩定投放的資料循環未充分建立階段,隻應召盡召仍存在問題,召回不準确會為下遊面向機率模型引入無法分辨的噪聲,降低整個廣告系統的配置設定效率,是以越是在後鍊路模型的發展階段,越需要在召回環節關注 Badcase,尤其是這些 Badcase中沒有被過濾、并且被粗排選中的那部分将直接影響精排的參競數量,需要在粗排之前的召回環節做更多選擇偏差糾偏;
    • 『即投即召』:快速增長的使用者搜尋意圖與廣告主營銷意圖間的供需比對問題,讓系統需要有快速的冷啟能力,同時面向新品的種草廣告、直播廣告也有很強的時效要求,需要保障新廣告的召回冷啟速度不低于素材測款的生命周期,讓廣告主"投放即可快速啟量,提價即可快速放量",我們重點關注符合相關性的新廣告被召回的冷啟成功率與冷啟延遲;
  • 『召回水位看闆』:通過以上定義我們得到了一個簡潔且資訊豐富的召回水位看闆。通過按頻率分層采樣 Query 和全量庫存進行離線相關性評分,我們可以計算在不同 Query 下,高相關庫存與實際召回的覆寫率、召回結果中不滿足相關性的噪聲占比、庫存與實際召回 K 個的 PVR 之間的水位差,以及冷啟動庫存的召回成功率。這使我們可以清晰地衡量召回算法的提效空間是在物料庫存上還是召回能力上,離理想狀态還有多少水位差,以及是否公平地召回了高相關庫存,而不是集中在馬太效應最強的高熱廣告上。通過以上召回名額分析,我們确定了腰尾部 Query 上補充高相關性廣告、頭部 Query 上集中高價值廣告的提效目标。
語義與效率、算法與算力雙飛輪——小紅書廣告召回實踐

(以上數字僅供舉例幫助了解,

非小紅書真實資料)

語義與效率在物料增長期的定位

召回對廣告系統的影響主要來自三個方面,首先是面向體驗的語義目标,其職責是在不考慮出價和期望點選率的情況下,隻針對相關性從高到低進行召回,為粗排和精排階段提前排除不相關廣告,進而減少打分誤差;其次是面向平台商業化的配置設定效率目标,随着符合相關性的廣告遠高于召回 Quota,在泛意圖上語義從優化目标變為限制項,需要兼顧面向個性化與平台效率做優中選優,在召回階段提前排除出價能力不足、難以帶來點選與轉化的低價值廣告候選,以提高拍賣階段的競價強度與流量變現效率;最後是面向競價生态的探索目标,需要具備發現一批與使用者搜尋意圖語義相符但尚未被大量使用者點選的潛力廣告的能力。尤其在物料快速增長期,多樣的召回政策對于創造一個開放的廣告競價博弈環境尤為重要。

  • 『語義探索』與『效率承接』:小紅書搜尋廣告客戶快速增長,新廣告候選池快速膨脹,如果都采用新廣告扶持政策,成本将會比較高昂;另外轉化類報價廣告占主導情況下,廣告報價這個影響排序的因素也與廣告系統自身強耦合,這可能讓系統更容易陷入馬太效應。為了解決以上問題,我們的解決方案是建構一個資料循環,在語義召回中,在廣泛的腰尾部流量上不考慮效率因素讓相關性符合的廣告候選優先被召回,進行使用者回報信号探索與積累;在面向點選與轉化的效率模型中,以最大化平台配置設定價值為目标,在泛需求搜尋的頭部流量上強化個性化、高價值廣告與高鍊路通過率廣告的資料循環。這樣,快速膨脹的新廣告無需長期扶持占用參競配額也可以在腰尾部沉澱資料,在增長期的廣告系統鍊路中,我們盡量避免長期預留扶持 quota 、扶持系數等限制競争因素,以追求召回相關性與效率的平衡;
  • 『語義與效率-帕累托曲面』:語義與效率-帕累托曲面 是指在語義與效率兩個優化目标的情況下,找到一組滿足所有目标限制下的最優候選集合。如圖中,在帕累托曲面上的廣告就是我們要召回的結果,過濾低于相關性紅線标準的廣告,并在泛意圖搜尋上過濾低轉化低出價的廣告,來分别兜底體驗紅線與探索線。系統層面上我們設計了區分泛意圖與精準意圖差異性的多目标融合與截斷政策,腰尾部精準意圖流量上壓縮效率召回通道的 quota 配比并配合高相關性廣告回撈政策,引導高相關性但低價值的廣告在腰尾部流量上積累回報資料,主動改變曝光分布,帶動整個廣告系統向 Better Distribution 而非馬太效應的方向優化;
語義與效率、算法與算力雙飛輪——小紅書廣告召回實踐

圖2 『語義探索』與『效率承接』政策

兵無常勢,水無常形

不同于成熟期業務的精細化效果疊代,小紅書的搜尋廣告仍處在業務增長期,尤其需要在增長爆發點上順勢而為,用合适的技術選型比對物料規模與發展階段,靈活機動的靈活疊代産出更多業務收益,以下是我們的一些面向增長期業務的疊代思路;

  • 『趨勢價值』:一些原本無效的政策,可能會随着業務發展階段的變化而産生顯著效果,這要求我們以趨勢為導向來看待問題,保留長期的 AB 實驗,通過資料驅動的方式捕捉形勢變化,并及時進行價值的重新評估。比如,在召回初期引入過多電商廣告庫存,會降低參競隊列的平均出價,進而産生負面的大盤效果,但随着電商廣告出價能力的持續提升,出價水位劣勢的問題消失,再引入全量電商庫存甚至帶來正向的大盤效果;
  • 『在時域次元上優化』:日常疊代優化主要集中在 AB 視角,與此同時不能忽視時域上的優化機會,比如,在 618 、雙 11 的電商爆點時間視窗強化商品種草類的召回政策,在五一、十一的旅遊爆點時間視窗強化出行類的召回政策,為技術疊代提供一個強力杠杆放大平台收入;
  • 『漸進式重構』:業務問題驅動,先用簡單方案快速拿到大部分收益,再随着業務發展與技術基建更新,将模型能力與技術體系向理想态、向前沿逐漸疊代;比如,技術方案上在召回初期優先以字面規則、白名單回撈與黑名單過濾政策,快速解決召回去粗取精問題與鍊路堵點,然後再使用模型來解決深層語義比對問題;另外,随着後鍊路粗排、精排、相關性的能力變化,召回的效果空間也從對召回結果的噪聲糾偏,轉向填充不足與後鍊路誤過濾過多,政策也從保準确率轉向召回率與保送政策。

算法與算力協同、

模型性能與效果雙優化

召回模型的獨特之處在于,在響應時間有嚴格限制的情況下,優化檢索模型的性能。是以需要與工程引擎緊密協作,聯合優化算力與算法,以提升模型分布式訓練速度、索引的檢索效率和實時性;與此同時,LLM 技術基建下,高性能 GPU 序列算子、推理低成本化成為技術紅利,讓我們有了漸進式躍遷技術棧的機會,讓大模型為廣告系統引入更多基于知識推理、圖檔美學風格的可解釋性資訊,生成式檢索與大模型表征為召回帶來 Scaling Law 的想象力;在大模型時代與算力引擎團隊合作共赢,為後續的技術疊代創造更好的算力優化支援與合作氛圍。

語義與效率、算法與算力雙飛輪——小紅書廣告召回實踐

以下列舉小紅書搜尋廣告召回技術在不同發展階段下的提效思路與技術演進;

語義與效率、算法與算力雙飛輪——小紅書廣告召回實踐

圖3 召回效果産出與業務發展階段的關系

  • 一階段 『廣告主自主表達投放意願』:業務發展初期,品牌廣告占主導地位,與 query 比對的物料相對較少,這個階段主要依賴廣告主大量自主購買關鍵詞來實作高度可控、高解釋性的商業流量擷取。第一版召回通道重點發力 Query 改寫+倒排海選的兩段式召回,建構買詞 Bidword 的廣告反向索引召回,并通過 query 語義擴充提供寬泛比對更多 Bidword 的擴量能力,這構成了小紅書搜尋廣告系統的基石;
  • 二階段 『解耦買詞關系』:随着中小商家的進入,召回能力越來越受到中小廣告主買詞能力不足的限制,是以需要突破對廣告主自主買詞的強依賴,填充商業化窪地、增加競價深度,從使用者搜尋行為直接到廣告召回的能力走到台前;
    • 這個階段引入以相關性檢索為目标、以 Bert 為模型底座的向量模型,将 Query 與筆記映射到同一個語義超球面上,在較少的廣告池上全庫矩陣乘計算召回分,補充相關性符合但廣告主沒有買到相關詞的有效物料,拉動參競填充率與 PVR 的一波增量;
    • 優化推詞能力,既要把廣告主營銷訴求準确反映到有商業價值的詞上,也要提高推詞的拿量效率,主動創造 Query 改寫與 Ad 推詞的供給比對關系;
  • 三階段 『多目标召回』:随着滿足各行業搜尋相關性的物料充足,尤其是使用轉化類出價的廣告主增多(線索類、電商類),滿足語義限制的廣告候選數量遠超召回 quota ,是以需要從語義比對的廣告集合中優選出具有高點選率(CTR)和高有效千次展示成本(ECPM)的廣告,以追求高相關性、高轉化率和高價值的召回豐富供給,加速優質廣告的資料循環建立。同時,随着轉化類報價類型廣告的預算增長,面向流量最終高轉化價值的轉化率(CTCVR)召回也帶來了新的召回增量;
    • 将以相關性為單一召回目标,擴充為以相關性、點選轉化、高參競價值三方面的召回目标,并設計為兩類召回通道:語義模型承接中長尾精确意圖Query與冷啟物料召回,效率模型承接面向重定向、後鍊路通過率與平台營收效率;同時效率模型需要有較短的模型切換間隔,更快的捕獲最近資料分布變化,我們将召回模型與索引逐漸從每日訓練切換提升到一日多切;
    • 效率模型既包括面向最終流量價值的 ecpm 與 ctcvr ,也面向廣告系統内不同階段的排序與政策偏好做糾偏,如對相關性準入規則、多階段排序通過率的偏差進行修正,在面向高轉化的召回通道引入 ctcvr * cpa 的方式近似高 ecpm 召回,提高廣告系統漏鬥的多階段配置設定一緻性;
    • 根據不同庫存物料與後鍊路模型能力發展階段,完成多目标多模型 ensemble 擴充召回增量;同時,不同行業下的符合投放标準的物料數量差異較大,統一設定全局靜态召回 quota 會導緻在 quota 不夠時召回不充分、在 quota 過剩時為下遊判别模型引入無法分辨的噪聲,通過調節分搜尋頻率、分行業、分物料冷熱的結構性召回 quota 與門檻值截斷政策,解決多路多目标召回通道合并問題;
  • 四階段 『強化檢索模型與索引』:随着物料數量的快速爬坡,召回候選規模的增大使當時的檢索模型存在嚴重的選擇偏差問題,無法對尾部和未見過廣告做出可靠排序,導緻召回了一些 Badcase;
    • 通過全空間偏序關系模組化、大規模負采樣等對樣本選擇偏差的糾偏,與對檢索模型對比學習品質的提升,尤其在面向效率召回模型上個性化模組化上,帶來了顯著效果提升,在後文将詳細展開介紹這部分内容;
    • 随着需要解決的供需比對問題(尤其在深層轉化目标任務)上越來越複雜,向量内積模型的拟合能力臨近天花闆、提效邊際收益收縮,為了打開向量内積模型缺乏資訊互動對表達能力的限制,我們将召回基座模型從雙塔更新為多層 MLP 與 Target Attention,配合 HNSW 層次索引,用較少次打分等效逼近全庫檢索的召回能力,打破原有向量模型天花闆,讓模型疊代進入新的階段;
    • 反向索引也可以吸收向量檢索模型的輕巧計算優勢,通過對語義向量的量化,在存儲與計算消耗極小的情況下,實作反向索引通道相關性符合物料召回覆寫率的大幅提升;
  • 五階段 『AIGX時代 搜尋範式革命』:大模型在自回歸+指令對齊的方案突破了監督學習時代的許多認知,讓算法擁有了推理、多模态了解與 Scaling Law 的突出能力。在搜尋與廣告産業上,最直接面臨大模型對搜尋形态的颠覆,應用大模型技術是在守住搜尋業務未來市場佔有率的生命線,我們已經看到了日新月異的前沿工作,我們也做了一些有效果的嘗試;
    • 常識推理補全 Query 搜尋意圖:将大模型語義擴充與标注能力應用于『改寫(Rewrite)』任務中,借助CoT能力對複雜查詢詞做意圖精确了解,并做語義關聯擴充釋放增量需求,如 對地點常識資訊擴充周邊遊的POI資訊、根據兒童年齡關聯不同階段的教育教育訓練需求;
    • 廣告主核心賣點提取:一部分小紅書的商業筆記隐性的進行産品或服務的推廣,廣告意圖的表達更加含蓄隐晦,通過對大模型的指令調整,能從軟文描述、圖像模态中剝離無關噪聲的抽取營銷賣點、結構化産品描述,通過大模型『推詞(Suggestion)』幫助廣告主更準确觸達相關搜尋意圖,并将抽取的資訊應用于檢索模型的特征輸入與長尾語義樣本合成;
    • 将大模型作為更好的編碼器:表征編碼器從 Bert 換成大模型後,輸入與輸出從結構化特征,變為自由格式、無結構甚至自然語言描述,同時能讓向量檢索性能在模型參數量與資料規模上符合 Scaling Law,這場表征革命非常讓人振奮;我們通過 Prompt 與參數高效(Parameter-Efficient)的微調與對齊,将面向深層語義的 LLM 對齊到小紅書内使用者行為興趣空間與廣告相關性标準,成為一個與行為偏好對齊的營銷内容編碼器,通過 Semantic ID 與 I2I 擴充方法,增強在長尾 Query 、低頻物料上的語義檢索效果;

在最近一年,我們在第四、第五階段持續疊代,累計做了五期 Launch,為營收效率累計貢獻 CPM1+5%,效率通道可覆寫線上 80% 點選、60% 轉化;接下來的章節将介紹第四、第五階段上我們所做的實踐、踩坑經驗與背後的思考。

語義與效率、算法與算力雙飛輪——小紅書廣告召回實踐

檢索技術可以被應用在 文字檢索文字、行為檢索行為、文字檢索圖像、圖像檢索圖像 的任意模态間的關系模組化,可以監督學習用于特定檢索任務,也可以自監督挖掘深層語義關聯,同時在大模型技術落地過程中,RAG 檢索結果的品質直接影響了大模型的知識幻覺與過時問題能否被緩解,其中召回檢索技術起到了非常重要的作用。是以有一套檢索算法技術底座對召回長期高效疊代非常重要。

為了确定召回技術方案選型,我們遵循以下幾個本質問題出發:

  • 『算力即生産力』:召回模型上 GPU 叢集,是做複雜召回模型的必要前提,我們需要一個模型檢索能力上限高、統一維護的高性能檢索架構,在 GPU 緊張的當下使用市面上 A10、T4、L40s、L20 各型号顯示卡,一方面提高模型訓練的疊代效率、提高模型訓練時效性、降低檢索模型打分耗時、提高候選打分規模;另一方面和工程引擎團隊合作,為後續大模型的微調與推理技術疊代創造更好的合作基礎;
  • 『解放召回模型上限』:随着需要解決的供需比對問題越來越複雜(如深度轉化目标),受 SL2G 與二向箔工作的啟發,我們發現使用多層 MLP 與 Target Attention 替代内積距離度量在深層轉化目标任務上可以大幅提高模型召回率,并且仍保持不錯的距離度量性質。
    • 無論是基于 BERT 還是 DNN 的召回模型,雙塔範式在計算和存儲效率上仍具有優勢,然而雙塔模型的距離度量方法則很大程度上影響模型的拟合能力上限,例如,一詞多義、多興趣的問題在内積度量中通常通過多向量(如 MIND、MVKE)解決,且内積度量存在表征空間各向異性引起的問題;而一個淺層 DNN 的非線性距離度量、和引入雙側特征間 Target Attention 可以使模型在早期階段就進行雙側資訊互動,逼近一個全特征交叉的拟合能力,進而更好地解決消歧問題和稀疏資料的距離計算問題。同時,Attention 能力也讓召回環節對語義序列與前置行為更加敏感,進而極大的打開了召回模型的效果天花闆。
語義與效率、算法與算力雙飛輪——小紅書廣告召回實踐

圖4 複雜模型層次檢索模型(參考二向箔架構)

  • 『專注核心優化點』:學術界與業界優秀的檢索提效方法衆多,經過我們的實踐,有些是小紅書目前發展階段與物料結構下召回要解決的核心優化點帶來了明顯的收益,有些是相對而言在我們場景下收益不明顯,定義為邊際優化點。從我們的實踐來看,核心優化點與邊際優化點列舉如下:
語義與效率、算法與算力雙飛輪——小紅書廣告召回實踐

偏序樣本與糾偏

樣本選擇偏差會導緻廣告系統過度偏向于某些特定的廣告,如流行度偏差導緻模型偏向于流行度較高的樣本,或在模型沒見過的樣本上表現出很大的随機性,進而影響廣告的曝光機會和廣告效果,是以如何通過采樣與樣本構造進行模型糾偏成為重要疊代方向。

全空間偏序關系:隻從全樣本空間内随機負采樣會缺少對漏鬥選擇偏序的刻畫,我們負采樣政策為帶難負樣本的 batch 内負采樣,樣本組織從全樣本空間 shuffle 變為 request 粒度 shuffle、同 request下參競廣告在樣本中連續組織,使 全局負樣本和參競難負樣本 在同一 batch 内同時有機會被采樣并複用計算結果,既全局負采樣也兼顧流行度負采樣,通過面向序的 Listwise Loss 讓模型捕獲 随機<過濾<參競<點選 的全空間偏序關系,将模組化目标從點選量期望向點選率與後鍊路通過率期望修正;

  • 警惕 Batch Norm:在BYOL等自監督任務中 Batch Norm 被證明至關重要,但在正負例混合輸入的 Pairwise/Listwise 任務中,要警惕 BN 的資訊洩露問題,無論是特征層面的還是互動層,BN都會産生的隐患;
語義與效率、算法與算力雙飛輪——小紅書廣告召回實踐

圖5 帶難負樣本的 batch 内負采樣

難負樣本比例:選用過難的負樣本會導緻效果下降甚至模型直接過拟合,我們選用後鍊路參競廣告分段采樣作為難負樣本,即包含精排排名靠後的廣告、與被相關性準入政策過濾掉的廣告,其難負樣本比例被經驗性的控制為負樣本的 1%;

  • 對比學習中關于負樣本難度和作用研究中,證明了負樣本中 5% 的決策邊界樣本最有用,其中最難的0.1%甚至有害(https://arxiv.org/abs/2010.06682),在我們實踐中也出現引入過多難負樣本導緻的檢索效果下降問題;
  • 多階段學習:為了同時優化選擇偏差糾正和決策邊界,一些課程學習訓練方案會在第一階段進行簡單負樣本的訓練,然後在第二階段使用難負樣本進行triplet訓練。在我們的實踐中,這種方法的效果與在一次訓練中直接混合難負樣本同時訓練的方法相近,并且多階段訓練增加了疊代的複雜性,是以我們最終沒有采用這種方案。

更多的負采樣:人們一緻認為對比學習受益于更大規模的負采樣,負采樣越多對負采樣的品質依賴越小,沿着這個思路,我們将負采樣規模做了大幅擴充(内積距離度量模型擴充到千,Attention+MLP 複雜距離度量模型受制于訓練速度擴充到 128),同時承擔負采樣候選的 batch size 也做了放大,讓負采樣候選空間達到萬量級,減少采樣碰撞幾率;擴充負樣本同時帶來訓練速度衰減,但我們通過優化 in-batch 分塊負采樣算子,大幅提高了訓練效率,這使得在負采樣規模翻倍的情況下,計算訓練速度不降反升;

  • Cross-batch:在我們的資料集中,采用萬級候選的in-batch負采樣在訓練速度和效果上表現良好,考慮到queue緩存引入的新超參數與開發的複雜性不利于快速疊代,我們并未采用queue緩存、跨batch等方法來進一步擴大負采樣候選集的規模;
  • 動态負采樣比率:半定量的理論架構研究了InfoNCE在不同任務中最優的負樣本數量問題(https://arxiv.org/abs/2105.13003);

正樣本增強:現有的回報資料在長尾流量上較為稀疏,使得後驗模型在長尾上的學習并不充分,而長尾流量又是召回提升 PVR 的主要戰場,我們采用規則挖掘與大模型資料合成的方法,從文字常識推理(參考Piccolo2 https://arxiv.org/abs/2405.06932)與圖生文任務(參考BLIP https://arxiv.org/abs/2201.12086)中,為廣告物料合成一批語義相符的長尾Query。

  • 自監督任務:為了進一步增強模型對小紅書場景内深層語義的了解能力,将長尾 Query 映射到同義的頭腰部 Query 上、将長尾廣告映射到相似的頭腰部廣告上,提高改寫與語義檢索效果,我們在基于 Mask 完形填空的 Bert 預訓練範式基礎上,引入對比學習自監督任務。具體來說,通過對 Query 與廣告文字描述的元素替換、噪聲注入、編碼器 Dropout 政策構造兩個副本,使得這兩個副本在表征空間中靠近,而與其他表征遠離;類似的将自監督方法應用于行為序列,Mask 部分行為資訊,提高使用者側短期與長期興趣表征提取的魯棒性(參考Bert4Rec https://arxiv.org/abs/1904.06690);
  • 全域學習:用自然搜尋的使用者回報行為補充到廣告召回是一個常用做法,小紅書社群與商業化雖然共享同一套筆記池,但社群重生态治理、商業化重營銷價值,二者曝光結構差異較大,使得在小紅書搜尋廣告引入使用者全域回報行為作為正樣本效果不理想;與此同時不直接作為正樣本而作為資訊補充,将社群曝光結果的語義與風格資訊,通過多模态語義表征 I2I 擴充方式引入到廣告召回中,取得了一定的收益;

特征與序列模組化:

  • 記憶型 ID 與遷移學習:在面向效率目标的模型上豐富不同粒度 ID 特征之後,模型的個性化能力得到了顯著提升;在面向語義的 Bert 模型原始文本輸入基礎上,補充更多結構化特征,如預測類目、品質分等,對語義模型的召回率也有明顯提升;與此同時,在廣告召回模型特征層遷移引入在社群場景下訓練好的 categorical/id embedding,經過驗證,遷移表征的做法對召回的集合序模組化來說效果增益較小,考慮到引入外部資料依賴後也不利于快速疊代,最終僅在面向轉化目标的模型上應用了遷移學習;
  • 行為序列特征:行為序列從高維興趣的角度,引入了對使用者偏好、習慣的隐式刻畫,尤其在推薦引導搜尋『推後搜』的場景中,使用者在小紅書社群推薦裡的行為可以有效補充搜尋意圖,在召回任務上帶來顯著的效果提升;

TopK 選擇問題:召回有效庫存的同時,也要減少召回讓下遊無法分辨的噪聲,是以存在topK與門檻值截斷問題

  • 不同召回通道共現獨特性分析與增量價值度量,跟蹤不同召回政策帶來召回增量與噪聲、後鍊路通過率與 quota 使用率,作為疊代方向與 quota 政策調整的依據;
  • 召回是否引入出價因子:在轉化類報價廣告上,出價從靜态私有估值表達變為面向 CVR/cost 的成本效益門檻值選擇,這使得出價的均值化變得幾乎無意義,召回難以引入準确出價,過于依賴調價也會使得參競不穩定産生更多超限。對此,有兩種方法:一種是采用強化學習中的重要性采樣獎勵的思路,使用出價進行樣本權重,以近似 ECPM 排序;另一種是在召回階段預先預估轉化率(CVR)的機率值,但這種方法在召回環節的預估中會存在較強的選擇偏差問題。是以,我們的方案是面向 CTCVR 序進行召回,并結合每次廣告主填報的轉化成本 CPA 進行融合排序,以近似 ECPM 的召回排序。

對比學習品質

對比學習的 NCE Loss 是一種面向序的噪聲對比估計損失函數,通過增加正樣本對的表征互資訊并減少負樣本對的互資訊,可以增強表征分布均勻性(Uniformity)來緩解基向量非正交情況下的各向異性,使模型更好地學習到資料中的相關性和結構資訊,是以通常可以有效處理大規模多類别問題,在處理資料稀疏性、資料不平衡方面更有效。對比學習領域,大部分工作使用 NCE 損失函數在自監督學習上取得了卓越的表現,也有部分工作在有監督任務上把 NCE Loss 替換為 BCE Loss 取得了不錯的效果(SigLip https://arxiv.org/abs/2303.15343),也有在排序模型領域結合 BCE 與 NCE,在面向 GAUC 學習的情況下相容 pointwise 尺度校準不受影響(RCR https://arxiv.org/abs/2211.01494)。

InfoNCE的溫度與正則:通過微調溫度參數,可以得到顯著的對比學習效果提升。溫度調節 logits 值域與 softmax 機率分布的平滑程度,如果分布越平滑則訓練過程中不會過早收斂于局部最優,對噪聲資料更加魯棒,但這也會使模型難以區分難負樣本;相反,如果分布越極化則越能拉大正負樣本的距離,更加關注難負樣本的分辨率,但這也可能加劇流行度偏差,使模型更易受到噪聲資料的影響。同時,過大或過小的溫度都會增加梯度消失的風險,當 過大時候 logits 接近均勻分布,負樣本越多梯度越接近 0;當 過小時,logtis 接近單峰分布,梯度也接近0。是以需要使用适當的正則化政策來避免訓練過程中的梯度消失。

  • SimCSE 分析 InfoNCE 本質上“展平”了嵌入空間的奇異譜,緩解表示退化問題并提高句子嵌入的均勻性(https://arxiv.org/abs/2104.08821);
  • 自适應溫度:對于有大量噪聲回報的使用者來說,過多關注難負樣本是不明智的,需要放大 ;但對于那些有明确且足夠回報的使用者來說,降低 可以增強模型收斂性和區分度。使用者粒度累計 loss 越大 越大,反之 越小(https://arxiv.org/abs/2302.04775);

緩解僞負例敏感問題:InfoNCE 在溫度 較小時候,本質是在拉大正樣本與負樣本中最難樣本的距離 s(q, v) > max(s(q, v-_1), ... , s(q, v-_n)),這讓 InfoNCE 對難負樣本有自發現的優勢(https://arxiv.org/abs/2012.09740);但與此同時,當負例中包含僞負例噪聲時,模型會給一個潛在正例很高的梯度懲罰以至于影響模型收斂,甚至表征奇異值衰減、坍塌到一起,訓練現象是負樣本 logits 持續上漲,直到 auc 跌到 0.5。針對 InfoNCE 對異常值敏感的問題,我們一方面擴大batch size,減少負采樣碰撞的機率;另一方面增加了一個對負樣本 logits 的正則,強行推開負樣本增強分布均勻性防止表征坍塌;同時我們也參考了以下幾個解決方案

  • 外部模型僞負例識别:用一個自監督訓練好的SimCSE模型在訓練過程中識别僞負例,與正例距離過近的負采樣将被過濾(https://arxiv.org/abs/2205.00656);
  • 負樣本re-weight:通過re-weight政策将負樣本權重配置設定至“更合理的區域”,而不是固定的僅關注最難的樣本(https://arxiv.org/abs/2310.11048),學習一個全局的alpha和rou,控制溫度 = alpha * (1 - cos) + rou(https://aclanthology.org/2023.emnlp-industry.72.pdf);

索引親和的魯棒性表征:我們采用廣告表征間的 L2 距離建構HNSW(Hierarchical Navigable Small World)層次近似近鄰索引,根據 Delaunay 圖的幾何性質,盡管檢索距離度量函數是一個Attention+MLP模型,仍然不會破壞基于 L2 表征空間建立的索引距離性質(https://dl.acm.org/doi/10.1145/3336191.3371830)。與此同時,為了讓複雜模型能夠在 HNSW 索引上有更好的檢索效果,我們在訓練階段添加廣告表征的小範圍擾動,以限制擾動前後距離度量的一緻性,進而提高複雜模型距離度量函數與索引 L2 距離的親和性。

  • 表征次元:表征次元越大,模型的表示容量越大,但也會導緻索引存儲膨脹與檢索計算效率降低,經過權衡模型能力與算力因素後,我們選用 128 維嵌入向量作為雙側表征,更高的次元帶來的性能提升邊際效果較小;OpenAI提出的表征方法采用了多元度表征空間(MRL 俄羅斯套娃嵌入 https://openai.com/index/new-embedding-models-and-api-updates/https://openai.com/index/new-embedding-models-and-api-updates/),證明了次元越大的情況下檢索效果反而出現下降,但在同時訓練多個嵌套次元表征時效果可以随次元增大單調遞增,在我們場景内限于訓練速度沒有采納 MRL 的訓練方法;
  • 對抗訓練:沿着最大化 Loss 的方向做高斯噪聲樣本擾動,使得模型能夠學習到對抗污染的能力,達到一定的表征魯棒性(https://spaces.ac.cn/archives/7234),但在我們的實踐中發現,基于梯度對抗類的擾動調參比較敏感,在我們資料下檢索精度提高的也比較有限;
  • 多任務學習:在Item側增加對廣告行業、類目資訊的預測任務,限制表征在語義空間的内聚性(Que2Search);在 CTCVR 轉化目标上,聯合訓練 CTR 點選目标的資料,緩解資料稀疏性;

高性能召回檢索引擎

參考二向箔開源的代碼,我們以 Tensorflow 計算引擎為底座,實作了一套上限高、易疊代的檢索架構。秉承TF計算圖的理念,檢索過程實作了全圖化,天然的融入到了 Tensorflow 的優化手段中。

語義與效率、算法與算力雙飛輪——小紅書廣告召回實踐

圖6 高性能召回檢索引擎Overview

檢索全圖化

檢索全圖化

  • 檢索邏輯在 TF 原生算子的基礎上,實作了部分自定義算子來解決檢索過程中的性能問題。三層鄰居擴散的檢索過程完全嵌入到 TF 計算圖中,使得檢索政策疊代非常靈活;
  • 開源代碼沒有解決索引實時性問題,為此設計了專門的資料操作算子與索引獨立更新鍊路,實作分鐘級的高時效性索引切換,有效支撐索引量級的快速增長;

GPU計算性能優化

  • 在計算圖優化層面,依托TF的一些優化手段,計算性能與資源利用效率得到極大提升,包括但不限于以下方面:
    • 調整 Placement、混合精度、bitmap 算子融合、GPU 計算邏輯調優、編譯與算子融合等
  • 在架構層面,依托業界先進的 DeepRec 架構賦能,僅通過配置即實作底層資源複用,極大提升系統QPS
語義與效率、算法與算力雙飛輪——小紅書廣告召回實踐

大模型時代的召回算力基建

  • 實時大模型推詞:在 B 端廣告主背景上,我們落地了面向營銷訴求的實時大模型賣點提取與推詞能力,通過 prefix caching 技術對批量 CoT 推理做首詞加速(https://arxiv.org/abs/2402.05099),并且正在嘗試大模型小型化,如通過 1B 小模型投機采樣加速 7B 模型推理(https://arxiv.org/abs/2302.01318);
  • 大模型表征微調訓練底座:應用大模型不可避免讨論成本問題,為了讓通用大模型低成本的對齊到廣告物料語義空間、對齊到廣告相關性标準,我們借助開源庫搭建了面向低成本大模型微調的多卡訓練基建,并采用更簡化、對訓練系統要求更低的 Lora 與 DPO 方式輕量級微調與對齊;
語義與效率、算法與算力雙飛輪——小紅書廣告召回實踐

圖7 大模型訓練與推理引擎Overview

語義與效率、算法與算力雙飛輪——小紅書廣告召回實踐

本文介紹了在強語義限制、廣告物料高速增長、多種投放目标并存的業務背景下,小紅書搜尋廣告召回的演進、實踐與思考。首先,我們明确定義了召回算法能力的水位名額,确定了頭尾流量各自的提效目标。接着,我們從單一語義目标發展到語義效率聯合模組化,實施了“語義探索”與“效率承接”的資料循環政策。最後,我們用 MLP+Attention 的複雜模型替代了雙塔内積的 GPU 高性能檢索引擎,并将其應用在語義、點選、轉化三路召回模型中,效率通道可覆寫線上80%點選、60%轉化,經過五期的優化,平台營收 CPM1 提升了+5%。

随着大模型模型能力與推理成本的不斷發展,可預見目前搜尋技術棧将成為大模型的其中一種 RAG 通路,而使用者搜尋互動也将通過多 Agent、多輪對話,直接提供準确的答案,并即時互動修正答案。大模型表現出的推理與湧現能力,不止是人類知識擷取方式的革命,也開啟了下一代自然語言的人機互動,為科學和産業帶來了雙重機會。在這場變革中搜尋業務是最直接面臨大模型技術的颠覆,應用大模型技術是在守住搜尋業務未來市場佔有率的生命線,需要我們這些身在其中的從業者有『明者見于未萌』的思考深度與『殺雞就要用牛刀』的探索魄力。

在當下人工智能生成一切(AIGX)、航天與能源革命的時代回望,仿佛看到傳統搜推廣技術棧和提效範式的黃昏,我們盼着新技術解救我們,也在面對大模型革命從猶豫又偏執,到接納與重建,抖落了前路的生機勃勃與野蠻生長,意氣風發的站在時代新的舞台的正中間。

語義與效率、算法與算力雙飛輪——小紅書廣告召回實踐

匡時

小紅書搜尋廣告算法架構師,負責搜尋廣告場景的廣告召回政策、營銷場景大模型、關鍵詞推薦的設計和技術研發。

江哲

小紅書搜尋廣告算法召回&推詞方向負責人,負責搜尋廣告場景的廣告召回政策、關鍵詞推薦、相關性政策的設計和技術研發。

來源-微信公衆号:小紅書技術REDtech

出處:https://mp.weixin.qq.com/s/h-zChStPhB7-11YtV5J9fg

繼續閱讀