天天看點

ACM MM論文放榜!淘系技術内容互動算法團隊4篇論文入選!NO.1 NO.2NO.3NO.4結語

國際多媒體頂級學術會議(ACM MM2021)論文接收名錄公開!淘系技術内容互動算法團隊4篇論文入選!恭喜恭喜~
ACM MM論文放榜!淘系技術内容互動算法團隊4篇論文入選!NO.1 NO.2NO.3NO.4結語

國際多媒體學術會議(ACM MM)是計算機學科公認的多媒體領域和計算機視覺領域的國際頂級會議,也是中國計算機學會(CCF)推薦的A類國際學術會議。ACM MM研究領域覆寫圖像、視訊、音頻、人機互動、社交媒體等多個主題,本次 ACM MM2021 一共收到 1,942 篇論文申請,最終入選 542 篇論文(約 27.9% 的接受率)。

淘系技術部内容互動算法團隊,聚焦機器學習、視覺算法、NLP算法,端側智能等領域,依托淘系數十億級的視訊資料,業務上支援淘寶直播、逛逛和點淘,有豐富的業務場景和技術方向,不斷探索和衍生颠覆型網際網路新技術,團隊成員來自海内外知名高校,近兩年參加CVPR競賽獲得4項冠軍,累積在計算機視覺頂會期刊(如CVPR、TPAMI、TIP等)上發表論文10餘篇,技術成果獲得國家科技進步二等獎。

本次 ACM MM2021 會議,該團隊一共 4 篇論文被接收,并有相關技術創新點在淘系業務場景中的應用。後文将詳細介紹各篇論文創新點以及落地使用。

NO.1 

題目

Understanding Chinese Video and Language via Contrastive Multimodal Pre-Training基于對比多模态預訓練了解中文視訊和文本

作者

雷陳奕,羅時現,劉勇,何旺貴,王家忙,王國鑫,唐海紅,苗春燕,李厚強

論文創新點&對于行業的影響

預訓練模型在自然語言處理領域、視覺領域乃至多模态領域已經取得了巨大的成功。本文聚焦于多模态領域中的視訊-文本的聯合預訓練政策,尤其針對中文視訊和文本。針對視訊-文本進行預訓練主要存在以下挑戰:第一,和靜态圖像不同,視訊擁有動态的時空序列關系,直接将圖像-文本的預訓練方法移植到視訊-文本領域并不足以捕捉這些複雜的關系資訊;第二,預訓練模型中廣泛存在的視訊-文本對齊任務和其它基于掩碼的重建任務存在沖突;第三,大規模、高品質的中文視訊-文本資料集的缺乏限制了預訓練模型在中文領域的發展。

由此,本文提出一個基于重建和對比學習任務的多模态預訓練模型VICTOR,并建立千萬數量級的高品質中文視訊-文本資料集。VICTOR以Transformer為主體,設計出基于重建和基于對比學習的七個任務訓練模型。基于重建的任務包括掩碼語言模組化、掩瑪句子生成、掩碼幀序列模組化和掩碼句子序列模組化四個任務,充分捕捉視訊和文本的序列資訊和互動資訊;基于對比的任務包括對偶的視訊-文本對齊、視訊内的掩碼幀對比學習和視訊間的掩碼幀對比學習三個任務,在避免簡單的視訊-文本對齊任務會融合不确定的多模态資訊的同時,增強視訊内的時空資訊融合。VICTOR模型擁有上億級參數,在構造的千萬數量級的淘系視訊-文本資料集中進行預訓練,并在多個下遊任務(如視訊文本比對、視訊推薦、标題生成)獲得了SOTA的性能提升。VICTOR模型的設計和提出,有效促進了預訓練在中文視訊-文本領域的進展,并可在多個視訊相關業務(如視訊推薦、視訊分類等)廣泛應用。

ACM MM論文放榜!淘系技術内容互動算法團隊4篇論文入選!NO.1 NO.2NO.3NO.4結語

Victor 模型的總體架構:包含模型設計和自監督任務

論文相關技術在淘系實際場景的應用

我們将VICTOR預訓練的視訊特征應用到内容檢索、推薦、分類、直播等多個領域。各個應用場景均對比場景中已服務的Strong Baseline,具體來說:

  1. 内容推薦--逛逛内容推薦。效率保持穩定下,3天新發内容占比提升22.81%,冷啟動UCTR +4.29%, PCTR +4.72%;
  2. 内容檢索--淘寶經驗。跨模态檢索,保障相關性評測基礎下,無結果率由3.23%降至0.95%
  3. 内容分類--逛逛内容分類。圖文分類精度相對提升3.94%(60.97%->63.37%),視訊分類精度相對提升7.33%(51.99%->55.80%)
  4. 物體檢測與比對 -- 直播看點稽核。全品類檢測精度相對提升4.83%(89%->93.3%),美妝難例檢測精度相對提升8.05%(75.8%->81.9%)

論文閱讀/下載下傳連結

https://arxiv.org/abs/2104.09411

NO.2

Pre-training Graph Transformer with MultimodalSide Information for Recommendation用于推薦系統的融合多模态資訊的圖預訓練Transformer

劉勇,楊粟森,雷陳奕,王國鑫,唐海紅,張舉勇,孫愛欣,苗春燕

在個性化推薦領域,尤其是短視訊的推薦領域,多模态資訊發揮着重要的作用。有效利用item的多模态資訊,如文本、視覺等資訊,可有效提高推薦的性能,緩解冷啟動問題。目前存在的融合多模态資訊的推薦模型,都是端對端的基于特定任務的模态融合,消耗資源的同時限制了模型的泛化。另外,在推薦領域,item之間存在着各種相關性(如基于标簽的語義相關、基于行為的使用者興趣相關等)。為節省資源,提高模型使用率,同時捕捉item之間的相關性,本文提出一種基于多模态資訊融合的圖預訓練架構PMGT,在捕捉item相關性的同時,指導item多模态資訊的融合,并且預訓練後的item特征,可應用到多種下遊任務,避免了在每個特定任務都要重新融合模态資訊的資源浪費和時間消耗。

PMGT首先根據item的相關資訊,建構出一個item多模态圖,其中圖的節點為item,邊反應了item之間的關系(如被相同使用者互動過的item建立邊),每個節點的特征由item的多模态特征構成。對圖中的每個節點,我們設計出高效并行的采樣方法MCNSampling,從圖中采樣出若幹與其相關的節點組成節點序列,并使用基于多樣性的transformer架構聚合節點特征,緩解模态融合的備援性。最後使用基于圖結構重建的任務和基于節點特征重建的任務指導相關節點融合和節點自身的多模态資訊融合。将PMGT在Amazon和MovieLens公開資料集上預訓練并測試,和最新的圖預訓練模型相比,達到SOTA性能。PMGT使用圖的方式指導item的多模态資訊的融合,并有效捕捉item之間的相關性,讓預訓練并不局限于item自身,增強了預訓練的item特征的表達能力,可适用于多種下遊任務和領域。

在淘系的短視訊推薦領域,我們基于短視訊tag資訊建立擁有400萬節點、4億邊的視訊多模态圖,并将PMGT預訓練後的特征直接應用到短視訊的召回階段,7天新内容占比提升7%。之後可将預訓練特征應用到排序階段,甚至其它的業務場景(如視訊分類),并且可将PMGT作為基礎架構,使用特定的任務微調模型,達到效果的進一步提升。

https://arxiv.org/abs/2010.12284

NO.3

Shape Controllable Virtual Try-on for Underwear Models(SC-VTON:針對内衣模特的形狀可控的虛拟試衣系統)

高鑫,劉振江,馮尊磊,申成吉,歐開日,唐海紅,宋明黎

我們提出了一種形狀可控的虛拟試衣網絡(SC-VTON),針對内衣模特的試衣任務,使用融合了模特和服飾資訊的GAT網絡來生成形變後的服飾圖檔。除此之外,我們在SC-VTON中加入控制點來達到服飾的形狀控制。更進一步,通過增加Splitting Network和Synthesis Network,我們可以使用服飾-模特的pair對資料優化模型,同時将任務泛化到正常的2D虛拟試衣任務。我們的方法能夠做到精準的服飾形狀控制。同時與其他方案相比,我們的方案能夠生成紋理逼真的高分辨率圖檔,并且能夠在實際應用中落地。這是業内首個将圖注意力網絡應用到虛拟試衣任務,同時能夠做到精準可控的服飾形變。

服飾是淘系最重要的類目,虛拟試衣作為一種新穎的互動展示方式,為使用者帶來創新體驗,為商家創造新的品牌展示方式。從20年元旦開在手淘拍立淘、掃一掃、雲主題等公域場景上線了"虛拟試衣間"産品: 提供不同身材的模特供使用者挑選,支援幾十萬件服飾的線上實時試穿。"虛拟試衣間" PV20-30W,UV10W,二跳頁人均停留時長2min,平均試衣件數12件。此外,營運同學利用虛拟試衣産品功能,在微網誌發起"一天試穿500件奢侈品"話題營銷活動,曝光2.4億,讨論量15.1萬,産品得到了商家和線上使用者認可。

https://arxiv.org/pdf/2107.13156.pdf

NO.4

TransRefer3D: Entity-and-Relation Aware Transformer for Fine-Grained 3D Visual Grounding(TransRefer3D:基于實體-關系可知的Transformer模型的細粒度3D視覺指代定位)

何岱岚,趙禹昇,羅鈞宇,惠天瑞,黃少飛,張愛喜,劉偲

本文提出了一種基于Transformer的模型來抽取3D場景中物體之間的多模态上下文,進而模組化更具判别力的特征來定位被指代物體。

該模型的每一層中主要包括兩個子產品:

  1. 實體可知的注意力子產品。該子產品将語言中的實體資訊與視覺實體特征相比對,提取符合語言描述的實體特征;
  2. 關系可知的注意力子產品。該子產品将語言中的關系資訊與視覺實體間成對的關系特征進行比對,增強符合關系描述的實體特征。該模型在兩個細粒度3D視覺指代定位基準資料集上取得了目前最優效果。

細粒度3D視覺指代定位任務目前在淘系業務中沒有實際應用,未來可在視訊結構化資訊提取、智能機器人控制和人機互動等方面有廣泛的潛在應用場景。本文所提出的模型可以輔助智能機器人更好地了解人類使用者的訓示語言與視覺資訊的對應關系,進而在真實的3D場景中對物體實作準确的定位,為下遊的複雜任務提供技術基礎。

http://colalab.org/media/paper/mm21_transrefer3d_camera_ready.pdf

結語

獲得以上論文收錄的淘寶内容互動算法團隊,負責淘寶直播、視訊和圖文以及評價UGC的内容業務的算法研發,利用前沿的人工智能技術在内容業務上的知識挖掘,了解,認知,表示學習,智能剪輯和内容生成等課題和研究方向來打造阿裡巴巴内容算法平台。

目前,該團隊在大規模多模态預訓練模型,多媒體内容的結構化和數字化,融合行業領域營運知識的内容圖譜的建構,使用者内容消費興趣表征和認知推薦和内容創意的生成與互動(智能看點,智能摘要,合輯生成,虛拟試衣,3D直播間,虛拟主播等)等技術方向持續深耕。希望通過不斷加深對使用者在淘寶全域的興趣了解和實時的感覺,在内容領域建立起完善的分類和屬性的标簽體系,細到物品,場景,人物屬性和聲音風格,粗到内容類型,拍攝手法,泛化到内容的各層次的表征學習等多粒度的内容認知,實作内容的通用表征學習,提升多媒體内容搜尋和推薦比對的極緻效率和體驗,讓淘寶成為消費者購買決策第一陣地,同時熱烈歡迎對課題和方向有興趣的同學的加入。

繼續閱讀