天天看點

大規模中文多模态評測基準MUGE釋出背景MUGE介紹MUGE挑戰榜關于M6:參考資料:

大規模中文多模态評測基準MUGE釋出背景MUGE介紹MUGE挑戰榜關于M6:參考資料:

背景

近年來,大規模神經網絡模型以及預訓練等技術的成功實踐推動着計算機視覺和自然語言處理等領域快速發展,同時也推動了多模态表征學習的研究。2020年Jeff Dean就曾指出,多模态研究将會是未來研究一大趨勢。在國内,目前阿裡巴巴達摩院智能計算實驗室也在深度探索中文多模态預訓練及超大規模預訓練,近期相繼推出了百億、千億和萬億參數M6模型[1],實作了目前最大規模的多模态預訓練模型,并将其應用到各大下遊任務,廣泛落地到搜尋、推薦、服飾設計、智能文案等真實場景中。

然而,目前多模态領域的評測基準和資料集多以英文為主,如MSCOCO的Image Captioning[2],VQA[3][4],textVQA,VCR等,并且缺乏一個統一的評測基準讓研究人員可以全面評測自己的模型在不同場景以及不同任務類型的表現。目前中文領域的多模态公開資料集和榜單更是乏善可陳。考慮到中文多模态領域的蓬勃發展,達摩院智能計算實驗室認知智能團隊推出了大規模中文多模态評測基準MUGE,擁有目前最大規模的中文多模态評測資料集,覆寫多種類型的任務,包括圖文描述、基于文本的圖像生成、跨模态檢索等,對模型展開了全方位的評測,幫助研究人員對自己的模型得到更好的了解。

MUGE介紹

MUGE全稱是Multimodal Understanding and Generation Evaluation Benchmark,首期主要開放中文多模态相關下遊任務資料集和評測榜單,旨在幫助中文多模态研究人員全方位評估算法模型。MUGE将實作多場景多任務的覆寫,其中包括了解類任務,如跨模态檢索、跨模态分類等,以及生成類任務,如圖文描述、基于文本的圖像生成等,研究人員能夠從了解能力和生成能力兩大角度去評估算法模型。首期開放了包括了如下3個任務:

E-Commerce IC(Image Caption)

圖像描述生成是一項經典的多模态任務,任務目标是根據一張圖像生成相應的文字描述,要求生成的描述須如實反映圖中的物體以及關鍵細節。電商領域有着衆多的商品圖檔,将圖像描述技術應用于電商領域,為每個商品生成一段富含吸引力的描述,對于吸引使用者的點選、提高轉化率有着重要的意義。

本次釋出E-Commerce IC資料集涵蓋了服裝、食品、化妝品、3C數位配件等衆多商品類目,所有資料均來源于真實的淘寶電商場景。其中,商品對應的文字描述由商家根據商品特性來撰寫,不同文案間的風格差異很大,這給圖像描述的生成帶來了很多挑戰。ECommerce-IC共包含5w條訓練資料和5k條驗證集資料,同時提供1w張圖檔用于線上評測,是目前業界最大的中文電商Caption資料集。

下面是兩個樣例:

例子1:

  • 輸入(商品圖檔):
大規模中文多模态評測基準MUGE釋出背景MUGE介紹MUGE挑戰榜關于M6:參考資料:
  • 輸出(商品文案描述):使用原始北歐風格,崇尚自然,以木色、黑色、白色作為整體色調,給人舒适甯靜的感覺,輕松就餐,才能留住好食光,在極簡風的北歐餐廳中,盡情享受美食。

例子2:

大規模中文多模态評測基準MUGE釋出背景MUGE介紹MUGE挑戰榜關于M6:參考資料:
  • 輸出(商品文案描述):西裝印花裙的兩件套,知性中又有帶着優雅灑脫。雅緻的印花裙邂逅西服,輕松打造精緻的職場女神。脫掉外套依然美麗優雅,不失為明智的穿搭。V領的設計更顯女性的性感魅力。如行走的時裝畫冊精緻,有品位更具有風度。

E-Commerce T2I(Text to Image):

文本到圖像生成是一項具有挑戰性的任務,它需要圖像生成以及對跨模态了解的能力。任務目标是根據一段文本描述,生成符合相應描述的圖像,同時要求圖像清晰且逼真。電商領域有着衆多的商品圖檔,将文本到圖像生成技術應用于電商領域,對于商品上新、設計、分發,減少商家營運成本,提高使用者體驗有着重要的意義。

本次釋出的ECommerce-T2I資料集涵蓋了服裝、飾品、化妝品内的多個商品類目,所有資料均來源于真實淘寶電商場景。整個資料集由訓練集、驗證集和測試集組成。其中訓練集有9w張圖檔,驗證集和測試集各有5k張。此外,本資料集内的圖檔均為白底圖,選手無需額外的精力放在背景生成上,主要考查模型對商品文本的了解和生成能力,提高物體的生成品質。

例子一:

  • 輸入(文本):綿羊毛商務休閑西服套裝
  • 輸出(生成圖像):
大規模中文多模态評測基準MUGE釋出背景MUGE介紹MUGE挑戰榜關于M6:參考資料:

例子二:

  • 輸入(文本):減震透氣跑鞋
大規模中文多模态評測基準MUGE釋出背景MUGE介紹MUGE挑戰榜關于M6:參考資料:

Multimodal Retrieval Dataset

多模态檢索評價模型進行圖文了解和比對的能力,是電商場景中滿足使用者需求、促成點選交易不可缺少的一環。在此次任務中,我們準備了來自于淘寶電商平台的真實搜尋query及商品圖,要求模型從給定的商品池中檢索出與搜尋query相比對的商品(樣例如下圖)。為了更好評價模型跨模态了解的效果,我們此次不公開商品的标題以及其他資訊,要求模型僅基于商品圖檔進行檢索召回,具有一定的挑戰性。

此次公開的電商圖文檢索資料集由訓練集、驗證集和測試集組成,其中訓練集包含25w搜尋query-商品圖構成的圖文對,涵蓋約12w商品圖檔。對于驗證集和測試集,我們各準備了5k搜尋query和3w候選商品圖檔。資料集類目涵蓋廣泛,涉及服裝、家居、電子、化妝品等多個領域,是目前最大的中文全領域電商圖文檢索資料集,對模型的泛化能力提出了考驗。

  • 輸入(Query):純棉碎花吊帶裙
  • 輸出:商品圖檔
大規模中文多模态評測基準MUGE釋出背景MUGE介紹MUGE挑戰榜關于M6:參考資料:
大規模中文多模态評測基準MUGE釋出背景MUGE介紹MUGE挑戰榜關于M6:參考資料:
大規模中文多模态評測基準MUGE釋出背景MUGE介紹MUGE挑戰榜關于M6:參考資料:
大規模中文多模态評測基準MUGE釋出背景MUGE介紹MUGE挑戰榜關于M6:參考資料:
大規模中文多模态評測基準MUGE釋出背景MUGE介紹MUGE挑戰榜關于M6:參考資料:
大規模中文多模态評測基準MUGE釋出背景MUGE介紹MUGE挑戰榜關于M6:參考資料:
  • 輸入(Query):北歐輕奢邊幾
大規模中文多模态評測基準MUGE釋出背景MUGE介紹MUGE挑戰榜關于M6:參考資料:
大規模中文多模态評測基準MUGE釋出背景MUGE介紹MUGE挑戰榜關于M6:參考資料:
大規模中文多模态評測基準MUGE釋出背景MUGE介紹MUGE挑戰榜關于M6:參考資料:
大規模中文多模态評測基準MUGE釋出背景MUGE介紹MUGE挑戰榜關于M6:參考資料:
大規模中文多模态評測基準MUGE釋出背景MUGE介紹MUGE挑戰榜關于M6:參考資料:
大規模中文多模态評測基準MUGE釋出背景MUGE介紹MUGE挑戰榜關于M6:參考資料:

MUGE挑戰榜

MUGE的提出旨在解決目前中文多模态領域下遊任務資料集匮乏的問題,并且為廣大研究者提供平台和評測基準去衡量算法模型的有效性。此外,相較于傳統榜單,MUGE的覆寫面更全,涵蓋了解和生成兩大類任務,并開創性地将基于文本的圖像生成納入其中。未來,MUGE也會持續地擴增更多的多模态任務及資料規模,進一步為研究人員和開發者提升算法模型效果而提供支援。

MUGE目前已經在阿裡雲天池平台開放,感興趣的研究者們可以通路如下連結進入MUGE leaderboard參與挑戰,平台會在每個月的月底評出榜單Top8選手,并贈予天池定制禮品!

MUGE挑戰榜位址:

https://tianchi.aliyun.com/specials/promotion/mugemultimodalunderstandingandgenerationevaluation?spm=a2c41.24125772.0.0

關于M6:

此前,達摩院智能計算實驗室認知智能組大力推進超大規模中文多模态預訓練工作研究,先後釋出了百億、千億和萬億參數規模的大規模預訓練模型M6,在多項下遊任務上取得突出的效果提升,同時也在大規模預訓練基礎技術上做了深度的探索,包括如何訓練超大模型和如何設計MoE模型架構等。M6的工作目前已被KDD 2021錄用。

達摩院智能計算實驗室認知智能組隸屬于達摩院,緻力于推進認知智能研究,在大量真實的商業場景中實作大規模落地,并在多模态預訓練、大規模圖神經網絡等多個領域得到開創性的世界領先結果。團隊研發的認知智能計算平台榮獲2019年世界人工智能創新大賽的最高榮譽SAIL獎項,并且入選發改委國家重大建設項目庫。團隊曾榮獲2020年國家科學技術進步獎二等獎和杭州市領軍型創新團隊,人員和技術實力雄厚,累計在CCF-A類會議和期刊上發表文章超百篇。

參考資料:

[1] Junyang Lin, Rui Men, An Yang, Chang Zhou, Ming Ding, Yichang Zhang, Peng Wang, Ang Wang, Le Jiang, Xianyan Jia, Jie Zhang, Jianwei Zhang, Xu Zou, Zhikang Li, Xiaodong Deng, Jie Liu, Jinbao Xue, Huiling Zhou, Jianxin Ma, Jin Yu, Yong Li, Wei Lin, Jingren Zhou, Jie Tang, and Hongxia Yang. 2021. M6: A chinese multimodal pretrainer. CoRR, abs/2103.00823.

[2] Chen, X., Fang, H., Lin, T., Vedantam, R., Gupta, S., Dollár, P., & Zitnick, C.L. (2015). Microsoft COCO Captions: Data Collection and Evaluation Server. ArXiv, abs/1504.00325.

[3] Agrawal, A., Lu, J., Antol, S., Mitchell, M., Zitnick, C.L., Parikh, D., & Batra, D. (2015). VQA: Visual Question Answering. International Journal of Computer Vision, 123, 4-31.

[4] Goyal, Y., Khot, T., Summers-Stay, D., Batra, D., & Parikh, D. (2017). Making the V in VQA Matter: Elevating the Role of Image Understanding in Visual Question Answering. 2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 6325-6334.

繼續閱讀