天天看點

CVPR2021競賽結果出爐,阿裡淘系多媒體算法包攬3項國際冠軍

原創 淘系技術 淘系技術 7月1日

CVPR2021競賽結果出爐,阿裡淘系多媒體算法包攬3項國際冠軍
在剛剛落下帷幕的計算機視覺與模式識别領域頂級會議 CVPR 2021 上,各項國際挑戰賽的競賽結果已全部揭曉。
CVPR2021競賽結果出爐,阿裡淘系多媒體算法包攬3項國際冠軍

阿裡巴巴淘系技術多媒體算法&視訊内容了解算法團隊,一舉斬獲

🎉 3 項國際冠軍 🎉🎉 1 項國際亞軍 🎉🎉 1 項國際季軍 🎉

技術域包括圖像描述生成、大規模執行個體級物體識别、多模态視訊情感了解以及視訊人物互動關系。

作為業界多媒體算法相關領域的領先團隊,淘系技術的這支隊伍着眼打造“端雲一體、跨模态了解”的視訊内容感覺與了解算法平台;重點建構AR直播、3D數字場、内容智能生産、稽核、檢索和高層語義了解等技術領域;支援着淘寶直播、逛逛、點淘等淘系内容業務,通過自研的内容中台為整個阿裡集團的内容業務提供能力支援。

以下是本次3項國際冠軍的競賽内容詳情&我們的攻克方法。

🏆 冠軍 🏆

VizWiz Image Captioning

▐  題目

Workshop:CVPR 2021 VizWiz Grand Challenge WorkshopTRACK:Image Captioning

▐  參賽者

宏黎,宏吉,詠亮,玉琦,少麟,定人

▐  技術領域

圖像描述生成

▐  比賽背景介紹

VizWiz Grand Challenge比賽從2018年開始舉辦,旨在利用計算機視覺技術幫助有視覺障礙的盲人“看見”世界。

該任務的輸入是由盲人拍攝的圖像,輸出是圖像的描述。 

與其他Image Caption資料不同,該比賽的資料是由視覺有障礙的盲人拍攝,圖像品質比較差,是以任務難度更高。

▐  我們的成績

我們以 CIDEr-D score 94.06的成績取得第一名,遠超第2名的 CIDEr-D score 71.98。

總分也超過去年冠軍 IBM 的CIDEr-D score 81.04。

CVPR2021競賽結果出爐,阿裡淘系多媒體算法包攬3項國際冠軍

▐  任務難點

該任務主要有兩個難點:

  1. 圖像品質較差:含各種室内、室外的場景,同時由于拍攝者視覺障礙,拍攝圖像會出現失焦模糊、拍攝不全、遮擋等問題;
  2. 許多圖像描述需要了解圖像中的文字,不同物體,顔色等資訊,需要OCR,物體檢測等細節了解能力。

▐  我們通過以下途徑解決這些困難

  1. 針對VizWiz資料圖像特性,采用swin-transformer抽取圖像的grid feature替換object feature,以充分表征不同圖像區域的特性;
  2. 考慮到OCR及物體資訊會對image caption生成産生正向引導,我們抽取了OCR及目标檢測類别資訊,作為特征補充;
  3. 并不是所有的圖像都含有OCR資訊,我們采用多種模型互補融合,用視覺模态模型強化那些不含OCR的資料,用視覺+文本(OCR+物體類别)多模态模型強化含有OCR資訊較豐富的資料;
  4. 針對多種模型生成的結果,考慮到最終的衡量名額是CIDEr,我們通過self-cider、ocr maximization 多種政策融合的方式進行結果融合。

▐  可應用的場景

Image captioning需要視覺了解與文本生成,是視覺和NLP任務的結合,可應用于網際網路産品的内容标題自動生成,另外也可以幫助盲人和視覺受損使用者提升他們對世界的感覺能力。

▐  賽事連結

  1. workshop:
https://vizwiz.org/workshops/2021-workshop/
  1. challenge:
https://eval.ai/web/challenges/challenge-page/739/overview

Herbarium 2021 - Half-Earth Challenge

Workshop:The Eight Workshop on Fine-Grained Visual CategorizationTask:fine-grained plant species identification

元年,蘭枻,琉潇,有鄰,暖雨,濟宇,籬悠

大規模執行個體級物體識别

Herbarium 2021屬于 CVPR2021 FGVC8 workshop的一項比賽,該workshop針對執行個體級細粒度識别問題,已經連續舉辦第八屆。

Herbarium 2021 比賽資料集為從多個大型植物園收集的美洲、大洋洲等半個地球的6.5W類2.5M張植物樣本圖檔,用于訓練植物識别算法,輔助植物學家進行植物識别,發現和保護新物種。

該資料集存在長尾分布,樣本數目最少的類别僅有3張樣本,同時,不同植物間視覺非常相似,同時同一植物的不同樣本有較大差異,給執行個體級識别帶來很大挑戰。

我們以F1 score 0.757的成績在該項比賽上取得了第一名的成績,遠超第二名的0.735和第三名的 0.689。

CVPR2021競賽結果出爐,阿裡淘系多媒體算法包攬3項國際冠軍

該任務主要存在以下兩個難點:

  1. 植物種類多、類别細,不同植物間視覺非常相似,而同一植物的不同樣本存在差異,導緻類間易混淆,區分難度大;
  2. 資料集的樣本分布不均衡,存在長尾分布,樣本數目最少的類别僅有3張樣本,如何提升長尾類别準确率至關重要。

将自然場景中執行個體級植物識别問題轉換成大規模細粒度特征表達問題,提出self-attention pooling進行局部特征增強提升特征表達能力;通過引入Imbalanced Sampler和自适應類别loss解決類别分布不平衡問題;此外,基于混合精度的大規模多機多卡訓練能力,實作近三百萬資料規模下的快速疊代能力。

實作高效萬級線上難樣本挖掘,極大提升了特征在複雜場景下的泛化能力。最終憑借領先亞軍2.2%的優勢,一舉獲得冠軍。

執行個體級的細粒度識别技術可辨識物體間細微的視覺差異進而實作精細的物體識别,廣泛應用于商品識别、動植物識别、行人識别、地辨別别等領域。

  1. Workshop:
https://sites.google.com/view/fgvc8/home
  1. Challenge:
https://sites.google.com/view/fgvc8/competitions/herbariumchallenge2021
  1. Kagg leleadboard:
https://www.kaggle.com/c/herbarium-2021-fgvc8/leaderboard

🏆 冠軍 🏆ActivityNet Home Action Genome Challenge

Workshop:International Challenge on Activity RecognitionTask:Home Action Genome Challenge

少麟,廖越(北航),詠亮,葉盈,籬悠,劉偲(北航)

視訊人物互動關系

Home Action Genome Challenge今年首次在CVPR2021 ActivityNet Workshop舉辦, 由斯坦福大學李飛飛教授課題組主辦,比賽提供了一個大規模多視角的視訊資料集,通過多模态視訊分析,檢測視訊中存在的人物互動關系。

我們以準确率76.5%的成績在該項比賽上取得了第一名的成績,大幅領先第二名的68.4%和第三名的65.7%。

CVPR2021競賽結果出爐,阿裡淘系多媒體算法包攬3項國際冠軍

Home Action Genome Challenge 獲獎證書

該任務主要有3個難點:

  1. 資料集的日常家居場景複雜,人體和物體的目标檢測難度大
  2. 人物關系包含動作關系和空間關系,關注不同的視覺特征
  3. 每一組人體和物體都存在多個人物關系,評估時必須完全正确才計一次正确

  1. 采用更好的檢測模型:我們采用Swin-Transformer和ResNeSt為backbone的性能SOTA的檢測模型,并通過多種資料增強政策訓練和多尺度融合推理,提升目标檢測的準确率。
  2. 強化人物關系的視覺特征:我們設計了融合兩階段和一階段關系檢測網絡的方案,首先将Swin-Transformer融入兩階段關系檢測網絡進行端到端訓練,然後改進一階段關系檢測網絡,直接提取<人,物>二進制組,再通過cascade結構判定關系,給出<人,物,關系>三元組。政策上,我們通過視覺特征判定動作關系,空間位置作為輸入輔助判定空間關系。
  3. 基于統計偏置的生成政策:我們在生成最終的人物互動關系組時,采用了融合<人,物,關系>三者共生機率和統計偏置權重的多種政策。

視訊人物互動關系檢測,檢測視訊中動态的<人,物,關系>的結構化資訊,未來可應用于視訊資訊結構化,人機互動等應用場景。

  1. Challenge: https://homeactiongenome.org/results.html
  2. http://activity-net.org/challenges/2021/challenge.html

繼續閱讀