天天看點

NeurIPS'22|Hinton團隊開源:一個統一接口處理四大視覺任務簡介本文架構實驗

NeurIPS'22|Hinton團隊開源:一個統一接口處理四大視覺任務簡介本文架構實驗

文|GlobalTrack 

源|極市平台

本文提出了一種将四個看似不同的視覺任務(目标檢測,執行個體分割,關鍵點檢測,圖像描述)統一在單個像素到序列界面中的方法。

NeurIPS'22|Hinton團隊開源:一個統一接口處理四大視覺任務簡介本文架構實驗

論文連結:

https://arxiv.org/pdf/2206.07669v2.pdf

源碼連結:

https://github.com/google-research/pix2seq

NeurIPS'22|Hinton團隊開源:一個統一接口處理四大視覺任務簡介本文架構實驗
簡介
NeurIPS'22|Hinton團隊開源:一個統一接口處理四大視覺任務簡介本文架構實驗

訓練能夠執行無數個任務的單個神經網絡模型是邁向通用人工智能的重要一步。在NLP領域,許多NLP相關任務都可以統一在大型語言模型下進行。主要原因是這些任務可以用相同的界面表示。而相似的方法目前在計算機視覺隻能用于圖像描述和圖像問答任務,主要是因為輸出是自然語言形式的,主題的計算機詩句任務有不同的輸出,不能像NLP有類似的表示。

本文提出了一種将四個看似不同的視覺任務(目标檢測,執行個體分割,關鍵點檢測,圖像描述)統一在單個像素到序列界面中的方法。本文方法是對在目标檢測任務中使用的Pix2Seq模型到一系列任務的擴充。

NeurIPS'22|Hinton團隊開源:一個統一接口處理四大視覺任務簡介本文架構實驗
本文架構
NeurIPS'22|Hinton團隊開源:一個統一接口處理四大視覺任務簡介本文架構實驗

令牌化的統一接口

一般認為不同的計算機視覺輸出是完全不同的。比如本文關注的四個任務:目标檢測任務需要模型産生對所有物體的包圍框,且沒有重複。執行個體分割任務需要模型産生對每一個物體的密集像素掩碼。人體關鍵點檢測需要模型生成與人體部位上的标志的特定位置相對應的點。圖像描述需要模型産生與圖像對應的自然語言描述。

本文方法提出一種對于四個關注任務的序列接口,即所有任務的描述和輸出都表示為若幹離散令牌組成的序列。

  • 目标檢測:一個物體由五個離散令牌表示,。每次訓練樣本時多個物體随機采樣序列化後形成最終令牌。
  • 執行個體分割:這裡預測執行個體掩碼的多邊形描述,并将多邊形描述為一序列的坐标,并将坐标轉為離散令牌。這裡每次采樣訓練圖檔對應的開始點的開始令牌是随機的。如果存在相同執行個體的多個多邊形,通過一個分割令牌聚集每個多邊形的表示序列。
  • 關鍵點檢測:類似地,這裡也是用一系列坐标表示關鍵點檢測結果,。這裡為了簡潔省略了關鍵點類别标簽。如果某個關鍵點被遮擋,相應的坐标令牌被一個特别的令牌取代。
  • 圖像描述:直接預測離散的文本令牌。

統一的架構和損失函數

這裡使用常用的encoder-decoder架構,包括一個圖像編碼器和一個序列解碼器。圖像編碼器接收像素資訊映射到隐藏的表示,一般用CNN,Transformer或組合架構。

與Pix2Seq方法隻關注單一任務不同的是,解碼器以一個任務的prompt為條件,直接為單個目标檢測任務産生輸出token,以便模型可以産生适應于關注任務的輸出。在訓練期間,模型将prompt和期望的輸出連接配接到單個序列中,利用token權重方案確定解碼器隻被訓練來預測期望的輸出,而不是prompt令牌。在推理過程中,prompt是給定的,并且是固定的,是以解碼器隻需要産生序列的其餘部分。類似于Pix2Seq方法,訓練目标是最大化基于圖像的令牌和之前的令牌的似然性。

多個任務的訓練

這裡給出兩種不同任務訓練資料合并的方法:

  1. 資料混合。合并不同任務的圖像和相應輸出序列。優點是建構很簡單,但很難加入圖像增廣。
  2. 批混合。采樣不同任務的圖像,經适合目前任務的增廣處理,合并令牌化的輸出序列得到圖像-序列對。這種方法可以獨立地為了一個任務計算損失和梯度,并以合适的權重融合不同任務的梯度。

本文方法考慮使用批混合政策。

推斷

在推理階段,在序列的開頭給出一個prompt,然後從模型的似然分布中采樣令牌。令牌得到後就可以為每個任務解碼。

NeurIPS'22|Hinton團隊開源:一個統一接口處理四大視覺任務簡介本文架構實驗
實驗
NeurIPS'22|Hinton團隊開源:一個統一接口處理四大視覺任務簡介本文架構實驗

表1給出了實驗結果。比較的模型包括:單一模型:模型用相同的架構和損失函數在單一任務上訓練,每個任務有自己的網絡權重。多任務模型:單一的網絡權重用于全部四個任務。結果表明本文方法可以在每一個任務上與baseline相比都能取得有競争力的結果(甚至是較小圖像尺寸輸入條件下)。

NeurIPS'22|Hinton團隊開源:一個統一接口處理四大視覺任務簡介本文架構實驗

圖4給出了如何選擇合适的各任務損失函數權重系數。這裡使用貪心政策。圖4(a)給出了搜素目标檢測與執行個體分割間權重比例的搜尋結果。可以看出在一個較廣的範圍内,兩個任務的性能都接近峰值。之後實驗簡單選擇2:8的權重比例。加入圖像描述任務後,在9:1的權重比例下是對目前任務是較合适的。加入關鍵點檢測後發現權重能設定的較小,這裡選擇為0.01。

NeurIPS'22|Hinton團隊開源:一個統一接口處理四大視覺任務簡介本文架構實驗

部分圖檔可視化結果:

NeurIPS'22|Hinton團隊開源:一個統一接口處理四大視覺任務簡介本文架構實驗
NeurIPS'22|Hinton團隊開源:一個統一接口處理四大視覺任務簡介本文架構實驗
NeurIPS'22|Hinton團隊開源:一個統一接口處理四大視覺任務簡介本文架構實驗
NeurIPS'22|Hinton團隊開源:一個統一接口處理四大視覺任務簡介本文架構實驗

背景回複關鍵詞【入群】

加入賣萌屋NLP、CV、搜推廣與求職讨論群