天天看點

Unified Vision-Language Pre-Training for Image Captioning and VQA

本文提出了一種統一的視覺語言訓練(VLP)模型..該模型的統一展現在兩點:

(1)可以對視覺語言生成(例如,圖像标題)或了解(例如,視覺問題回答)任務進行微調

(2)它使用共享的多層transformer網絡進行編碼和解碼,這不同于許多現有的方法,現有的編碼器和解碼器是使用單獨的模型實作的。

利用雙向和序列(seq2seq)mask視覺語言預測兩個任務的無監督學習目标,對大量的圖像-文本對進行了統一VLP模型的預訓練預測。兩項任務的差別僅在于預測所基于的上下文。這是通過為共享的transformer網絡使用特定的自注意掩碼來控制的。

這些模型使用兩階段訓練方案,第一步,稱為預訓練階段,學習上下文化的視覺語言表示;第二步,對預訓練模型進行了微調以适應下遊任務(即VQA,圖像描述等)。

Unified Vision-Language Pre-Training for Image Captioning and VQA
Unified Vision-Language Pre-Training for Image Captioning and VQA

VLP将編碼器和解碼器合并,并學習更通用的上下文視覺語言表示形式,該形式可更輕松地進行微調

Vision-Language Pre-training

使用現有的目标檢測器從圖像中提取固定數量的對象區域,表示為

Unified Vision-Language Pre-Training for Image Captioning and VQA

,對應的特征向量

Unified Vision-Language Pre-Training for Image Captioning and VQA

,區域物體的标簽為

Unified Vision-Language Pre-Training for Image Captioning and VQA

區域位置資訊

Unified Vision-Language Pre-Training for Image Captioning and VQA
Unified Vision-Language Pre-Training for Image Captioning and VQA

,以及詞向量

Unified Vision-Language Pre-Training for Image Captioning and VQA

,S 中的單詞表示為單熱矢量,這些矢量進一步編碼為具有嵌入大小 e 的單詞嵌入。

其中 d 是嵌入大小,l 訓示對象探測器的對象類數,o = 5 包含區域邊界框的左上角和右下角坐标的四個值(歸化為 0 和 1 之間),其相對區域的一個值(即邊界框區域與圖像區域的比率,也介于 0 和 1 之間)

我們的視覺語言變壓器網絡,将transformer網絡的編碼器和解碼器合并為一個模型,模型輸入包括類别識别區域嵌入,單詞嵌入和三個特殊标記。區域嵌入定義為

Unified Vision-Language Pre-Training for Image Captioning and VQA

其中[·| ·]表示要素維的級聯,LayerNorm表示圖層歸一化,第二項模拟BERT中的位置嵌入,但是添加了額外的區域類别資訊,并且W r,W p,W c,Wg是嵌入權重(偏置項和非線性項被省略)。請注意,在這裡,我們對r進行了重載,以表示類感覺區域嵌入。

我們定義了三個特殊标記[CLS],[SEP],[STOP],其中[CLS]訓示視覺輸入的開始,[SEP]标記視覺輸入和句子輸入之間的邊界,[STOP]确定句子的結尾。然後,在模型輸出中,将最後一個Transformer塊的隐藏狀态投影到單詞似然性,在該似然率中以分類問題的形式預測被屏蔽的标記。通過這種重構,模型可以學習上下文中的依賴關系并形成語言模型。

如圖2(右)所示,兩個目标之間的唯一差別在于self-attention mask,用于雙向目标的掩碼允許在視覺模态和語言模态之間無限制地傳遞消息,而在seq2seq中,将來要預測的單詞不能參與該單詞,即滿足自回歸屬性。

更正式地說,我們将第一個Transformer塊的輸入定義為:

Unified Vision-Language Pre-Training for Image Captioning and VQA
Unified Vision-Language Pre-Training for Image Captioning and VQA

,然後在不同級别的transformer上編碼

Unified Vision-Language Pre-Training for Image Captioning and VQA
Unified Vision-Language Pre-Training for Image Captioning and VQA
Unified Vision-Language Pre-Training for Image Captioning and VQA

在預訓練期間,我們在兩個目标之間交替進行批處理,并且seq2seq和雙向的比例分别由超參數λ和1-λ确定。

微調部分

我們将VQA架構作為一個多标簽分類問題..在本工作中,我們将重點放在開放域VQA上,其中最常見的答案被選擇為答案詞彙,并用作類标簽。在微調過程中,在[CLS]和[SEP]的最後隐藏狀态的元素級乘積之上學習多層感(Linear+ReLU+Linear+Sigmoi),利用交叉熵損失來優化軟答案标簽的模型輸出分數。

繼續閱讀