VQS: Linking Segmentations to Questions and Answers for Supervised Attention in VQA and Question-Focused Semantic Segmentation

文章目錄

VQS: Linking Segmentations to Questions and Answers for Supervised Attention in VQA and Question-Focused Semantic Segmentation
- Abstract
- 1. Introduction
- - - Two related datasets
  - 1.1. Applications of the segmentation-QA links
  - - 1.1.1 Supervised attention for VQA
    - 1.1.2 Question-focused semantic segmentation (QFSS)
- 2. Linking image segmentations to text QAs 将圖像分割連結到文本品質評估
- - 2.1.Annotation instructions 注釋說明
  - - Quality control 品質控制
  - 2.2. Tasks addressed by the participants
  - - Object detection 物體探測
    - Semantic segmentation 語義分割
    - Spatial relationship reasoning 空間關系推理
    - Fine-grained activity recognition 細粒度的活動識别
    - Commonsense reasoning 常識推理
  - 2.3. Data statistics 資料統計
- 3. Applications of VQS
- - 3.1.Supervised attention for VQA VQA的監督注意力
  - - - Experiment setup 實驗設定
      - MLP for VQA Multiple Choice MLP為VQA多選
    - 3.1.1 Augmenting MLP by supervised attention 通過監督關注增強MLP
    - - Question and answer features
      - Image features
      - Attention features注意特征。
    - 3.1.2 Experimental results 實驗結果
    - 3.1.3 What is good supervision for attention in VQA?在VQA，什麼是值得關注的良好監管？
  - 3.2. Question-focused semantic segmentation 以問題為中心的語義分割
  - - 3.2.1 Mask aggregation for QFSS
    - - An oracle upper bound
      - A baseline using deconvolutional network
    - 3.2.2 Experiments on QFSS
    - - Features特征
      - Dataset Split 資料集分割
      - Results 結果
- 4. Conclusion

Abstract

豐富而密集的人為标記資料集是近期視覺語言了解發展的主要因素。許多看似遙遠的注釋（例如，語義分割和視覺問答（VQA）），其本質上是互相聯系的，因為它們揭示了人類對相同視覺場景的了解的不同層次和視角-甚至是同一組圖像（例如，COCO的圖像）。COCO的流行與那些注釋和任務有關。明确地将它們聯系起來可能會使個人任務以及視覺語言的統一模組化都受益匪淺。

我們提出了将COCO提供的執行個體分割與VQA資料集中的問題和答案（QA）相關聯的初步工作，并将收集的連結命名為視覺問題和分割答案（VQS）。他們在以前單獨的任務之間轉移人員監督，為現有問題提供更有效的手段，并為新的研究問題和模型打開大門。我們在本文中研究了VQS資料的兩個應用：監督VQA的注意力和一個新的以問題為中心的語義分割任務。對于前者，我們通過使用分割-QA連結作為顯式監督學習的一些注意特征來簡單地增加多層感覺器，進而獲得關于VQA實際多選任務的最新結果。為了對後者進行觀察，我們研究了兩種可能的方法，并将它們與假設在測試階段給出了執行個體分割的oracle方法進行比較。

1. Introduction

近年來，将視覺了解與自然語言聯系起來受到了廣泛的關注。我們已經目睹了圖像字幕的複興[41，28，18，6，39，4，46，12，32，10]，這通常是通過用深度神經網絡對視覺和文本内容進行聯合模組化來解決的。然而，圖像字幕往往是多樣的和主觀的——很難評估由不同算法生成的字幕的品質[7，40，1]，并且往往會錯過微妙的細節——在訓練中，模型可能會導緻捕捉場景級的要點，而不是細粒度的實體。鑒于圖像字幕的前提和缺點，提出了并行的視覺問題回答(VQA) [3，50，35，13]和視覺基礎[34，15，36，27，16，42，49]，以适應對視覺實體(例如，場景，對象，活動，屬性，上下文，關系等)的自動評估和多級聚焦。).豐富而密集的人類注釋資料集可以說是視覺語言了解這一系列令人興奮的工作的主要“推動者”之一。COCO [24]在其中尤為引人注目。它主要包含經典标簽(例如，分割、對象類别和執行個體、關鍵點等)。)和圖像标題。許多研究小組随後為各種任務收集了可可圖像的附加标簽。Agrawal等人衆包了關于COCO圖像和抽象場景子集的問答(QaS)[3]。朱等。與圖像中的邊界框相關聯[50]。Mao等人[27]和Y u等人[49]讓使用者給出引用表達式，每個表達式在圖像中指出一個唯一的對象。視覺基因組資料集[21]也在圖像方面與可可相交，并提供密集的人類注釋，特别是場景圖。

這些看似遙遠的注釋在某種意義上是内在聯系的，它們揭示了人類對相同可可圖像了解的不同視角。COCO的流行可能與這些注釋——甚至任務——密切相關。正如我們所設想的，明确地将它們聯系起來，可以極大地有利于個體任務和統一的視覺語言了解，以及相應的方法和模型。我們在本文中的貢獻之一是啟動這方面的初步工作。特别是，我們着重于将COCO[24]提供的分割與VQA資料集[3]中的品質保證聯系起來。顯示圖像和關于圖像的問答配對，我們要求參與者選擇圖像的分段，以便直覺地回答問題。

【VQA文獻閱讀】VQS：将語義分割與視覺問答結合起來（ICCV2017）VQS: Linking Segmentations to Questions and Answers for Supervised Attention in VQA and Question-Focused Semantic Segmentation

圖1展示了一些收集的“可視化答案”。對于“狗旁邊是什麼？”，輸出應該是人的分割掩碼。對于“幾點了？”，時鐘應該分段輸出。另一個有趣的例子是，汽車是回答“這條街是空的嗎？”，為簡單文本回答“否”提供了必要的視覺證據。請注意，雖然在一個問題中可以提到許多視覺實體，但我們隻要求參與者選擇視覺上回答問題的目标分段。這簡化了注釋任務，并導緻參與者之間更高的一緻性。第2節詳細介紹了注釋收集過程和統計資料#

Two related datasets

達斯等人為VQA任務收集了一些人類注意力地圖[5]。他們模糊圖像，然後要求使用者抓撓圖像，以尋找有助于回答問題的視覺線索。得到的注意力圖往往很小，揭示的是有意義的部分，而不是完整的物體。對象部分也與背景區域以及彼此混合。是以，與我們在分割和品質保證之間建立的聯系相比，人類注意力地圖對基于注意力的VQA方法的監督可能不太準确。我們的實驗驗證了這個假設(參見第3節)。雖然在Visual7W [50]中為品質保證體系中的對象提及提供了邊界框，但除了“指向”類型的問題之外，它們并不用于直接回答問題。相比之下，我們以分段的形式為更多的問題類型提供直接的可視化答案。

1.1. Applications of the segmentation-QA links

我們将VQA資料集[3]中COCO分段[24]和品質保證對之間收集的連結稱為視覺問題和分段答案(VQS)。這種聯系在先前分離的任務之間轉移了人的監督，即語義分割和VQA。它們使我們能夠以比以前更有效的杠杆作用解決現有的問題，也為視覺語言了解的新研究問題和模型打開了大門。本文研究了我們的VQS資料集的兩個應用:VQA的監督注意和一個新的以問題為中心的語義分割任務(QFSS)。對于前者，我們通過簡單地用注意力特征擴充[17]的多層感覺器(MLP)來獲得關于VQA實多重選擇任務的最新結果。

1.1.1 Supervised attention for VQA

VQA旨在以短文形式回答關于圖像的自然語言問題。注意力方案通常通過關注特定的圖像區域[47，45，44，25，23]或模組化對象關系[2，26]而對VQA有用。然而，由于缺乏明确的注意力注釋，現有方法選擇潛在變量并使用間接線索(如文本答案)進行推理。是以，機器生成的注意力圖與人類注意力圖的相關性很差[5]。這并不奇怪，因為由于缺乏明确的訓練信号，潛在變量很難比對語義解釋；類似的觀察也存在于其他研究中，例如，目标檢測[8]，視訊識别[11]和文本處理[48]。這些現象強調了在視覺和文本答案之間建立明确聯系的必要性，這在VQS的作品中得到了展現。我們表明，通過使用所收集的分割問答連結來參與不同圖像區域的監督學習，我們可以将簡單的MLP模型[17]提升到在VQA真實多項選擇任務上非常引人注目的性能。

1.1.2 Question-focused semantic segmentation (QFSS)

以問題為中心的語義分割(QFSS)

除了為更好地解決VQA問題而受到監督的關注之外，VQS還使我們能夠探索一種新穎的以問題為中心的語義分割(QFSS)任務。因為VQA隻需要文本答案，是以對于學習代理來說存在潛在的捷徑，例如，生成正确的答案而不需要精确地推理不同視覺實體的位置和關系。雖然視覺基礎(VG)通過在目标視覺實體上放置邊界框[34，36，27，16]或分割[15]來避免警告，但是現有VG作品中文本表達的範圍通常限于圖像中存在的視覺實體。為了将VQA和VG的優點結合在一起，我們提出了QFSS任務，其目标是産生像素級分割，以便直覺地回答關于圖像的問題。它有效地借用了VQA的通用問題，同時在像素分割作為期望的輸出方面類似于VG的設計。

給定一幅圖像和一個關于該圖像的問題，我們提出了一種掩碼聚合方法來生成一個分割掩碼作為視覺答案。由于QFSS是一個新的任務，從長遠來看，我們不僅将建議的方法與競争基線進行比較，而且還通過假設所有執行個體分段在測試階段都作為預言給出來研究一種上限方法。

胡等人的著作[15]與最為相關。他們學習以圖像分割的形式來表達文本。與本書中使用的問題不同，本書靈活地結合了常識和知識庫，而[15]中文本短語的表達範圍通常僅限于相關圖像中的視覺實體。本文的其餘部分組織如下。

第2節詳細介紹了我們的VQS資料的收集過程和分析。在第3節中，我們展示了如何使用收集的分割-問答連結來學習監督注意特征和增強現有的VQA方法。在3.2節中，我們研究了一些潛在的架構來解決新的以問題為中心的語義分割任務。第四部分總結全文。

2. Linking image segmentations to text QAs 将圖像分割連結到文本品質評估

在本節中，我們較長的描述了如何收集語義圖像分割和文本問答之間的連結。我們的工作建立在COCO[24]中的圖像和執行個體分割遮罩以及VQA資料集[3]中的品質保證基礎上。COCO圖像主要是關于日常場景，包含自然環境中的常見對象，适應不同視覺實體之間的複雜互動和關系。為了避免分割和品質保證對之間的瑣碎聯系，我們在這項工作中隻保留包含至少三個執行個體分割的圖像。VQA [3]中的問題多種多樣，涵蓋了圖像的各個部分、不同層次的語義解釋以及常識和知識庫。接下來，我們詳細說明注釋說明，并提供一些關于收集的資料集的分析。

2.1.Annotation instructions 注釋說明

我們向注釋者顯示一個圖像，它在COCO資料集中的執行個體分割，以及一個關于來自VQA資料集的圖像的問答配對。除了問題之外，還會給出文本答案，以友善參與者選擇正确的分段作為視覺答案。以下是我們給注釋者的說明(參見圖形使用者界面的補充材料):

請在圖像中選擇正确的分割來回答問題。請注意，文本答案顯示在問題之後。
關于目标實體的問題可能會使用其他實體來幫助引用目标。隻選擇目标實體，不選擇其他實體(例如，“女人旁邊的長凳上有什麼？”在圖2(g)中)。
問題可能與某項活動有關。選擇活動中涉及的所有視覺實體。以圖2(j)為例，選擇人和機車來回答“這個人在做什麼？”。
有時，除了分割遮罩覆寫的圖像區域，您可能還需要其他區域來回答問題。要包含它們，請在區域上繪制緊密的邊界框。
對于“多少”類型的問題，所選部分的數量(加上邊界框)必須與答案相比對。如果答案大于3，在問題中被詢問的實體周圍放置一個邊界框是很好的。
如果您認為問題必須通過完整圖像來回答，請勾選問題下方的黑色按鈕。
如果您覺得問題不明确，或者您不确定選擇哪個部分/地區來回答問題請勾選問題下方的灰色按鈕。

偶爾，視覺回答應該隻是COCO給出的執行個體片段的一部分。例如，麥當勞的标志回答“能看到什麼快餐店？”在圖2(o)中，但是在COCO中沒有相應的徽标分割。再比如戒指上回答“女方戴戒指了嗎？”(參見圖2 ( c ) )。對于這些情況，我們要求參與者在他們周圍畫出緊密的邊界框。如果我們将它們分割出來，QFSS的學習代理可能永遠無法為它們産生正确的分割，除非我們在将來包含更多的訓練圖像，因為這些區域(例如，麥當勞标志、環)是非常細粒度的視覺實體，在我們的資料收集過程中隻出現幾次。

Quality control 品質控制

我們在開始的時候嘗試了AMTurk來收集注釋。雖然注釋者之間在關于對象和人的問題上的一緻程度很高，但是對于涉及活動的問題有許多不一緻的注釋(例如，“玩什麼運動？”).此外，AMTurk的從業人員傾向于經常勾選黑色按鈕，表示完整的圖像是視覺答案，灰色按鈕，表示問題是模糊的。為了獲得更高品質的注釋，我們邀請了10名大學生和研究所學生志願者，并親自對他們進行了教育訓練(我們在補充材料中包括了一些用于教育訓練的幻燈片)。為了進一步控制注釋品質，每個注釋者被要求完成100幅圖像(大約300個問答對)的作業，然後我們再次與他們會面，一起檢視他們的注釋所有的志願者都被要求參與讨論，并共同決定每個問題的預期注釋。作為對高品質工作的獎勵，我們還逐漸将小時工資從12美元/小時提高到14美元/小時。

2.2. Tasks addressed by the participants

由于阿格沃爾等人收集了豐富的問題集[3]和COCO[24]中複雜的視覺場景，參與者必須解析問題，了解視覺場景和上下文，推斷視覺實體之間的互動，然後拾取回答問題的分段。我們發現許多視覺任務可能在這個過程中發揮作用。圖2顯示了一些典型的例子，以友善下面的讨論。

Object detection 物體探測

許多問題直接詢問圖像中一些對象的屬性。在圖2(b)中，參與者應該在“咖啡杯是什麼顔色？”這個問題的混亂場景中識别杯子。

Semantic segmentation 語義分割

對于某些問題，答案的視覺證據最好用語義分段來表示。以圖2(j)和(k)為例。簡單地檢測騎車人和/或自行車不足以表達他們的空間互相作用。

Spatial relationship reasoning 空間關系推理

類似“女人旁邊的長椅上是什麼？”(圖2(g))通過包括長凳、女人和答案包在内的物體之間的空間關系向參與者提出了挑戰。圖2(i)是這個領域的另一個例子。

Fine-grained activity recognition 細粒度的活動識别

當問題是關于一項活動時(例如，“正在進行什麼運動？”在圖2(1)中，我們要求參與者标記所有涉及的視覺實體(例如，人、網球拍和網球)。換句話說，他們應該發現活動的細節。

Commonsense reasoning 常識推理

常識知識可以幫助參與者顯著減少對問題答案的搜尋空間，例如，回答“幾點了？”在圖1中，用麥當勞的标志來回答“能看到什麼快餐店？”如圖2(o)所示。

2.3. Data statistics 資料統計

在收集注釋之後，我們移除問題-圖像對，對于這些問題-圖像對，使用者分别選擇黑色按鈕(完整圖像)或灰色按鈕(未知)來避免瑣碎和模糊的分割-問答連結。總的來說，我們保留了37，868幅圖像、96，508個問題、108，537個執行個體分割和43，725個邊界框。在下文中，我們不區分分割和邊界框，以便于呈現，也是為了邊界框緊密、小，并且比分割少得多。

圖3統計了在回答一個問題時，每個圖像所選擇的執行個體分割的可能數量的分布。超過70%的問題由一個細分回答。平均而言，每個問題圖像對有6.7個候選分割，其中1.6個被标注者選擇作為視覺答案。

在圖4中，我們可視化了問題類型的分布。最受歡迎的類型是“什麼”問題(46%)。共有31，135個“是/是”和“做/做”問題(32.1%)。請注意，盡管對這些問題的文本回答隻是簡單的是或否，但在VQS，我們要求參與者通過制作語義分割遮罩來明确地展示他們對視覺内容的了解。在表3的第三列中，我們顯示了使用者從每種問題類型的平均候選人數中選擇的平均分段數。

3. Applications of VQS

使用者将視覺問題和分段聯系起來，後者在視覺上回答前者，這是非常通用的。它們為至少兩個問題提供了比以前更好的杠杆作用，即VQA的監督注意和以問題為中心的語義分割(QFSS)。

3.1.Supervised attention for VQA VQA的監督注意力

VQA旨在以短文形式回答關于圖像的自然語言問題。我們猜想，在訓練中，如果使用者連結到品質保證體系的分段具有特權通路權，學習代理可以産生更準确的文本答案。為了驗證這一點，我們設計了一個簡單的實驗來擴充[17]中的MLP模型。增強MLP顯著改進了普通版本，并在VQA真正的多項選擇任務中産生了最先進的結果[3]。

Experiment setup 實驗設定

我們在VQA真多重選擇上進行實驗[3]。該資料集包含248，349個教育訓練問題、121，512個驗證問題和244，302個測試問題。每個問題有18個候選答案選擇，學習代理需要找出其中的正确答案。我們按照[3]中建議的名額評估我們的結果。

MLP for VQA Multiple Choice MLP為VQA多選

由于VQA多項選擇任務為每個問題提供了候選答案，賈布裡等人建議将問題轉化為一堆二進制分類問題[17]，并通過多層感覺器(MLP)模型來解決它們:

其中 x i q a x_iqa xiqa是圖像的特征表示、關于圖像的問題和候選答案的連接配接，σ(·)是sigmoid函數。隐藏層有8096個機關和一個ReLU激活。這種模式很有競争力，盡管很簡單。

3.1.1 Augmenting MLP by supervised attention 通過監督關注增強MLP

我們建議通過更豐富的問題、答案、圖像的特征表示來擴充MLP模型特别是通過下面較長的描述的監督注意特征。

Question and answer features

xq&xa。對于一個問題或答案，我們通過對組成單詞的300個單詞2vec [29]向量進行平均，然後進行l2 normalization來表示它。這與[17]中的相同。

Image features

我們從輸入圖像中提取兩種類型的特征:ResNet [14] pool5激活和屬性特征[43]，後者是屬性檢測分數。我們通過修改ResNet的輸出層實作了一個屬性檢測器。特别地，給定C = 256個屬性，我們為每個屬性強加一個sigmoid函數，然後使用二進制交叉熵損失來訓練網絡。訓練資料從COCO圖像字幕[24]中獲得。我們将最頻繁出現的256個單詞作為屬性保留下來。

Attention features注意特征。

我們進一步将注意力特性 x a t t x_{att} xatt連接配接到原始輸入 x i q a x_{iqa} xiqa。注意力特征是由[47，eq]中圖像區域特征和問題特征的權重組合所激發的。(22)]，其中每個圖像區域的非負權重 p i = f ( Q p_i= f(Q pi=f(Q，{ri} ) ) )是問題Q和區域特征{ri}的函數。我們借用了楊等人[47，第3.3節]的網絡架構和代碼實作來實作此功能，隻不過我們通過交叉熵損失來訓練此網絡，以将權重{pi}與從資料集中的分段中獲得的“基本事實”注意相比對。特别地，我們将與每個問題圖像對相關聯的分割圖下采樣到與圖像區域的數量相同的大小，然後l1将其歸一化為有效的機率分布。通過訓練網絡使權重 p i = f ( Q p_i= f(Q pi=f(Q，{ri} ) ) )與這種關注相比對，我們對與使用者選擇的分割相對應的區域實施更大的權重。

圖5的上半部分顯示了提取注意力特征的過程，下半部分顯示了MLP模型[17]，該模型增加了我們對VQA多項選擇題的注意力特征。

3.1.2 Experimental results 實驗結果

表1報告了在VQA真實多項選擇任務中用幾種最先進的方法增強MLP注意特征的比較結果。我們主要使用測試開發進行比較。在确定了我們最好的單個模型和集合模型之後，我們還将它們送出給評估伺服器，以擷取測試标準的結果。

首先，我們注意到，通過簡單地使用所學的注意力特征(MLP +ResNet+Atten.)來增強它，相對于普通的MLP模型(MLP +ResNet)有1.5%的絕對改善。).

第二，圖像的屬性特征實際上相當有效。通過用屬性特征替換ResNet圖像特征，我們獲得了比普通MLP 1.0%的改進。(參見MLP +Attri. vs MLP+ResNet)。盡管如此，通過将注意力特征附加到MLP + Attri.，我們仍然可以觀察到1.1%的絕對增益。最後，用五個MLP+ ResNet + Atten.的模型和五個MLP + Attri. + Atten. 截止到論文送出日期，我們送出給評估伺服器的論文在VQA真實多項選擇任務的測試标準中排名第二。

3.1.3 What is good supervision for attention in VQA?在VQA，什麼是值得關注的良好監管？

在這一節中，我們将VQS資料與人類注意力地圖[5]和緊緊圍繞VQS分割的邊界框進行對比。

表2中報告的比較結果是在VQA真實多項選擇的測試開發資料集上評估的。我們可以看到，連結到品質保證的分割比包圍盒産生更好的結果，這進一步優于品質保證。這些确認源對象在VQA的注意力的監督學習中可能是最佳的，因為它們通常顯示對象的小部分并包含大部分背景。然而，我們認為研究VQS的更一般的基于注意力的VQA模型仍然是有趣的[47，45，44，25，23，2，26]。

在補充材料中，我們描述了內建模型的詳細實作。我們還展示了研究不同分辨率的分割遮罩如何影響VQA結果的其他結果。

3.2. Question-focused semantic segmentation 以問題為中心的語義分割

這一部分探索了一個新的任務，以問題為中心的語義分割(QFSS)，這是可行的，因為收集的VQS連接配接了兩個以前分開的任務(即分割和VQA)。給定一個關于圖像的問題，QFSS期望學習代理通過從圖像中語義分割出正确的視覺實體來輸出視覺答案。它的設計方式類似于自然語言表達式的分割[15]，可能應用于機器人視覺、照片編輯等。

為了正确地看待新的任務，我們提出了一種針對QFSS的掩碼聚合方法，研究了一個基線，并通過假設在測試階段所有的執行個體分段都作為預言給出，研究了一種上限方法。

3.2.1 Mask aggregation for QFSS

我們提出了一種解決QFSS問題的掩碼聚合方法。模組化假設是期望的輸出分割掩模可以由高品質的分割建議組成。特别地，我們使用由SharpMask[33]給定圖像生成的N = 25個分割建議e1、e2、… ,eN 每個建議都是與圖像大小相同的二進制分割掩碼。

然後，我們将這些掩碼

的凸組合門檻值化為響應問題圖像對的最終輸出，其中第I個組合系數sii由問題特征 x q x_q xq和第I個分割建議的表示 z i z_i zi通過softmax函數确定，即si= softmax( x q T x^T_q xqT A z i Az_i Azi)。我們通過最小化使用者選擇的segmentationsE⋆and和模型生成的分割掩模e之間的L2損失來學習模型參數α。我們的目前模型是“淺的”，但是使其變深是直接的，例如，通過按照先前的實踐(例如，記憶網絡[44]和堆疊的注意力網絡[47])将其輸出與原始輸入堆疊。

An oracle upper bound

我們通過

1)用MSCOCO釋出的所有執行個體分段替換分段建議，假設它們在測試中作為預言可用，以及

2)使用二進制分類器來确定執行個體分段是否應該包括在可視答案中，來設計所提出方法的上限。結果可以被認為是我們的方法的上限，因為分割肯定比機器生成的建議更準确，并且二進制分類可以說比聚集多個掩碼更容易解決。我們重新訓練MLP(eq.1)這裡為二進制分類器；現在，它将分段和問題的串聯特征作為輸入。圖6用一個具體的問題圖像例子描述了所提出的方法和upperbound方法。

A baseline using deconvolutional network

最後，我們研究了一個受FCN [15]文本制約的競争基線。如圖7所示，它包含三個元件，一個卷積神經網絡[22]，一個去卷積神經網絡[30]，以及一個在CNN中參與特征映射的問題嵌入。所有圖像都被調整到224 × 224。卷積和反卷積網絡遵循[30]中的規範。也就是說，VGG-16 [38]被修剪到最後一個卷積層，然後是兩個完全連接配接的層，然後由解卷積網絡鏡像。對于輸入問題，我們使用嵌入矩陣将其映射到與最後一個卷積層的特征映射相同的大小。問題嵌入然後是元素-wsie乘以特征映射。我們用輸出掩碼和基本事實分段掩碼之間的L2損失來訓練網絡。

3.2.2 Experiments on QFSS

Features特征

除了使用第3.1.1節中的單詞嵌入特征 x q x_q xq來表示問題之外，我們還測試了單詞包特征。對于每個執行個體分割或建議，我們用0屏蔽掉圖像中的所有其他像素，然後從ResNet-152 [14]的最後一個池層提取其特征。

Dataset Split 資料集分割

我們用的夏普Mask是從MS COCO的訓練集裡學來的。是以，我們以這樣一種方式分割我們的VQS資料，即我們的測試集不與夏普Mask的訓練集相交。特别是，我們使用26，995張圖檔和相應的68，509個問題作為我們的訓練集。我們将剩餘的圖像和問題分成兩部分:5000個圖像和相關的驗證問題，以及5873個圖像和14875個問題作為測試集。

Results 結果

表3報告了QFSS的比較結果，通過交叉合并進行評估。此外，前三列是關于不同類型問題的數量和每個問題類型的使用者選擇的分段的平均數量。平均而言，任何問題類型都會選擇多個細分。

首先，我們注意到所提出的掩碼聚合優于基線解卷積，但明顯差于其上限方法。掩碼聚合優于解卷積，部分原因是它實際上使用了VQS資料之外的額外監督資訊；也就是說，在微軟COCO的訓練集中的所有執行個體分割。上限結果表明，掩碼聚合架構仍有很大的改進空間；一種可能性是在将來的工作中深入研究。

此外，我們還發現，兩種問題表示法，單詞包表示法和單詞嵌入表示法，無論是對掩碼聚合還是對解模糊網絡都産生了可區分的結果。這個觀察很有趣，因為它暗示了QFSS任務對問題表征方案有反應。是以，可以合理地預期，QFSS将從聯合視覺和語言模組化方法的進步中受益并取得進步。

最後，圖8顯示了一些定性的分割結果。請注意第一行中兩個獨立的執行個體分段，它們直覺地回答了“有多少個”的問題。

4. Conclusion

在本文中，我們建議将COCO [24]提供的執行個體分段與VQA [3]中的問題和答案聯系起來。收集的連結，命名為視覺問題和分割答案(VQS)，在語義分割和VQA的個體任務之間轉移了人類的監督，進而使我們能夠以比以前更好的杠杆研究至少兩個問題:VQA的監督注意和一個新的以問題為中心的語義分割任務。對于前者，我們通過簡單地用一些注意力特征增加多層感覺器來獲得關于VQA實選擇題的最先進的結果。對于後者，我們提出了一種基于掩碼聚合的新方法。從長遠來看，我們研究了一種基線方法和一種上限方法，假設執行個體分割是作為預言給出的。

我們的工作是從觀察可可的受歡迎程度得到啟發的[24]。我們懷疑現有的和看似不同的關于MSCOCO圖像的注釋是内在聯系的。它們揭示了人類對同一視覺場景了解的不同層次和視角。顯式地将它們聯系起來不僅可以顯著地有利于個體任務，還可以顯著地有利于統一視覺的總體目标——語言了解。這篇論文隻是表面文章。我們将在未來的工作中探索更多類型的注釋和更豐富的模型。

Acknowledgement這項工作得到了美國國家科學基金會獎的部分支援，該獎由Adobe系統公司頒發，由英偉達公司頒發。c .甘獲得國家基礎研究計劃(2011CBA00300 &2011CBA00301)和國家自然科學基金(61033001 & 61361136003)部分資助。