聲明：全是結合論文加自己簡單了解，可能存在了解錯誤，望見諒，不足很多沒寫，歡迎補充。

論文筆記總結

1. 寫在前面

模型的實驗準确度對比如下：

Y/N	Num	Other	All	test-std All	年份
SAN	79.3	36.6	46.1	58.7	58.9	2016
H-COA	79.7	38.7	51.7	61.8	62.1	2017
MUTAN	85.14	39.81	58.52	67.42	67.36	2017
BAN	85.42	54.04	60.52	70.04	70.35	2018
BLOCK	82.86	44.76	57.3	66.41	-	2019
MUREL	84.77	49.84	57.85	68.03	68.41	2019
Counter	83.14	51.62	58.97	68.09	68.41	2018
DFAF	86.09	53.32	60.49	70.22	70.34	2019
MLIN	87.07	53.39	60.49	71.09	71.27	2019
ReGAT	86.08	54.42	60.33	70.27	70.58	2019

2. Stacked Attention Networks for Image Question Answering

論文位址

項目位址

視覺問答VQA論文近期總結論文筆記總結

2.1 論文提出原因

作者認為解決視覺問答的問題,隻I+LSTM這種算法是不夠的,如同人觀察圖像一樣,它也是一個多步推理循循漸進的過程.由此作者提出堆疊式注意力模型,逐層去關注與問題更接近的圖像區域.

論文思想:

首先利用問題q查詢第一視覺注意層的圖像向量v,求得第一層經過問題指導，獲得圖像區域的關注度

irep_1 = self.image1(image) #将圖像特征進行線性變換
qrep_1 = self.question1(question).unsqueeze(dim=1)  #将問題特征線性變換并添加一個次元
ha_1 = self.tanh(irep_1 + qrep_1)
ha_1 = self.dropout(ha_1)
pi_1 = self.softmax(self.attention1(ha_1))

将問題向量q與經過問題查詢後的v結合得到查詢向量u

u_1 = (pi_1 * image).sum(dim=1) + question

在利用u查詢第二視覺注意層的圖像向量.

irep_2 = self.image2(image)
qrep_2 = self.question2(u_1).unsqueeze(dim=1)
ha_2 = self.tanh(irep_2 + qrep_2)
ha_2 = self.dropout(ha_2)
pi_2 = self.softmax(self.attention2(ha_2))
u_2 = (pi_2 * image).sum(dim=1) + u_1

再利用最後一層與問題最相關的圖像區域去預測答案

w_u = self.answer_dist(self.dropout(u_2))

2.2 實驗結果

視覺問答VQA論文近期總結論文筆記總結

2.3 論文優勢與不足

論文優勢:

論文借鑒堆疊注意力在圖像字幕中的應用，将其應用到視覺問答中，從對比實驗中可看出這是視覺問答任務中初次使用注意力模型，是以算是經典的視覺問答模型。

論文将人觀察事物的過程引用到視覺問答任務過程，建立了堆疊式注意力網絡。

用問題觀察圖像擷取第一層的查詢向量u1，再用u1作為第二層的問題向量擷取第二層的查詢向量u2，層數越高的u的問題與圖像關注的區域更相關。

論文不足：

①由于論文年份較久遠，采用圖像特征提取是VGG16，問題模型采用的是LSTM。且圖像模型，問題模型，注意力模型是分别進行訓練，是以這非常費時。

②論文最後預測答案，采用的直接采用的是一個nn.Linear線性分類器變換成1000維的類别數目，後來論文可知，答案有3000多種，顯然1000是不夠的，造成這個不足也可能這裡的代碼不是作者本人寫的原因。

3. Hierarchical Co-Attention for Visual Question Answering[2017]

論文位址

項目位址

視覺問答VQA論文近期總結論文筆記總結

3.1 論文提出原因

注意力雖然被一些研究者引入到VQA中，但是大多隻關注圖像區域的注意權重，沒有考慮到問題。是以作者提出一個共同注意力同時關注圖像和問題，采取的政策有：平行共同注意和交替的共同注意。

3.2 實驗結果

視覺問答VQA論文近期總結論文筆記總結

3.3 論文優勢與不足

論文的優勢：論文首次提出共同關注圖像和問題的注意力，同時論文在問題上還分了三個層次：詞語，短語，句子。在每個級别上都應用共同注意。

論文不足：雖然作者同時關注了圖像和問題的注意力，但是為了避免計算的複雜度缺少兩模态間的互動。

4. MUTAN:Multimodal Tucker Fusion For Visual Question Answering

論文位址

項目位址

視覺問答VQA論文近期總結論文筆記總結

4.1 論文提出原因

作者發現雖然雙線性模型方法考慮了多模态的互動，但是面臨了次元爆炸的問題，是以作者引入了新的方法：MUTAN（多模态張量的Tucker分解）。同時作者還設計了一個低秩矩陣分解來限制互動等級。

4.2 論文實驗結果

視覺問答VQA論文近期總結論文筆記總結

4.3 論文優勢與不足

優勢：論文提出的是基于Tucker分解的多模态融合技術，解決了多模态互動間W次元爆炸的問題。

同時作者增加了核心張量Tc，并采用結構化稀疏性限制進一步來控制模型的參數數量。

5. Bilinear Attention Networks [2018]

論文位址

項目位址

視覺問答VQA論文近期總結論文筆記總結

5.1 論文提出原因

雖然注意力能夠有效的選擇圖像中與問題相關的區域，但對于多模态如果為每個模态的輸入通道都提供注意力，這個計算成本會非常高，co-attention雖然想到了為兩個模态分别單獨設定注意，但是忽略了兩個模态之間的互動。基于此，作者提出了BAN（雙線性注意網絡模型）。當然作者也不是憑空想象出的雙線性模型，而是基于低階雙線性池化技術上，提出的BAN。

5.2 論文實驗結果

視覺問答VQA論文近期總結論文筆記總結

5.3 論文優勢與不足

優勢：

論文是首次在共同注意中使用了雙線性模型，考慮到了模型間的互動。

關于多模态互動的複雜度上，論文使用low-rank低階雙線性進行高次元分解。

除此之外論文還利用了别人的剩餘連接配接網絡創造了自己的多模态剩餘網絡MRN。有效地利用多重雙線性注意圖

6. MUREL: Multimodal Relational Reasoning for Visual Question Answering【2019】

論文位址

項目位址

視覺問答VQA論文近期總結論文筆記總結

6.1 論文提出原因

作者認為雖然注意力關注了與問題相關的圖像區域，但是缺少内部間豐富的關系推理，僅是将視覺推理限制為對于回答問題相關區域進行軟選擇。這對這種像VQA一樣的多模态任務來說是不夠的，是以作者引入了Murel一種基于端到端學習的多模态關系網絡對真實圖像的推理。為了能夠充分表達問題區域和圖像區域之間的細粒度互動，引入了murel cell，一種原推理原語子能夠表示問題區域和圖像區域之間的豐富互動。還采用了pairwise combinations模組化區域關系。再将murel cell 整合到Murel network中進行疊代，此處靈感來自于綜合推理的clevr資料集，使其逐漸改進問題與圖像的互動，得到比注意力更精細方案。

6.2 論文實驗結果

視覺問答VQA論文近期總結論文筆記總結

6.3 論文優勢與不足

優勢：本文通過圖像區域之間的視覺嵌入和空間坐标之間的互相作用來表示成對的圖像區域，進而在表示中引入空間和語義上下文的概念，利用更豐富的雙線性融合模型和明确地包含區域之間的關系來改善圖像區域與問題之間的互相作用。進一步提高VQA任務的準确度。

7. BLOCK: Bilinear Superdiagonal Fusion for Visual Question Answering and Visual Relationship Detection[2019]

論文位址

項目位址

視覺問答VQA論文近期總結論文筆記總結

7.1 論文提出原因

本文作者和MUTAN作者是一個，作者認為雙線性模型的參數個數在輸入次元上是二次的，由張量T定義，但是當輸入次元增長時，T的參數的數量就會越來越大，是以因為雙線性模型帶來了參數爆炸問題，為了減少參數，MUTAN采用的是Tucker分解技術，而BLOCK利用了block-item rank分解的塊超對角融合。

7.2 論文實驗結果

視覺問答VQA論文近期總結論文筆記總結

7.3 論文優勢與不足

優勢：BLOCK能夠對多模态能夠模組化非常豐富的互動。降低了多模态融合中特征權重T的參數數目。

8. Multi-modality Latent Interaction Network for Visual Question Answering【2019】

論文位址

論文項目：無

視覺問答VQA論文近期總結論文筆記總結

8.1 論文提出原因

目前的研究大多模拟單個單詞或者單個區域之間的關系，作者認為這樣不足以來正确回答問題。因為回答一個問題要總結下問題的意思和圖像的大概内容，是以基于此，作者就想能不能建立一個模拟潛在圖像概要和語言概要的跨模态關系。是以作者創造了一個MLI（多模态潛在互動）模型，而且該子產品還可以類似Hi-coattention堆疊若幹階段。

8.2 論文實驗結果

視覺問答VQA論文近期總結論文筆記總結

8.3 論文優勢與不足

優勢：

由于模型首先将問題和圖像特征編碼為少量的潛在視覺概要向量和問題概要向量，每個概要向量可以表示為視覺或單詞特征上的權重池，是以模型從全局的角度總結了每種模态的某些方面。是以編碼的特征也更豐富。

與DFAF相比，作者提出的多模态潛表示能更好地捕獲多模态互動。

9. Learning to Count Objects in Natural Images for Visual Question Answering

總模型

視覺問答VQA論文近期總結論文筆記總結

分步：圖1：對象内部邊緣，圖2：對象間邊緣

A = a*a^T, D=1-IOU(bi,bj)

視覺問答VQA論文近期總結論文筆記總結

9.1 論文提出原因

雖然現有的研究技術能夠對圖像中的對象進行計數，但是很難解決資料集偏差之外的任何計數問題，原因可能是軟注意機制，而且VQA任務的計數還不能影響其他非計數問題的性能。然而任何場景下的圖像中的對象都可能出現重複計算的問題。基于以上原因作者提出了可分解的神經網絡元件。

9.2 論文實驗結果

視覺問答VQA論文近期總結論文筆記總結

9.3 論文優勢與不足

優勢：

作者提出的克分解的神經網絡元件不僅可以和注意力機制一起使用避免了軟注意機制的基本限制，同時産生了避免重複計算對象的強大計數功能。

在避免重複計數方式中消除重複邊時針對性的分别采用對象内部邊緣和對象間邊緣方式。

在比較兩個邊界框時，采用了IOU交并比。（IOU是目标檢測中預測對象的邊界框與真實框的比值，理想狀态下為1。），此處的IOU反映的是兩個檢測對象的框的重疊程度。這樣可以有效消除重複對象。

不足：

作者僅是在關于對象計數的方向上讓模型的準确度提高了一點，但是沒有考慮非計數任務的準确度。

10. Dynamic Fusion with Intra- and Inter-modality Attention Flow for Visual Question Answering

論文位址

項目位址：

模型架構

視覺問答VQA論文近期總結論文筆記總結

模态内注意力流子產品說明

視覺問答VQA論文近期總結論文筆記總結

10.1 論文大概

本文作者發現前人研究隻關注模态間關系（MUTAN，BAN等一個模态受其他模态的影響的注意力關注度），或者隻關系模态内關系（在自然語言處理的Bert），但是沒有模型将它倆同時考慮，作者認為模态間的關系應該和模态内的關系有一定的互補關系，是以提出了同時考慮模态間和模态内的DFAF模型。

10.2 論文實驗結果

視覺問答VQA論文近期總結論文筆記總結

10.3 優勢

作者提出的DFAF整合了交叉模态的自我注意和交叉模态的協同注意，同時考慮了模态間和模态内的注意力，在模态内，圖像和問題求其自我注意力權值并且合并權重資訊，在模态間采用協同注意力機制生成多模态的協同注意力矩陣；進而使模型的準确度得到了提高。

11. Relation-Aware Graph Attention Network for Visual Question Answering

論文位址

項目位址

模型

視覺問答VQA論文近期總結論文筆記總結

11.1 論文大概

作者認為雖然前人的研究也考慮到了關系，但是在圖像和自然語言之間仍然存在着顯著的語義差距，因為模型不僅需要識别物體還要考慮物體相對于其他物體的位置，基于此作者分别考慮了顯性關系即語義關系和空間關系和隐式關系。為了能夠更好的反映對象之間的關系，作者引入了一個圖注意網絡，将隐式關系編碼成完全連接配接圖，然後如果特征存在語義或者空間位置資訊時，再分别基于隐式關系的完全圖進行修剪來建立語義圖和空間圖。

11.2 論文實驗結果

視覺問答VQA論文近期總結論文筆記總結

11.3 論文優勢

優勢：論文中不僅考慮了位置間的空間關系，文字間的語義關系還考慮了潛在的隐藏關系。并分别對其建立圖注意，此方法進一步縮短了圖像和問題之間的語義差距，進而提高了模型的準确度，

視覺問答VQA論文近期總結論文筆記總結

論文筆記總結

1. 寫在前面

2. Stacked Attention Networks for Image Question Answering

2.1 論文提出原因

2.2 實驗結果

2.3 論文優勢與不足

3. Hierarchical Co-Attention for Visual Question Answering[2017]

3.1 論文提出原因

3.2 實驗結果

3.3 論文優勢與不足

4. MUTAN:Multimodal Tucker Fusion For Visual Question Answering

4.1 論文提出原因

4.2 論文實驗結果

4.3 論文優勢與不足

5. Bilinear Attention Networks [2018]

5.1 論文提出原因

5.2 論文實驗結果

5.3 論文優勢與不足

6. MUREL: Multimodal Relational Reasoning for Visual Question Answering【2019】

6.1 論文提出原因

6.2 論文實驗結果

6.3 論文優勢與不足

7. BLOCK: Bilinear Superdiagonal Fusion for Visual Question Answering and Visual Relationship Detection[2019]

7.1 論文提出原因

7.2 論文實驗結果

7.3 論文優勢與不足

8. Multi-modality Latent Interaction Network for Visual Question Answering【2019】

8.1 論文提出原因

8.2 論文實驗結果

8.3 論文優勢與不足

9. Learning to Count Objects in Natural Images for Visual Question Answering

9.1 論文提出原因

9.2 論文實驗結果

9.3 論文優勢與不足

10. Dynamic Fusion with Intra- and Inter-modality Attention Flow for Visual Question Answering

10.1 論文大概

10.2 論文實驗結果

10.3 優勢

11. Relation-Aware Graph Attention Network for Visual Question Answering

11.1 論文大概

11.2 論文實驗結果

11.3 論文優勢

繼續閱讀