天天看點

【文獻閱讀】利用曆史問答的兩階段(two-stage)的Image-QA協同網絡(D. Guo等人,CVPR,2019)一、文章概況二、文章導讀三、文章詳細介紹四、小結

一、文章概況

文章題目:《Image-Question-Answer Synergistic Network for Visual Dialog》

文章第三作者是Dacheng Tao,又是陶老師指導的一篇文章,上一篇精讀的是MirrorGAN(也是CVPR2019的文章)。這篇文章作者三人也是做VQA的,他們的另一篇近期文章《Graph Reasoning Networks for Visual Question Answering》是19年7月份剛投的文章,感覺做VQA的話可以關注一下他們組。

文章下載下傳連結:[1]https://arxiv.org/abs/1902.09774

                         [2]http://openaccess.thecvf.com/content_CVPR_2019/papers/Guo_Image-Question-Answer_Synergistic_Network_for_Visual_Dialog_CVPR_2019_paper.pdf

文章引用格式:D. Guo, C. Xu, D. Tao. "Image-Question-Answer Synergistic Network for Visual Dialog." In The IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2019

項目位址:暫時沒有

二、文章導讀

近期讀的文章都比較新,網上也沒什麼解讀。

先放上文章的摘要部分内容:

The image, question (combined with the history for dereferencing), and the corresponding answer are three vital components of visual dialog. Classical visual dialog systems integrate the image, question, and history to search for or generate the best matched answer, and so, this approach significantly ignores the role of the answer. In this paper, we devise a novel image-question-answer synergistic network to value the role of the answer for precise visual dialog. We extend the traditional one-stage solution to a two-stage solution. In the first stage, candidate answers are coarsely scored according to their relevance to the image and question pair. Afterward, in the second stage, answers with high probability of being correct are re-ranked by synergizing with image and question. On the Visual Dialog v1.0 dataset, the proposed synergistic network boosts the discriminative visual dialog model to achieve a new state-of-the-art of 57.88% normalized discounted cumulative gain. A generative visual dialog model equipped with the proposed technique also shows promising improvements.

視覺對話(visual dialog)的三個關鍵子產品即問題,答案和圖像。傳統的視覺對話系統整合了圖像,問題,查詢曆史來最好的比對答案,這種方法很明顯的忽視了答案的作用。是以這篇文章,作者設計了一個新的image-question-answer協同網絡( image-question-answer synergistic network),該網絡對答案評估以準确進行視覺對話。該模型對傳統的one-stage解決方案擴充到two-stage解決方案。首先第一階段(first stage),根據QA和圖像的關聯性對候選答案進行粗略評分,之後的第二階段(second stage),通過圖像和問題的協同作用(synergizing),對答案按照正确機率的高低進行重新排序。該模型在 Visual Dialog v1.0 資料集上表現出了較好的效果。

三、文章詳細介紹

一個傳統的視覺對話系統如下所示:

【文獻閱讀】利用曆史問答的兩階段(two-stage)的Image-QA協同網絡(D. Guo等人,CVPR,2019)一、文章概況二、文章導讀三、文章詳細介紹四、小結

一個視覺對話可以看做:

(1)visual grounding(視覺基礎):将bounding boxes内的視覺資訊轉化為人類語言

(2)visual question answering (VQA)

(3)image captioning(看圖說話)

一般一個視覺對話模型可以由兩部分構成:編碼器(将輸入嵌入成向量)和解碼器(将解碼的向量轉換為答案的單詞或者對候選答案進行排序)。根據解碼器,視覺對話可以分成兩類模型:生成模型和判别模型。生成模型大多使用seq2seq或者更進階的強化學習來生成答案(一般是單詞),而判别模型則是計算候選答案和模型輸出之間的相似度(通過LSTM能夠了解句子)。

為了在視覺對話中突出“答案”的作用,以及它與其他成分(圖像,問題)的組合,作者提出了image-question-answering協同網絡(image-question-answer synergistic network)。該模型是一個two-stage模型,分别稱為primary stage和synergistic stage,primary stage會為每個候選答案進行粗略評分,synergistic stage會基于一些準則而計算每個答案與圖像協同的相關性的機率,如下圖所示:

【文獻閱讀】利用曆史問答的兩階段(two-stage)的Image-QA協同網絡(D. Guo等人,CVPR,2019)一、文章概況二、文章導讀三、文章詳細介紹四、小結

這個過程與現實中人類的經驗一直,人類首先都會排除明顯錯誤的答案,然後從剩下的答案中再進行比較,找到最有可能是正确的那個。另外,作者還在模型中解決了第一階段中類别不平衡問題(class imbalance problem),例如大量負樣本會影響loss函數,是以作者引入了一個temperature factor以改進loss函數。

最後,作者基于Visual Dialog v1.0資料集對模型進行了評估。相較于一般的沒有修正loss的non-balanced model,第一階段的loss-balanced判别模型的MRR(mean reciprocal rank)大約提高了0.71%,第二階段MRR又提高了0.91%。模型在Visual Dialog Challenge 2018上的得分為57.88%NDCG(normalized discounted cumulative gain)。

1. 相關工作

Visual Question Answering (VQA):VQA大多采用的分類的思想,這就将答案限制在了資料集所出現的答案當中。現有模型大概可以分為3類:早期融合模型(early fusion models),後期融合模型(later fusion models),外部基于知識的模型(external knowledge-based models)。

Visual Dialog:視覺對話是對VQA進行了擴充,将單輪問答擴充到多輪問答。目前的資料集問答内容包括顔色,數字,關系等。作為baseline的編碼器主要有3種方法:後期融合(late fusion),分層循環編碼器(hierarchical recurrent encoder),以及記憶網絡(the memory network);解碼器主要有兩種方法:LSTM和softmax。

2. 協同網絡(Synergistic Network)

整個網路喲模型結構如下圖所示,可以很清楚的看到兩個階段(two-stage):

【文獻閱讀】利用曆史問答的兩階段(two-stage)的Image-QA協同網絡(D. Guo等人,CVPR,2019)一、文章概況二、文章導讀三、文章詳細介紹四、小結

在第一階段primary stage,使用co-attention module來學習問題,圖像,對話曆史的表示向量;這裡先引入一個概念hard samples和easy samples,hard samples是指和正确答案非常接近難以區分的樣本,而easy samples則指非常容易與正确答案區分的樣本,然後要做的是計算每一個候選答案的得分, 并将候選答案分為難以區分的hard samples和容易區分的easy samples。在第二階段synergistic stage,将hard answers和他們的問題組成QA pairs,這些pairs再配合圖像和曆史問答來預測他們的分數。

接下來就是模型中的數學推導部分:

假定輸入圖像I和标題C,得到的曆史問答集合為H,在第t輪的時候,模型根據問題

【文獻閱讀】利用曆史問答的兩階段(two-stage)的Image-QA協同網絡(D. Guo等人,CVPR,2019)一、文章概況二、文章導讀三、文章詳細介紹四、小結

,給出了答案集合

【文獻閱讀】利用曆史問答的兩階段(two-stage)的Image-QA協同網絡(D. Guo等人,CVPR,2019)一、文章概況二、文章導讀三、文章詳細介紹四、小結

中每一個答案

【文獻閱讀】利用曆史問答的兩階段(two-stage)的Image-QA協同網絡(D. Guo等人,CVPR,2019)一、文章概況二、文章導讀三、文章詳細介紹四、小結

的得分。對于圖像資訊的處理,采用Faster-RCNN model來提取圖像特征,并編碼成

【文獻閱讀】利用曆史問答的兩階段(two-stage)的Image-QA協同網絡(D. Guo等人,CVPR,2019)一、文章概況二、文章導讀三、文章詳細介紹四、小結

,其中每個元素就是圖像中的一個目标。問題

【文獻閱讀】利用曆史問答的兩階段(two-stage)的Image-QA協同網絡(D. Guo等人,CVPR,2019)一、文章概況二、文章導讀三、文章詳細介紹四、小結

是一系列單詞,可以用LSTM進行編碼。在第t輪之前的t-1輪,曆史問答H連接配接着正确答案和問題,之後再使用LSTM來提取H中的資訊,記錄為U。

第一階段Primary Stage:該階段采用的是encoder-decoder結構,編碼器encoder包含兩個任務:一是如何在多輪對話記錄中去參考(de-reference)(比如代詞,98%的對話都包含代詞),二是如何在目前的問題中定位圖像中相應的目标。解決這個問題的常用思路就是注意力機制,這裡作者用到了MFB(multi-modal factorized bilinear pooling,多模态分解雙線性池化),它能解決兩個不同特征之間的差異。相較于其他雙線性模型(MLB, MCB),MFB能夠提供更多的表示(representation),在MFB中,兩個特征之間的融合通過下式計算:

【文獻閱讀】利用曆史問答的兩階段(two-stage)的Image-QA協同網絡(D. Guo等人,CVPR,2019)一、文章概況二、文章導讀三、文章詳細介紹四、小結

有時,Y表示的是一個多通道輸入,上式又可以變為:

【文獻閱讀】利用曆史問答的兩階段(two-stage)的Image-QA協同網絡(D. Guo等人,CVPR,2019)一、文章概況二、文章導讀三、文章詳細介紹四、小結

利用MFB學習問題和曆史的統一向量,記為

【文獻閱讀】利用曆史問答的兩階段(two-stage)的Image-QA協同網絡(D. Guo等人,CVPR,2019)一、文章概況二、文章導讀三、文章詳細介紹四、小結

之後再學習注意力權重和向量:

【文獻閱讀】利用曆史問答的兩階段(two-stage)的Image-QA協同網絡(D. Guo等人,CVPR,2019)一、文章概況二、文章導讀三、文章詳細介紹四、小結

最後再根據

【文獻閱讀】利用曆史問答的兩階段(two-stage)的Image-QA協同網絡(D. Guo等人,CVPR,2019)一、文章概況二、文章導讀三、文章詳細介紹四、小結

學習視覺特征和文本表示。

解碼器先對每一個答案

【文獻閱讀】利用曆史問答的兩階段(two-stage)的Image-QA協同網絡(D. Guo等人,CVPR,2019)一、文章概況二、文章導讀三、文章詳細介紹四、小結

編碼為

【文獻閱讀】利用曆史問答的兩階段(two-stage)的Image-QA協同網絡(D. Guo等人,CVPR,2019)一、文章概況二、文章導讀三、文章詳細介紹四、小結

,再使用LSTM計算每一個答案的浮點分數:

【文獻閱讀】利用曆史問答的兩階段(two-stage)的Image-QA協同網絡(D. Guo等人,CVPR,2019)一、文章概況二、文章導讀三、文章詳細介紹四、小結

正确答案的得分應該是要比其他得分高的,是以這裡作者使用了N-pair loss來衡量這個得分誤差。100個候選答案中的大部分都是easy samples,是以這個loss并沒有學到一些有用的信号,為了解決這個不平衡性,引入一個“溫度”參數

【文獻閱讀】利用曆史問答的兩階段(two-stage)的Image-QA協同網絡(D. Guo等人,CVPR,2019)一、文章概況二、文章導讀三、文章詳細介紹四、小結

來修改Loss:

【文獻閱讀】利用曆史問答的兩階段(two-stage)的Image-QA協同網絡(D. Guo等人,CVPR,2019)一、文章概況二、文章導讀三、文章詳細介紹四、小結

式中,

【文獻閱讀】利用曆史問答的兩階段(two-stage)的Image-QA協同網絡(D. Guo等人,CVPR,2019)一、文章概況二、文章導讀三、文章詳細介紹四、小結

≤1,如果一個候選答案比真實答案得分低,那麼分數中的分子項就會小于0,那麼這個答案就會減少它對loss的貢獻,反之亦然。

第二階段Synergistic Stage:在第一階段中,由于某些評分機制的限制,會導緻一些錯誤答案獲得高分,是以在這個階段中,答案會配合問題和圖像重新排序。是以第一階段的主要任務就是篩選hard answers和easy answers,經過第一階段的篩選,大概有90%的正确答案都會在top-10的候選答案中。

考慮到單獨的答案有時候會引起歧義,是以這一步必須要配合問題來做。作者将問題連接配接在答案後面,再用LSTM對QA pair進行編碼得到一個向量:

【文獻閱讀】利用曆史問答的兩階段(two-stage)的Image-QA協同網絡(D. Guo等人,CVPR,2019)一、文章概況二、文章導讀三、文章詳細介紹四、小結

另外,曆史問答可以作為問題的補充,如果用

【文獻閱讀】利用曆史問答的兩階段(two-stage)的Image-QA協同網絡(D. Guo等人,CVPR,2019)一、文章概況二、文章導讀三、文章詳細介紹四、小結

表示問題向量,用

【文獻閱讀】利用曆史問答的兩階段(two-stage)的Image-QA協同網絡(D. Guo等人,CVPR,2019)一、文章概況二、文章導讀三、文章詳細介紹四、小結

表示曆史問答,那麼圖像注意力就可以根據這兩個參數計算出來:

【文獻閱讀】利用曆史問答的兩階段(two-stage)的Image-QA協同網絡(D. Guo等人,CVPR,2019)一、文章概況二、文章導讀三、文章詳細介紹四、小結

與第一階段類似,由圖像,問題,問答曆史,我們可以得到答案向量表示的融合嵌入:

【文獻閱讀】利用曆史問答的兩階段(two-stage)的Image-QA協同網絡(D. Guo等人,CVPR,2019)一、文章概況二、文章導讀三、文章詳細介紹四、小結

這個嵌入可以用來計算得分:

【文獻閱讀】利用曆史問答的兩階段(two-stage)的Image-QA協同網絡(D. Guo等人,CVPR,2019)一、文章概況二、文章導讀三、文章詳細介紹四、小結

我們将這個階段視為一個分類問題,最終答案的計算可以根據下式:

【文獻閱讀】利用曆史問答的兩階段(two-stage)的Image-QA協同網絡(D. Guo等人,CVPR,2019)一、文章概況二、文章導讀三、文章詳細介紹四、小結

3. 生成網絡的擴充

基于GAN的思想,在第一階段,除了使用判别模型,生成模型也能夠計算得分。如果我們知道圖像,問題和曆史問答在第t輪的向量,解碼器可以将向量解譯為答案和機率:

【文獻閱讀】利用曆史問答的兩階段(two-stage)的Image-QA協同網絡(D. Guo等人,CVPR,2019)一、文章概況二、文章導讀三、文章詳細介紹四、小結

這裡的機率也就是答案的得分,如下圖:

【文獻閱讀】利用曆史問答的兩階段(two-stage)的Image-QA協同網絡(D. Guo等人,CVPR,2019)一、文章概況二、文章導讀三、文章詳細介紹四、小結

對于每一個單詞,它的機率計算:

【文獻閱讀】利用曆史問答的兩階段(two-stage)的Image-QA協同網絡(D. Guo等人,CVPR,2019)一、文章概況二、文章導讀三、文章詳細介紹四、小結

為了使得第一階段中的得分盡可能的高,我們需要最大化條件機率。是以,損失函數就是每一步中正确單詞的負對數似然求和:

【文獻閱讀】利用曆史問答的兩階段(two-stage)的Image-QA協同網絡(D. Guo等人,CVPR,2019)一、文章概況二、文章導讀三、文章詳細介紹四、小結

4. 實驗

最後是文章的實驗部分。資料集作者使用了Visual Dialog v1.0,裡面的圖像有12萬張來自COCO-trainval資料集,每一張圖檔都有一個标題和10輪對話。對話中的每一個問題,都有100個候選答案,其中包含了50個相似問題的答案,30個常見答案,1個正确答案和其他的随機答案。測試資料是1萬張來自Flickr的圖檔。

評價名額用MRR和NDCG:

【文獻閱讀】利用曆史問答的兩階段(two-stage)的Image-QA協同網絡(D. Guo等人,CVPR,2019)一、文章概況二、文章導讀三、文章詳細介紹四、小結

作者将自己的判别模型(discriminative model)與其他的baselines進行比較,包括:Later Fusion (LF),Hierarchical Recurrent Encoder (HRE),Memory Network (MN),MN-att和 LF-att,下面給出作者的實驗結果:

【文獻閱讀】利用曆史問答的兩階段(two-stage)的Image-QA協同網絡(D. Guo等人,CVPR,2019)一、文章概況二、文章導讀三、文章詳細介紹四、小結

接着作者進行了簡化研究(Ablation Study),重點放在模型中的一些參數細節上,比如溫度參數

【文獻閱讀】利用曆史問答的兩階段(two-stage)的Image-QA協同網絡(D. Guo等人,CVPR,2019)一、文章概況二、文章導讀三、文章詳細介紹四、小結

的取值從1到0.25:

【文獻閱讀】利用曆史問答的兩階段(two-stage)的Image-QA協同網絡(D. Guo等人,CVPR,2019)一、文章概況二、文章導讀三、文章詳細介紹四、小結

最後是Qualitative Analysis部分,作者給出了判别模型的效果圖:

【文獻閱讀】利用曆史問答的兩階段(two-stage)的Image-QA協同網絡(D. Guo等人,CVPR,2019)一、文章概況二、文章導讀三、文章詳細介紹四、小結

另外還給出了生成模型的示意圖:

【文獻閱讀】利用曆史問答的兩階段(two-stage)的Image-QA協同網絡(D. Guo等人,CVPR,2019)一、文章概況二、文章導讀三、文章詳細介紹四、小結

四、小結

1. 作者進行模型評價的兩個名額:MRR和NDCG都是搜尋中常用的評價名額。

繼續閱讀