一、背景
文章題目:《Scene Text Visual Question Answering》
ICCV2019的一篇文章,作者主要來自西班牙。
文章下載下傳位址:http://openaccess.thecvf.com/content_ICCV_2019/papers/Biten_Scene_Text_Visual_Question_Answering_ICCV_2019_paper.pdf
文章引用格式:A. F. Biten, R. Tito, A. Mafla, L. Gomez, M. Rusinol, E. Valveny, C.V. Jawahar, D. Karatzas. "Scene Text Visual Question Answering." International Conference on Computer Vision (ICCV), 2019
項目位址:暫時沒有
二、文章導讀
先來看一下文章的摘要部分:
Current visual question answering datasets do not consider the rich semantic information conveyed by text within an image. In this work, we present a new dataset, ST-VQA, that aims to highlight the importance of exploiting highlevel semantic information present in images as textual cues in the Visual Question Answering process. We use this dataset to define a series of tasks of increasing difficulty for which reading the scene text in the context provided by the visual information is necessary to reason and generate an appropriate answer. We propose a new evaluation metric for these tasks to account both for reasoning errors as well as shortcomings of the text recognition module. In addition we put forward a series of baseline methods, which provide further insight to the newly released dataset, and set the scene for further research.
目前的VQA最主要的問題在于沒有考慮圖像中文本的語義資訊。基于此原因,作者提出了一個新的資料集,ST-VQA,目的在于強調探索圖像中出現的進階語義資訊的重要性,并将該資訊作為文本線索用于視覺問答過程。我們使用這個資料集來定義一系列難度越來越大的任務,對于這些任務,在視覺資訊提供的上下文中讀取場景文本是推理和生成适當答案所必需的。針對這些任務,我們提出了一種新的評估名額,既考慮了文本識别子產品的推理錯誤,也考慮了文本識别子產品的缺陷。此外,我們還提出了一系列baseline,為新釋出的資料集提供了進一步的視角,為進一步的研究奠定了基礎。
三、文章詳細介紹
人造環境中的文本往往能夠傳達出一種重要的進階語義資訊,比如有商品的購物資訊,交通資訊等,在MSCOCO資料集中,超過了50%的圖像中都包含有文本資訊,在城市環境中這種現象則更多。是以設計模型充分來識别利用這些資訊是非常有必要的,場景文本的了解不應是一個邊緣研究問題,而是一個核心問題。
目前,VQA的模型和資料集大多都忽略了這個問題,是以作者在VQA中将結合這兩個方面展開研究。在現有的VQA模型中整合文本模态并不是一件容易的事,一方面,場景中有關的文本資訊,需要進行建立複雜的推理,該過程涉及位置,顔色,目标,語義,到定位,識别,解譯。另一方面,目前的VQA大多都是分類模型,這些模型表現出了非常強的語言偏見,比如對于計數問題,比較問題和屬性識别問題。這些都一定程度的限制了場景文本的直接使用。
本文提出了一個新的資料集ST-VQA(Scene Text Visual Question Answering),該資料集中的問題被限制為隻能提問和圖像中出現的文字相關的問題,其中的85.5%的問題和答案都可以拿出來用到VQA模型中,樣本的一些例子如下:
其次,作者還介紹了3種高難度任務,以模拟不同程度上下文資訊的可用性。最後,作者使用了一種新的評價标準,來判别模型回答問題的能力,這裡作者使用到了Levenshtein距離,該距離既考慮到了推理的錯誤,又考慮到了文本識别系統的不足。另外,這個資料集目前公布在:https://rrc.cvc.uab.es/?ch=11
1.相關工作
對自然圖像中的場景文字進行檢測和識别有助于VQA的場景了解。目前的通常方法由兩部分組成,即文字檢測和識别,現有的很多檢測工作都是基于全連接配接網絡。而文字識别任務,一種提出的方法是在單詞層面将其作為分類任務來識别文字;之後提出的方法則側重于端到端的結構,比如用LSTM編碼,結合注意力來解碼。
盡管目前随着VQA的流行,但除了TextVQA,還沒有任何關于資料集考慮到場景文本。TextVQA是與本文類似的一項工作,它也是提出了一個用于VQA的資料集,該資料集需要對場景文本進行閱讀和了解,但是作者模組化是用一個标準的VQA模型再加上一個引入“拷貝”機制的OCR子產品。盡管TextVQA和本文提出的ST-VQA有着相似之處,但還是有幾點明顯的不同,這些會在後面的章節進行讨論。
第一,ST-VQA的資料源多樣,而TextVQA的資料源僅僅來自Open Images資料集;第二,ST-VQA的每個樣本,至少包含有兩個場景文本,而TextVQA的圖像則是從不同類别中抽樣得到;第三,依據提出的問題,ST-VQA側重于這個問題能夠被無歧義的回答,而TextVQA隻是要求能夠讀出圖像中的場景文字。
2.ST-VQA資料集
(1)資料集收集
圖像:一共有23038張圖像,圖像來源于6種資料集,這樣能夠有效減少資料偏見,增加問題的多樣性。另外,自動選擇的圖像中至少包含了兩個場景文本,以確定提問的問題有兩個不同的選擇。最終每個資料集所選擇的圖像和問題數量如下所示:
問題和答案:資料集包含31791個問題。為了獲得資料集的問題和答案,作者将其衆包了出去。标注的時候,作者提出的要求是提問不能是二值類問題,另外提問和回答應該不具有歧義,而且需要和圖像中的場景文本相關。收集過程有兩步:第一,給每位标注者一張圖,并要求他們提出一個問題,問題可以用圖檔中的文字回答,每位标注者對于一個樣本需要寫出3組問題和答案。第二,把前面做好的資料集再次衆包出去,這次給出每位标注者一張圖像并要求他們回答前面所提出的問題。經過這兩部,對前面兩次回答不同的問題做了過濾,以消除問題歧義。最後作者又對每個樣本進行了核查,有的問題會得到兩個答案,但兩個都是正确的,這種樣本也進行保留。
最終,ST-VQA包含23038張圖像,31791個問題/答案。資料集分成了兩部分,訓練過程用19, 027張圖和對應的26, 308個問題,測試用2, 993張圖和4, 163個問題。
(2)和TextVQA資料集的比較
ST-VQA和TextVQA的問題和答案的長度分布,可以看到兩個資料集的分布都很接近:
下圖展示了ST-VQA資料集的問題可視化結果,可以看到,以“what”開頭的提問最多,這類問題大多是問商标,網頁,名字,汽車号等:
另外還有語言偏見的問題,再VQA 1.0中,如果以“what sports”提問,得到的答案是tennis和baseball的機率超過了50%,以“is there”開頭的提問句,得到答案為yes的機率超過70%。而對于本文的資料集來說,其各類答案的分布結果如下:
可以看到答案中,單詞出現最多的是在"sign"和"year"的相關提問,但是他們的答案分布也相對比較平均,這一定程度上減少了語言偏見。
在VQA 2.0中,資料集中隻有低于1%的資料需要閱讀場景文本,另一方方面TextVQA有28408張圖。在TextVQA中,每個樣本中有10個問題,其中有3個主觀問題被視為正确的。為了便于比較,作者從ST-VQA中選取了1000個問題,然後進行10次回答,發現主觀答案和原始答案之間的一緻性有84.1%,而TextVQA隻有80.3%,證明ST-VQA的問題歧義性更低。另外ST-VQA全部使用的是圖像中的文本進行的提問,而TextVQA中有39%的問題沒有用到任何場景文本。
(3)任務
作者定義了3個用于ST-VQA的新任務,“強上下文(strongly contextualised)”,“弱上下文(weakly contextualised)”,“開放詞彙(open vocabulary)”。
設定不同的任務能夠了解人類在目前的處境下如何使用先驗知識。在ST-VQA中,先驗知識設定為一個字典,在“強上下文”中,通過對每張圖生成字典,以捕捉先驗知識,用于場景描述;“弱上下文”任務中,使用一個字典,它包含資料集中的所有單詞;對于開放字典任務,我們将問題視為白闆,其中沒有先驗資訊和外部資訊可供模型使用。
對于第一個任務來說:
For the strongly contextualised task (1), following the standard practice used for end-to-end word spotting, we create a dictionary per image that contains the words that appear in the answers defined for questions on that image, along with a series of distractors. The distractors are generated in two ways. On one hand, they comprise instances of scene text as returned by a text recogniser applied on the image. On the other hand, they comprise words obtained by exploiting the semantic understanding of the scene, in the form of the output of a dynamic lexicon generation model. The dictionary for the strongly contextualised task is 100 words long and defined per image.
對于任務(1),采用端到端的單詞測定來進行标準實踐,每張圖像生成一個字典都包含有答案中出現的單詞,以及一系列的幹擾項。幹擾項的生成有兩種方式,一方面,由應用于圖像的文本識别器傳回的場景文本執行個體組成。另一方面,它們以動态詞彙生成模型的輸出形式,由利用場景語義了解獲得的詞彙組成。詞典為強上下文任務是100個單詞長和定義每個圖像。
對于第二個任務:
In the weakly contextualised task (2), we provide a unique dictionary of 30, 000 words for all the datasets’ images which is formed by collecting all the 22k ground truth words plus 8k distractors generated in the same way as in the previous task.
對于任務(2),為資料集的圖像建構30000單詞的字典(22000個ground truth和8000個幹擾項)
對于第三個任務:
Finally for the open dictionary task (3), we provide no extra information thus we can consider it as an open-lexicon task.
對于任務(3),沒有提供外部資訊,是以可以将其視為一個開放字典任務。
(4)評價和挑戰
因為答案涉及到圖像中出現的文本,是以VQA常用的分類評價标準就不适合該任務。是以作者提出了ANLS名額(Average Normalized Levenshtein Similarity),以評判OCR的準确度:
3.方法和結果
為了評估方法,作者做了一些對比,參與對比的baseline包括:
random:從字典中随機選擇一個答案
Scene Text Retrieval:使用了單個CNN和PHOC(Pyramidal Histogram Of Characters)。首先,對于一張給定的圖像(STR retrieval),使用一個任務字典作為query(uses the specific task dictionaries as queries to a given image),之後,對于最明顯的場景文本進行提問(STR bbox)。
Scene Image OCR:檢測到的文本根據置信度進行排序
Standard VQA models:這裡作者使用了兩個模型,第一個是“SAAA”(Show, Ask, Attend and Answer),結構是CNN和LSTM,CNN采用的是resnet-152,提取圖像特征至14*14*2048,同時用LSTM對單詞進行嵌入,然後再用attention對兩個特征進行映射,最後再連接配接,送入全連接配接層進行分類。優化器采用Adam,batch size為128,epoch為30,初始學習率為0.001,每50000次衰減一半;第二個是“SAN”(Stacked Attention Networks),用預訓練的VGG模型擷取圖像特征至14*14*512,提取問題特征用的是LSTM,batch size設定為100,epoch為150,優化器RMSProp,初始學習率是0.0003,衰減率為0.9999。
Fusing Modalities - Standard VQA Models + Scene Text Retrieval:VQA結合場景文字檢索模型。
(1)實驗結果
實驗結果如下表所示:
然後是針對不同類型的問題的結果:
最後就是一些場景執行個體了: