目錄
- 簡介
- 動機
- 方法
- 實驗
簡介
本文是POSTECH和Kakao合作的一篇文章。
論文連結
動機
異常檢測有助于提升模型的穩定性和可靠性,也就是魯棒性,OOD問題也可以視為一種異常。但是,單模态的異常檢測(MSP)并不能輕易的使用到VQA這種多模态任務中。作者提出了一種基于attention的方法(MAP),可以對VQA中的五種異常進行檢測。
方法
首先,作者将VQA任務中的異常情況分為五種,也就是五個TASK。
-
TASK1~TASK3
這三個TASK很好了解,就是在輸入的視覺資訊 V V V和語言資訊 Q Q Q中,至少有一類是來自于OOD的。
-
TASK4
TASK4指的是: V V V和 Q Q Q不相關。即:難以建立兩個模态之間的關聯。
-
TASK5
TASK5指的是:通過 V V V和 Q Q Q得到的 A A A是OOD的。即:答案 A A A是未定義的。
結合下面這幾種異常示例,可以便于了解。
傳統的單模态異常檢測方法,使用 softmax \text{softmax} softmax判斷模型輸出的置信度,當置信度低于門檻值時,則認為發生了異常。但是這種方法不适用于VQA任務,主要有兩方面原因:① 置信度是基于 p ( a ∣ v , q ) p(a|v,q) p(a∣v,q)計算的,對前四種TASK無法區分;② 進行多模态特征融合後,原本的OOD可能會消失,即: V V V和 Q Q Q的OOD在進行特征融合後表現為ID。
是以,作者提出了基于attention的異常檢測方法。本質是使用 V V V中每個region和 Q Q Q中每個word的權重attention計算score。為了防止attention對異常過于strong,作者添加了正則項,顯式地finetune模型。
實驗
提升了模型的魯棒性,但降低了精度。
對于OOD問題(TASK1~TASK3),檢測能力具有大幅提升。
對于TASK4:
對于TASK5: