一、背景

文章題目：《FloodNet: A High Resolution Aerial Imagery Dataset for Post Flood Scene Understanding》

文章下載下傳：https://arxiv.org/pdf/2012.02951.pdf

文章引用：Maryam Rahnemoonfar, Tashnim Chowdhury, Argho Sarkar, Debvrat Varshney, Masoud Yari and Robin Murphy. "FloodNet: A High Resolution Aerial Imagery Dataset for Post Flood Scene Understanding". arXiv preprint, arXiv: 2012.02951, 2020.

項目位址：暫無

二、文章導讀

Visual scene understanding is the core task in making any crucial decision in any computer vision system. Although popular computer vision datasets like Cityscapes, MS-COCO, PASCAL provide good benchmarks for several tasks (e.g. image classification, segmentation, object detection), these datasets are hardly suitable for post disaster damage assessments. On the other hand, existing natural disaster datasets include mainly satellite imagery which have low spatial resolution and a high revisit period. Therefore, they do not have a scope to provide quick and efficient damage assessment tasks. Unmanned Aerial Vehicle (UAV) can effortlessly access difficult places during any disaster and collect high resolution imagery that is required for aforementioned tasks of computer vision. To address these issues we present a high resolution UAV imagery, FloodNet, captured after the hurricane Harvey. This dataset demonstrates the post flooded damages of the affected areas. The images are labeled pixel-wise for semantic segmentation task and questions are produced for the task of visual question answering. FloodNet poses several challenges including detection of flooded roads and buildings and distinguishing between natural water and flooded water. With the advancement of deep learning algorithms, we can analyze the impact of any disaster which can make a precise understanding of the affected areas. In this paper, we compare and contrast the performances of baseline methods for image classification, semantic segmentation, and visual question answering on our dataset.

視覺場景了解在計算機視覺系統是做關鍵決策的核心任務。盡管已經有很多多方面應用的資料集，但是這些資料集不适合于災害管理評估。另一方面，現有的遙感災害資料集，圖像空間分辨率都很低，并且重訪周期較高。是以，這些資料集并未提供相關有效的災害管理任務。無人機(UAV)可以在災害發生時輕松進入困難地區，采集上述計算機視覺任務所需要的高分辨率圖像。為了解決這些問題，我們提出了一個高分辨率無人機影像資料集，FloodNet，它拍攝于飓風Harvey發生之後。該資料集展示了受洪水影響地區的損失情況。對圖像進行像素化标記用于語義分割任務，生成問題用于視覺問題回答任務。FloodNet帶來了一些挑戰，包括對洪水淹沒的道路、房屋的檢測以及對洪水和自然水體的區分。随着深度學習的發展，我們可以分析任何災害的影響，進而準确了解受災地區。在本文中，我們在我們的資料集上比較和對比了用于圖像分類、語義分割和視覺問題回答的基準方法的性能。

三、文章介紹

目前盡管有很多公開的深度學習資料集，但是航空圖像的資料集仍舊比較稀少。航空影像了解對城市管理，城市規劃，基礎設施維護，災害管理，無人車的高清地圖具有非常大的幫助。而現有的航空影像資料集，則受限于僅有幾個類别的分類或分割任務。而且這些資料集也沒有解決災害管理的相關問題。為了對災後進行快速響應及對洪水影響評估，相關航空影像資料集至關重要。為了填補這個空白，本文提出了FloodNet資料集，并用三類不同的任務進行實驗，即分類，語義分割和視覺問答。

作者下面給了一張圖說明FloodNet資料集的主要功能：

【文獻閱讀】FloodNet——洪水災害的VQA問答資料集（M. Rahnemoonfar等人，ArXiv，2020）一、背景二、文章導讀三、文章介紹四、小結

本文的主要貢獻主要有兩個方面：

First we introduce a high resolution UAV imagery named FloodNet for post disaster damage assessment. 首先介紹了一個FloodNet 資料集。

Secondly, we compare the performance of sevral classification, semantic segmentation and visual question answering on our dataset. 其次在這個資料集上應用分類、分割和VQA任務。

To the best of our knowledge, this is the first VQA work focused on UAV imagery for any disaster damage assessment. 據我們所知，這是第一個VQA在航空影像上對災害評估的資料集。

1. 相關工作

資料集：說了一大段其實就是下面這張表：

【文獻閱讀】FloodNet——洪水災害的VQA問答資料集（M. Rahnemoonfar等人，ArXiv，2020）一、背景二、文章導讀三、文章介紹四、小結

分類算法：做分類的算法很多，不一一列舉了，但是做災害的深度學習分類算法很少，比如SVM+CNN+隐馬爾可夫來檢測雪崩。

語義分割算法：代表算法包括FCN，PSPNet，DeepLab。災害方面的，目前有用到變化檢測的，用RNN來進行洪水檢測的，用Multi3Net來檢測洪水淹沒的建築，DeepLabv3+對建築物的分割。而這些模型都是關注河流、建築物或道路。本研究使用了三種算法在FloodNet上，即ENet，PSPNet和DeepLabv3+。

VQA算法：VQA模型用的是SAN和MFB。

2. FloodNet資料集

資料集的采集使用的無人機是DJI Mavic Pro，資料采集在飓風Harvey過境之後，Harvey在2017年8月過境後，造成的路易斯安那州和德州的山體滑坡。資料的采集時間為2017年8與30-9月4号之間，位于德州的Ford

Bend County縣。該資料集有兩個獨特的地方，一個是保真度，即反應者反應災害情況後立馬進行無人機影像的拍攝，第二，它是僅有的關于災害的航空影像。盡管還有其他的一些災害的遙感資料集，但是這些資料集的飛行高度都在400英尺以上，而本文的無人機飛行高度則在200英尺以下。

2.1 标注任務

這裡主要是做分類的标簽還有語義分割的标簽。總計有3200張的圖檔，分為9類，分别是building-flooded, building-non-flooded, road-flooded, road-non-flooded, water, tree, vehicle, pool, and grass。被洪水淹沒的建築被定義為至少有一條邊與洪水相接觸；為了區分自然水體（比如湖和河）和洪水，還定義了water類别；如果一張圖的30%被洪水覆寫，那麼這張圖就被定義為“flooded”；每一種類别的圖像和類别的數量如下表所示：

【文獻閱讀】FloodNet——洪水災害的VQA問答資料集（M. Rahnemoonfar等人，ArXiv，2020）一、背景二、文章導讀三、文章介紹四、小結

整體的任務量是非常大的，平均标注一張圖檔需要一個小時。為了保證标注的品質，我們進行了兩級核查工作。圖像是在V7 Darwin平台上進行标注的，資料中的70%用作訓練，30%用作驗證和測試。

2.2 VQA任務

FloodNet-VQA資料集包含11000個問題。所有的問題都是手動标記的，每一張圖平均會提3.5個問題，問題的設計都是和圖像的局部或者整體相關的。

問題類型分為3類：“Simple Counting”簡單計數，“Complex Counting”複雜計數和“Condition Recognition”情況識别。問題的提問方式隻有3種：how，what，is，問題的最大長度為11。在簡單計數問題中，我們隻會簡單的詢問目标在圖像中出現的數量。在複雜計數問題中，我們會針對某種具有特定屬性的目标數量進行提問。情況識别類問題分為三種子類問題，一種是問路況“What is the condition of the road”，第二種是問整張圖像的情況“What is the overall condition of the entire image”，第三種是“Yes/No”類型的問題。所有問題的統計結果如下圖所示：

【文獻閱讀】FloodNet——洪水災害的VQA問答資料集（M. Rahnemoonfar等人，ArXiv，2020）一、背景二、文章導讀三、文章介紹四、小結

一些常出現的答案如下：

【文獻閱讀】FloodNet——洪水災害的VQA問答資料集（M. Rahnemoonfar等人，ArXiv，2020）一、背景二、文章導讀三、文章介紹四、小結

3. 實驗

因為都是用的現成的方法，文章的總體内容也比較簡單，是以直接上實驗結果：

（1）語義分割的實驗結果：

【文獻閱讀】FloodNet——洪水災害的VQA問答資料集（M. Rahnemoonfar等人，ArXiv，2020）一、背景二、文章導讀三、文章介紹四、小結

（2）分類的實驗結果：

【文獻閱讀】FloodNet——洪水災害的VQA問答資料集（M. Rahnemoonfar等人，ArXiv，2020）一、背景二、文章導讀三、文章介紹四、小結

（3）VQA的實驗結果：

【文獻閱讀】FloodNet——洪水災害的VQA問答資料集（M. Rahnemoonfar等人，ArXiv，2020）一、背景二、文章導讀三、文章介紹四、小結

【文獻閱讀】FloodNet——洪水災害的VQA問答資料集（M. Rahnemoonfar等人，ArXiv，2020）一、背景二、文章導讀三、文章介紹四、小結

一、背景

二、文章導讀

三、文章介紹

1. 相關工作

2. FloodNet資料集

3. 實驗

四、小結

繼續閱讀

【文獻閱讀】遙感圖像中近海船舶的語義分割（H. Lin等人，IGRS Letter，2017）一、背景二、文章導讀三、文章詳細介紹四、小結

【文獻閱讀】在遙感圖像中引入密度圖導向的目标檢測（C. Li等人，CVPR，2020）一、背景二、文章簡介三、文章内容四、小結

【文獻閱讀】YOLT算法實作遙感圖像的多尺度目辨別别（Adam Van Etten，2018，CVPR）一、文章情況介紹二、文章導讀三、文章詳細介紹四、後記

【文獻閱讀】SAN（Scale-Aware Network）——尺度感覺網絡用于高分辨率航空影像的語義分割（Jingbo Lin等人，IGRS Letter, 2019）一、文章情況介紹二、文章導讀三、文章詳細介紹四、小結

【文獻閱讀】VQA-CTI——将知識蒸餾用于視覺問答VQA的緊湊三重互動（T. Do等人，ICCV，2019，有代碼）一、背景三、文章詳細介紹四、小結

【文獻閱讀】用于zero-shot識别的雙曲視覺嵌入學習網絡（S. Liu等人，CVPR，2020）一、背景二、文章摘要三、文章介紹四、小結

【文獻閱讀】LRTA——圖網絡解釋VQA的答案生成過程（W. Liang等人，NeurIPS，2020）一、背景二、文章導讀三、文章介紹四、小結

【文獻閱讀】VQA的綜述：資料集，算法和挑戰（K. Kafle等人，Computer Vision and Image Understanding，2017）一、文章背景二、文章導讀三、文章詳細介紹四、小結

【文獻閱讀】RUBi——一種解決單模态偏差的VQA模型（R. Cadene等人，NIPS，2019，有代碼）一、文章背景二、文章導讀三、文章詳細介紹四、小結

【文獻閱讀】在VQA的答案空間中引入相似性測度（Corentin Kervadec等人，ArXiv，2020）一、背景二、文章摘要三、文章介紹四、小結

【文獻閱讀】SAAA——堆疊多層注意力的VQA網絡（T. Do等人，ArXiv，2017，有代碼）一、背景二、文章導讀三、文章詳細介紹四、小結

【文獻閱讀】SAN——一種利用雙層注意力的VQA網絡（T. Do等人，ArXiv，2015，有代碼）一、背景二、文章導讀三、文章詳細介紹四、小結

【文獻閱讀】利用曆史問答的兩階段（two-stage）的Image-QA協同網絡（D. Guo等人，CVPR，2019）一、文章概況二、文章導讀三、文章詳細介紹四、小結

【文獻閱讀】GraphVQA——語言導向的GNN解決場景圖的問答（Weixin Liang等人，ArXiv，2021）一、背景二、文章摘要三、文章介紹四、小結

【文獻閱讀】GQA-OOD——測試低頻樣本問答的資料集和評估方法（Corentin Kervadec等人，ArXiv，2020，有代碼）一、背景二、文章導讀三、文章詳細介紹四、小結

【文獻閱讀】BGN+AN——将答案看做屬性組成的小樣本VQA學習（D. Guo等人，ArXiv，2021）一、背景二、文章摘要三、文章介紹四、小結