一、背景
文章题目:《FloodNet: A High Resolution Aerial Imagery Dataset for Post Flood Scene Understanding》
文章下载:https://arxiv.org/pdf/2012.02951.pdf
文章引用:Maryam Rahnemoonfar, Tashnim Chowdhury, Argho Sarkar, Debvrat Varshney, Masoud Yari and Robin Murphy. "FloodNet: A High Resolution Aerial Imagery Dataset for Post Flood Scene Understanding". arXiv preprint, arXiv: 2012.02951, 2020.
项目地址:暂无
二、文章导读
Visual scene understanding is the core task in making any crucial decision in any computer vision system. Although popular computer vision datasets like Cityscapes, MS-COCO, PASCAL provide good benchmarks for several tasks (e.g. image classification, segmentation, object detection), these datasets are hardly suitable for post disaster damage assessments. On the other hand, existing natural disaster datasets include mainly satellite imagery which have low spatial resolution and a high revisit period. Therefore, they do not have a scope to provide quick and efficient damage assessment tasks. Unmanned Aerial Vehicle (UAV) can effortlessly access difficult places during any disaster and collect high resolution imagery that is required for aforementioned tasks of computer vision. To address these issues we present a high resolution UAV imagery, FloodNet, captured after the hurricane Harvey. This dataset demonstrates the post flooded damages of the affected areas. The images are labeled pixel-wise for semantic segmentation task and questions are produced for the task of visual question answering. FloodNet poses several challenges including detection of flooded roads and buildings and distinguishing between natural water and flooded water. With the advancement of deep learning algorithms, we can analyze the impact of any disaster which can make a precise understanding of the affected areas. In this paper, we compare and contrast the performances of baseline methods for image classification, semantic segmentation, and visual question answering on our dataset.
视觉场景理解在计算机视觉系统是做关键决策的核心任务。尽管已经有很多多方面应用的数据集,但是这些数据集不适合于灾害管理评估。另一方面,现有的遥感灾害数据集,图像空间分辨率都很低,并且重访周期较高。因此,这些数据集并未提供相关有效的灾害管理任务。无人机(UAV)可以在灾害发生时轻松进入困难地区,采集上述计算机视觉任务所需要的高分辨率图像。为了解决这些问题,我们提出了一个高分辨率无人机影像数据集,FloodNet,它拍摄于飓风Harvey发生之后。该数据集展示了受洪水影响地区的损失情况。对图像进行像素化标记用于语义分割任务,生成问题用于视觉问题回答任务。FloodNet带来了一些挑战,包括对洪水淹没的道路、房屋的检测以及对洪水和自然水体的区分。随着深度学习的发展,我们可以分析任何灾害的影响,从而准确了解受灾地区。在本文中,我们在我们的数据集上比较和对比了用于图像分类、语义分割和视觉问题回答的基准方法的性能。
三、文章介绍
目前尽管有很多公开的深度学习数据集,但是航空图像的数据集仍旧比较稀少。航空影像理解对城市管理,城市规划,基础设施维护,灾害管理,无人车的高清地图具有非常大的帮助。而现有的航空影像数据集,则受限于仅有几个类别的分类或分割任务。而且这些数据集也没有解决灾害管理的相关问题。为了对灾后进行快速响应及对洪水影响评估,相关航空影像数据集至关重要。为了填补这个空白,本文提出了FloodNet数据集,并用三类不同的任务进行实验,即分类,语义分割和视觉问答。
作者下面给了一张图说明FloodNet数据集的主要功能:
本文的主要贡献主要有两个方面:
First we introduce a high resolution UAV imagery named FloodNet for post disaster damage assessment. 首先介绍了一个FloodNet 数据集。
Secondly, we compare the performance of sevral classification, semantic segmentation and visual question answering on our dataset. 其次在这个数据集上应用分类、分割和VQA任务。
To the best of our knowledge, this is the first VQA work focused on UAV imagery for any disaster damage assessment. 据我们所知,这是第一个VQA在航空影像上对灾害评估的数据集。
1. 相关工作
数据集:说了一大段其实就是下面这张表:
分类算法:做分类的算法很多,不一一列举了,但是做灾害的深度学习分类算法很少,比如SVM+CNN+隐马尔可夫来检测雪崩。
语义分割算法:代表算法包括FCN,PSPNet,DeepLab。灾害方面的,目前有用到变化检测的,用RNN来进行洪水检测的,用Multi3Net来检测洪水淹没的建筑,DeepLabv3+对建筑物的分割。而这些模型都是关注河流、建筑物或道路。本研究使用了三种算法在FloodNet上,即ENet,PSPNet和DeepLabv3+。
VQA算法:VQA模型用的是SAN和MFB。
2. FloodNet数据集
数据集的采集使用的无人机是DJI Mavic Pro,数据采集在飓风Harvey过境之后,Harvey在2017年8月过境后,造成的路易斯安那州和德州的山体滑坡。数据的采集时间为2017年8与30-9月4号之间,位于德州的Ford
Bend County县。该数据集有两个独特的地方,一个是保真度,即反应者反应灾害情况后立马进行无人机影像的拍摄,第二,它是仅有的关于灾害的航空影像。尽管还有其他的一些灾害的遥感数据集,但是这些数据集的飞行高度都在400英尺以上,而本文的无人机飞行高度则在200英尺以下。
2.1 标注任务
这里主要是做分类的标签还有语义分割的标签。总计有3200张的图片,分为9类,分别是building-flooded, building-non-flooded, road-flooded, road-non-flooded, water, tree, vehicle, pool, and grass。被洪水淹没的建筑被定义为至少有一条边与洪水相接触;为了区分自然水体(比如湖和河)和洪水,还定义了water类别;如果一张图的30%被洪水覆盖,那么这张图就被定义为“flooded”;每一种类别的图像和类别的数量如下表所示:
整体的任务量是非常大的,平均标注一张图片需要一个小时。为了保证标注的质量,我们进行了两级核查工作。图像是在V7 Darwin平台上进行标注的,数据中的70%用作训练,30%用作验证和测试。
2.2 VQA任务
FloodNet-VQA数据集包含11000个问题。所有的问题都是手动标记的,每一张图平均会提3.5个问题,问题的设计都是和图像的局部或者整体相关的。
问题类型分为3类:“Simple Counting”简单计数,“Complex Counting”复杂计数和“Condition Recognition”情况识别。问题的提问方式只有3种:how,what,is,问题的最大长度为11。在简单计数问题中,我们只会简单的询问目标在图像中出现的数量。在复杂计数问题中,我们会针对某种具有特定属性的目标数量进行提问。情况识别类问题分为三种子类问题,一种是问路况“What is the condition of the road”,第二种是问整张图像的情况“What is the overall condition of the entire image”,第三种是“Yes/No”类型的问题。所有问题的统计结果如下图所示:
一些常出现的答案如下:
3. 实验
因为都是用的现成的方法,文章的总体内容也比较简单,所以直接上实验结果:
(1)语义分割的实验结果:
(2)分类的实验结果:
(3)VQA的实验结果: