文章目录
- 10.场景理解
- 11.自动驾驶的端到端学习
- 12.结论
10.场景理解
自动驾驶的基本要求之一是充分了解其周围的区域,如复杂的交通场景。户外场景理解的复杂任务包括深度估计、场景分类、目标检测与跟踪、事件分类等子任务。每一个任务都描述场景的特定方面。将这些方面的一些模型联合起来,利用场景中不同元素之间的关系,有利于获得整体的理解。大多数场景理解模型的目标是获得一个丰富而紧凑的场景表示,包括场景的所有元素,例如布局元素、交通参与者以及彼此之间的关系。与二维图像领域的推理相比,三维推理在解决几何场景理解问题上发挥着重要的作用,并以三维对象模型、布局元素和遮挡关系的形式使场景的信息表达更加丰富。场景理解的一个具体挑战是对城市和次城市交通场景的解释。与公路和乡村道路相比,城市场景包含了许多独立移动的交通参与者,道路和十字路口的几何布局变化更多,由于模糊的视觉特征和光照变化增加了难度。
从单幅图像到视频:在他们开创性的工作中,霍伊姆等人(2007)从一张图像中推断出一个场景的整体3D结构。表面布局表示为一组粗糙的几何类,具有一定的方向,如支持、垂直和天空。这些元素是通过学习一个基于外观的模型通过多个分段来推断的。Ess等人(2009b)在分类和表示方面提出了一种更细粒度的方法,使用超像素来识别交通场景中的道路和对象类型。Liu等人(2014)也使用超像素通过从已知深度的图像池中检索相似的图像并建模超像素之间的遮挡关系来进行单个图像深度估计。虽然这些方法在应用于单个图像时显示出良好的效果,但视频序列中的运动是信息的丰富来源,尤其是在高度动态的场景中。Kuettel et al.(2010)通过学习共同发生的活动和它们之间的时间规则,对复杂动态场景中移动物体的时空依赖关系进行建模。然而,他们的方法假设一个静态的观察者,并且场景必须观察相当长的一段时间才能做出决定,因此它不适用于自动驾驶系统。Geiger等人(2014)采用概率模型,对交叉口的三维场景布局以及场景中车辆的位置和方位进行了联合推理。在这种方法中,轨迹独立的假设可能会导致难以置信的配置,比如汽车相撞。Zhang et al.(2013)通过在交通模式的形式中包含高级语义来解决这个问题,如图40所示。
图40:使用交通模式理解场景。在Geiger et al.(2014)中,对象之间的高阶依赖被忽略,导致了碰撞车辆的物理上不合理的推断结果(左)。Zhang et al.(2013)提出明确考虑交通模式,以改善场景布局和活动估计结果(正确,正确的情况用红色标注)。改编自zhang等人(2013)
结合目标检测和跟踪:场景标记通常与目标检测和跟踪相结合,以实现不同但相关任务之间的信息流。Wojek & Schiele (2008a)利用线性运动模型对车辆进行检测和跟踪。他们还估计摄像机的运动,并将其传播到下一帧的动态条件随机场模型中,用于对象和场景类的联合标记。Wojek等人(2010)将联合推理扩展到3D,在公式中加入行人。他们提出了一个包含多类对象检测、对象跟踪、场景标记和三维几何关系的概率三维场景模型。多帧联合场景跟踪模型在不使用立体图像的情况下提高了三维多目标跟踪任务的性能,但这种方法不能处理部分遮挡的对象。为了解决这个问题,Wojek等人(2011,2013)将多个物体部件检测器集成到3D场景模型中,进行明确的物体与物体之间的遮挡推理(图41)。
图41:Wojek等人(2013)将目标检测与跟踪系统与外显遮挡推理相结合的概述。改编自Wojek等人(2013)。
其他表示:除了上述方法使用的基于3D基元的表示外,还有其他表示街道场景的方法。Seff & Xiao(2016)定义了道路布局属性列表,如车道数、可行驶方向、到交叉口的距离等。他们首先利用现有的街景图像数据库和在线导航地图(如OpenStreetMap),为这些属性自动收集大型数据集。基于此数据集,他们训练了一个深度卷积网络,从单个街景图像中预测每个属性。目标是通过在故障情况下充当备份来减少对高清晰度映射的依赖。de Oliveira等人(2016)受户外几何结构流行的启发,用一组由支撑平面和包围多边形描述的平面多边形来表示三维结构。根据激光雷达提供的三维点云,他们通过使用RANSAC和聚类内值来找到支持平面。随着时间的推移,对于场景的增量3D表示,它们随着新数据的到来而演变。这是通过对基本物体进行垂直和纵向扩展来实现的,以适应新的点云数据。尽管由于计算上的限制,直接从3D测量得到的场景的3D表示通常不是首选的,但是它们紧凑的表示能够快速计算和更新,同时仍然是准确的。
11.自动驾驶的端到端学习
目前最先进的自动驾驶方法由许多模型组成,例如检测(交通标志,灯光,汽车,行人),细分(车道,立面),运动估计,跟踪交通参与者,重建。然后将这些组件的结果组合到一个基于规则的控制系统中。然而,为了解决操纵汽车方向和速度的问题,这就需要对场景理解中的许多开放挑战提出健壮的解决方案。作为一种替代方法,端到端自动驾驶的几种方法已经在最近的文献中提出。端到端自动驾驶被定义为使用一个自包含系统的驾驶,该系统将从感觉输入(如前置摄像头图像)直接映射到驾驶动作(如转向角度)。
Bojarski等人(2016)提出了一种针对车道线的端到端深度卷积神经网络,根据给定的专家数据,该神经网络将汽车前端摄像头的图像映射到转向角度。Chen等人(2015a)没有直接学习从像素到动作的映射,而是提出了一种方法,它首先估计少量的可解释的、预先定义的人提供与周围汽车的距离等措施。然后,这些预测的措施与汽车动作手动关联,以启用自动驾驶控制器。
现有的端到端学习方法将像素映射到驱动,并直接模拟演示的性能。然而,由于用于训练的公共数据集的可用性有限,这些方法的成功仅限于在某些情况下收集的数据、相应的模拟或特定的校准驱动设置。因此,Xu等人(2016)提出了一种利用未校准来源的大规模在线数据集学习驱动模型的替代方法。具体来说,他们将自动驾驶作为未来的自主驾驶预测问题,使用一种新的深度学习体系来学习预测当前运动路径
12.结论
本文就自动驾驶汽车计算机视觉中的问题、数据集和方法进行了综述。为了实现这一目标,我们考虑了历史上最相关的文献以及几个特定主题的最新进展,包括识别、重建、运动估计、跟踪、场景理解和端到端学习。我们通过对KITTI基准测试的全新深入定性分析,并考虑到其他数据集,讨论了这些主题中的开放问题和当前的研究挑战。我们的交互式在线工具提供一个简单的导航用于搜索文献并使用一个图表对算法分类进行可视化。在未来,我们计划保持工具与相关文献的更新,以提供该领域的最新概述。我们希望我们的调查和工具将鼓励新的研究,并通过提供详尽的概述,以方便初学者进入该领域。