Deep Depth Completion of a Single RGB-D Image（深度像素补全）全文机器翻译

懒得手翻了，全文机器翻译，凑合着看吧，建议对着原文看

RGB-D图像的深度补全（Deep Depth Completion of a Single RGB-D Image）(全文机器翻译)

Yinda Zhang

普林斯顿大学

摘要

我们的工作目标是完成RGB-D图像的深度通道。商品级深度相机通常无法探测到有光泽、明亮、透明和远处的物体表面的深度。为了解决这一问题，我们训练了一个以RGB图像为输入，预测密集表面法线和遮挡边界的深度网络。然后，这些预测与RGB-D相机提供的原始深度观测相结合，以解决所有像素的深度，包括原始观测中缺失的像素。这种方法优于其他方法(例如直接绘制深度)，这是使用新的深度完成基准数据集进行大量实验的结果，该基准数据集通过呈现多视图RGB-D扫描生成的表面重构来填充训练数据。在不同的网络输入、深度表示、损失函数、优化方法、inpaint方法和深度估计网络中进行的实验表明，我们提出的方法比这些方法提供了更好的深度完井效果。

1. 介绍

深度感知已经广泛应用于自动驾驶、增强现实和场景重建等领域。尽管深度传感技术最近取得了进步，但微软Kinect、英特尔RealSense和谷歌Tango等日用品级RGB-D相机在表面过于光滑、明亮、薄、近或远时，仍然会产生数据缺失的深度图像。这些问题出现在房间大，表面有光泽，强烈的照明充足时，例如，在博物馆，医院，教室，商店等。

我们的工作目标是完成一个RGB-D图像的深度通道捕获与一个商品相机(即。，填满所有的洞)。尽管在过去的20年里，深度绘画受到了很多关注，但通常是通过手工调整方法来解决的，即通过外推边界表面[51]来填充洞，或者使用马尔可夫图像合成[16]来解决。提出了一种利用深度网络从颜色中估计深度的新方法

普林斯顿大学托马斯·芬克豪斯

Deep Depth Completion of a Single RGB-D Image（深度像素补全）全文机器翻译

图1所示。深度完成。利用颜色预测法线，对RGB-D图像的深度通道进行大面积缺失区域的填充，然后求解完整的深度。

[19]。然而，它们还没有用于深度完井，这有其独特的挑战:

训练数据:对于与“复合”深度图像(例如，为孔提供地面真值深度)匹配的捕获的RGB-D图像，大型训练集并不容易获得。因此，大多数深度估计方法都是针对普通的RGB-D相机捕获的像素进行训练和评估的[64]。从这些数据中，他们最多能学会再现观测到的深度，但不能再现未观测到的完整深度，因为这些深度具有明显不同的特征。为了解决这个问题，我们引入了一个新的数据集，其中包含105,432张RGB-D图像，与72个真实环境中大规模地表重建计算得到的完整深度图像对齐。

深度表示:解决我们的问题最明显的方法是使用新的数据集作为监督，训练一个完全卷积的网络直接从RGB-D回归深度。然而，这种方法并不能很好地工作，特别是对于像图1底部一行所示的大洞。从单目彩色图像中估计绝对深度，即使对人[53]也是困难的。相反，我们训练网络只预测深度的局部微分性质(表面法线和遮挡边界)，这更容易估计[35]。然后我们用全局最优解出绝对深度。

深度网络设计:以前没有研究如何最好地设计和训练端到端深度网络来完成从RGB-D输入的深度图像。乍一看，它似乎直接扩展了以前的net-

Deep Depth Completion of a Single RGB-D Image（深度像素补全）全文机器翻译

图2。系统管道。在给定一幅输入RGB-D图像的情况下，利用颜色预测表面法线和遮挡边界，然后利用输入深度正则化的全局线性优化算法求解输出深度。

为颜色到深度训练的作品(例如，通过提供一个额外的深度通道作为输入)。然而，我们发现很难训练网络从深度输入来填充大洞——它们通常只学习复制和插值输入深度。对于网络来说，学习如何适应颜色和深度的失调也是一个挑战。我们的解决方案是只向网络提供彩色图像作为输入(图2)。我们训练它在监控下预测局部表面的normals和遮挡边界。我们稍后将这些预测与全局优化中的输入深度相结合，以解回已完成的深度。通过这种方式，网络只能根据颜色预测局部特征，而这正是它擅长的。通过全局优化和输入深度正则化，重构了场景的粗尺度结构。

总的来说，我们主要的算法观点是，最好将RGB-D深度补全分解为两个阶段:1)仅通过颜色来预测表面法线和遮挡边界，2)通过观测深度提供的软约束预测来优化全局表面结构。实验表明，该方法的相对误差明显小于其他方法。它还有一个额外的好处，即训练后的网络是独立于观测深度的，因此不需要为新的深度传感器重新训练。

2. 相关工作

在深度估计、绘制和处理方面，已有大量的前期工作。

深度估计。单目彩色图像的深度估计是计算机视觉中一个长期存在的问题。经典的方法包括基于阴影的形状(shape-from- shade)[78]和基于散焦的形状(shape-from-defocus)[67]。其他早期的方法是基于手工调整的模型和/或表面朝向的假设[31,60,61]。较新的方法将深度估计视为一个机器学习问题，最近使用的是深度网络[19,73]。例如，Eigen等人首先使用

一种多尺度卷积网络，从彩色图像回归到深度[19,18]。 Laina等人使用了基于ResNet[37]的全卷积网络架构。 Liu等人提出了一种深度卷积神经场模型，将深度网络与马尔可夫随机场[40]相结合。 Roy等人将浅层卷积网络与回归森林相结合，减少了对大型训练集[59]的需求。所有这些方法都是经过训练的，只用于再现用普通的RGB-D相机获得的原始深度。相反，我们关注深度补全，其明确的目标是对深度传感器没有返回的像素做出新的预测。由于这些像素经常在原始深度中丢失，因此仅在原始深度上训练的方法不能很好地预测它们。

深度修补。许多方法已经提出了填补RGB-D渠道深度图像,包括那些使用平滑先验[30],快速行进方法(25日42)、n - s[6],各向异性扩散[41],背景表面外推(51岁,68),颜色深度边缘对齐(77,81),低秩矩阵完成[75],张量投票[36],[44]Mumford-Shah功能优化,与其他属性的联合优化的内在图像[4], 以及基于patch的图像合成[11,16,24]。近年来，人们提出了利用自动编码器和GAN架构[58]对彩色图像进行inpainting的方法[70]。然而，以往的工作还没有研究如何使用这些方法inpainting的深度图像。

深度超分辨率。提出了几种提高高分辨率彩色深度图像空间分辨率的方法。他们已经开发了多种方法，包括Markov random fields [48, 15, 46, 56, 63]， shape-from- [27,76]， segmentation[45]和dictionary methods[21,34, 49, 69]。虽然其中一些技术可以用于深度完井，但超分辨率的挑战是非常不同的——在那里，重点是提高空间分辨率，在那里，低分辨率测量被认为是完整的，并定期采样。相比之下，我们的重点是填补漏洞，这可能是相当大和复杂的，因此需要合成大规模的内容。

稀疏样本深度重建。其他工作研究了用稀疏深度测量集增强彩色图像的深度重建。 Hawe等人研究了用小波基重构[29]。 Liu等人将小波和contourlet字典[43]结合起来。 Ma等人表明，对于NYUv2[47]，提供∼100个间距良好的深度样本比仅使用颜色的方法提高了两倍的深度估计，但仍然得到了相对较低质量的结果。这些方法与我们的工作有一些共同之处。然而，他们的动机是降低在特殊环境下的传感成本(例如，为机器人省电)，而不是完成通常在现成的深度相机中遗漏的数据。

3. 方法

本文研究了如何利用深度网络来完成单个RGB-D图像的深度通道。我们的调查集中在以下几个问题上:“我们如何获得深度完成的培训数据?” ，“我们应该使用什么深度表示?” 以及“颜色和深度的线索应该如何组合?”

3.1。数据集

我们解决的第一个问题是创建一个数据集的RGB-D图像与完成的深度图像配对。

实现这一任务的一个直接方法是使用低成本的RGB-D摄像机捕捉图像，并用成本更高的深度传感器将它们与同时捕获的图像对齐。这种方法是昂贵和耗时的——这种类型的最大公共数据集覆盖了少量的室内场景(例如，[57,62,75])。

相反，为了创建我们的数据集，我们利用现有的表面网格重构从多视图RGB-D扫描大型环境。这类数据集有几个，其中包括Matterport3D[8]、ScanNet[12]、SceneNN[32]和SUN3D[26,72]等。我们使用Matter-port3D。对于每个场景，我们使用经过筛选的Poisson surface reconstruction[33]从全局表面重建中提取一个三角形网格M，每个房间有大约1-6百万个三角形。然后，对场景中的RGB-D图像进行采样，从图像视点的相机位姿出发，将重构后的网格M进行渲染，得到完整的深度图像D*。这个过程为我们提供了一组不用收集新数据的RGB-D→D*图像对。

图3显示了来自数据集的深度图像补全的一些示例。尽管完井并不总是完美无缺的，但它们具有一些有利的性能

Deep Depth Completion of a Single RGB-D Image（深度像素补全）全文机器翻译

图3。深度数据集完成。深度完井是通过对大型室内环境的多视图表面重建计算得到的。在本例中，底部显示了原始颜色和深度通道，视点的呈现深度标记为红点。渲染网格(在大图中由顶点着色)是通过结合来自场景中各种其他视图的RGB-D图像创建的(黄色点)，这些视图在渲染到红点视图时协同填充空洞。

为我们的问题[52]训练一个深度网络。首先，完成的深度图像通常有更少的孔。那是因为它不受限于一个相机角度的观察(例如,图3中的红点),而是由所有摄像机的观察视角的结合导致表面重建(黄点在图3)。因此,表面遥远的一个视图,但另一个范围内,将包括在完成深度图像。同样，光滑的表面，当以掠射角度观察时，通常不提供深度数据，可以用其他相机更直接地观察表面的数据填充(注意，在渲染深度中，光泽地板的完成)。我们的重建过程平均填补了原始深度图像中缺失像素的64.6%。

其次，完成的深度图像通常复制了近距离表面的原始分辨率，但对远距离表面的分辨率要高得多。由于表面重建的三维网格大小与深度相机的分辨率相当，因此在完成深度图像中通常不会丢失分辨率。然而，当投影到视图平面上时，同样的3D分辨率为离摄像机更远的表面提供了更高的像素分辨率。因此，在渲染高分辨率网格时，完成的深度图像可以利用亚像素反走样来获得比原始图像更好的分辨率(请注意图3中家具中的细节)。

最后，完成的深度图像通常比原始图像的噪声小得多。由于表面重建算法通过滤波和平均的方法结合了来自多个相机视图的噪声深度样本，本质上对表面去噪。这对于远距离观测(例如>4米)尤其重要，因为原始深度测量是量子化和有噪声的。

总的来说，我们的数据集包含了117516张渲染完的RGB-D图像，我们将其分为一个包含105,432张图像的训练集和一个包含12,084张图像的测试集。

3.2。深度表示

第二个有趣的问题是“什么几何表示最适合深度补全?”

一种直接的方法是设计一个从原始深度和颜色回归完成深度的网络。然而，绝对深度很难从单目图像中预测，因为它可能需要对象大小、场景类别等知识。

以前的工作考虑了深度的一些间接表示。例如，Chen等人研究了相对深度[9]。 Charkrabarti等人提出了深度导数[7]。 Li等人将深度导数与深度[39]结合使用。我们已经用基于预测导数的方法进行了实验。然而，我们发现他们并没有在我们的实验中表现得最好(见第4节)。

相反，我们专注于预测表面法线和遮挡边界。由于法线是微分曲面性质，它们只依赖于像素的局部邻域。此外，它们与直接在彩色图像中观察到的局部光照变化密切相关。因此，以往对彩色图像表面法线密度预测的研究取得了很好的结果[3,18,38,71,80]。类似地，遮挡边界以像素为单位产生局部模式(如边缘)，因此通常可以用深度网络来鲁棒检测它们[17,80]。

然而，一个关键的问题是，我们如何使用预测的表面法线和遮挡边界来完成深度图像。一些研究人员已经使用预测法线来细化观察到的3D表面的细节[28,55,74]，Galliani等人使用表面法线来恢复桌面对象多视图重建中缺失的几何形状。然而，对于复杂环境下单目RGB-D图像的深度估计或补全，还没有人使用过表面法线。

不幸的是，仅从表面法线和遮挡边界求解深度在理论上是不可能的。有些病理情况下，图像不同部分之间的深度关系不能仅从法线推断出来。例如，在图4(a)中，仅根据给定的表面法线是不可能推断出通过窗口看到的墙的深度的。在这种情况下，可见区域的墙壁是完全封闭的

Deep Depth Completion of a Single RGB-D Image（深度像素补全）全文机器翻译

图4。使用表面法线求解深度补全。 (a)无法从表面法线解出深度的一个例子。 (b)缺少深度的地区用红色标出。红色箭头表示深度不能从曲面n -mals积分的路径。然而，在真实世界的图像中，通常有许多通过相邻像素(沿着地板、天花板等)连接的路径，可以在这些路径上集成深度(绿色箭头)。

通过遮挡边界(轮廓线)从相机的角度，使其深度不确定相对于其余的图像。

然而，在实际应用中，对于真实场景，图像的一个区域不太可能同时被遮挡边界包围并且完全不包含原始深度观察(图4(b))。因此，我们发现利用预测的遮挡边界加权的相干性预测表面法线和受观测原始深度约束的正则化来完成深度图像中较大的孔是可行的。在实验中，我们发现，从预测的表面法线和遮挡边界求解深度，比预测绝对深度目录，甚至从深度导数求解深度完井效果更好(见第4节)。

3.3。网络架构与培训

第三个有趣的问题是“训练一个深度网络来预测表面法线和遮挡边界的最佳方法是什么?”

在我们的研究中，我们选择了Zhang等人提出的deep network architecture，因为它在正常估计和边界检测方面都表现出了竞争性能[80]。该模型是一个建立在VGG-16后骨骼上的全卷积神经网络，具有对称的编码器和解码器。它还配备了用于相应的最大池和反池层的捷径连接和共享池掩码，这对于学习本地图像特性至关重要。我们用重建网格计算出的“地面真实”表面法线和轮廓边界训练网络。

在选择了这个网络之后，关于如何对其进行深度补全的训练仍然存在一些有趣的问题。下面的段落将重点讨论这些问题的正常估计，但是这些问题和结论同样适用于遮挡边界检测。

什么损失应该用来培训网络? 与以往的表面法线估计工作不同，我们的主要目标是训练一个网络来预测原始深度图像孔内像素的法线。由于这些像素的颜色外观特征很可能与其他像素不同(闪亮、远离摄像机等)，因此有人可能认为应该对网络进行监控，以便仅对这些像素进行归一化处理。然而，洞里的像素比没有的要少，所以这种类型的训练数据是有限的。目前还不清楚是否最好的训练是只针对孔还是针对所有像素。因此，我们对两者进行了测试和比较。

我们将观察到的像素定义为具有来自原始传感器和呈现网格的深度数据的像素，将未观察到的像素定义为具有来自呈现网格的深度的像素，而不是原始传感器。对于任意给定的一组像素(观察到的、未观察到的或两者都有)，我们通过在反向传播过程中屏蔽其他像素上的梯度来训练只有这些像素损失的模型。

定性和定量结果比较不同训练模型的结果显示在补充材料。结果表明，用所有像素训练的模型比只使用观察到的或只使用未观察到的像素训练的模型表现得更好，而使用呈现的norm -mals训练的模型比使用原始法线训练的模型表现得更好。

网络应该输入哪些图像通道? 有人可能认为，训练网络从原始的RGB-D图像预测地表法线的最好方法是提供所有四个通道(RGBD)并训练它返回三个正常通道。然而，令人惊讶的是，我们发现，当以这种方式训练时，我们的网络在预测没有观测深度的像素法线方面表现得很差。它们很擅长预测具有观测深度的像素的法线，但不擅长预测孔内的法线。，深度补全所需的。无论损失中包含什么像素，这个结果都成立。

我们推测，原始深度训练的网络主要学习直接从深度计算法线，而没有学习如何在深度不存在的情况下从颜色预测法线，这是深度补全的关键技能。一般来说，我们发现，即使给网络一个额外的通道，其中包含一个二进制掩码，表明哪个像素具有观察到的深度，网络也能更好地从颜色而不是深度来预测normals[79]。例如，在图5中，我们看到仅从颜色预测的大洞中的法线比从深度预测的法线好，并且与从颜色和深度预测的法线一样好。表1中的定量实验支持了这一发现。

这个结果非常有趣，因为它表明，我们可以训练一个网络，仅从颜色来预测表面法线，并且在从法线求深度时，仅将观测到的深度作为正则化处理(下一节)。将“无深度预测”与“有深度优化”分离开来的策略之所以引人注目，有两个原因。首先，预测网络不需要针对不同深度的传感器进行再训练。其次，优化可以

Deep Depth Completion of a Single RGB-D Image（深度像素补全）全文机器翻译

图5。不同输入的表面法向估计。第一行显示了输入的彩色图像、原始深度和呈现的法线。下面一行显示了只输入深度、颜色和两者时的表面正常预测。中间的模型在缺失的区域表现最好，即使没有深度作为输入，在其他地方也可以与其他两个模型进行比较。

广义地以各种深度观测为再ularization，其中可能包括稀疏深度样本[47]。这在第4节中进行了实验研究。

3.4。优化

在预测了面法线图像N和遮挡边界图像B后，我们解出一组方程组来完成深度图像d。目标函数定义为四项误差的加权平方和:

E =λDED +λSES +λNENB ED =

p∈则

| | D (p)−D0 (p) | | 2

EN =

p, q∈N

|| < v(p, q)， N(p) > ||2 (1)

ES =

p, q∈N

| | D (p)−D (q) | 2

其中ED测量像素p处估计深度D(p)与观测原始深度D0(p)之间的距离，EN测量估计深度与预测表面法线N(p)之间的一致性，ES鼓励相邻像素具有相同的深度。 B∈[0,1]对基于预测概率的法线项进行降权，其中a像素位于遮挡边界(B(p))。

在最简单的形式下，这个目标函数是非线性的，这是由于点积与EN中的表面法线所需的切向量v(p, q)的归一化。然而，我们可以用线性形式近似这个误差项，如[55]中所建议的，通过前面的向量归一化。在其他设置中，这种近似会增加缩放误差的敏感性，因为更小的深度会导致更短的切线和更小的EN项。然而，在深度完成设置中，数据表示力

深度完成表面正常的估计

输入Rel↓RMSE 1.253 1.252 1.25 1.10 1.05↓↑↑↑↑↑↓↓中位数11.25意味着深度30↑↑↑22.5 0.107 0.165 38.89 48.54 61.12 73.57 80.98 35.08 23.07 27.6 49.1 58.6 0.090 0.124 40.13 51.26 64.84 76.46 83.05 35.30 23.59 26.7 48.5 58.1颜色0.089 0.116 40.63 51.21 65.35 76.64 82.98 31.13 17.28 37.7 58.3 67.1

表1。不同输入对我们深层网络的影响。我们训练模型的深度，颜色，和分别为表面法线估计和深度完成。仅使用颜色作为输入就可以获得与两者类似的性能。

全局解决方案，通过强制与观察到的原始深度保持一致来保持正确的规模，因此这不是一个重要的问题。

由于方程组的矩阵形式是稀疏对称正定的，我们可以用稀疏Cholesky因子分解(如CSparse[13]中的cs cholsol)有效地求解。最后的解是近似目标函数的全局最小值。

这种线性化方法对该方法的成功与否至关重要。表面法线和遮挡边界(以及可选的深度导数)只捕获表面几何的局部属性，这使得它们相对容易估计。只有通过全局优化，我们才能把它们结合起来，在一个一致的解决方案中完成所有像素的深度。

4. 实验结果

我们进行了一系列实验来验证所提出的方法。除非另有规定，否则网络将在SUNCG数据集上进行预训练[66,80]，并对新数据集的训练分割进行微调，只使用颜色作为输入，并计算所有呈现像素的损失。进行了优化与λD = 103,λN = 1,和λS = 10−3。对新数据集的测试拆分进行了评估。

我们发现，在NVIDIA TITAN X GPU上，从320x256的颜色预测表面法线和遮挡边界需要约0.3秒。在Intel Xeon 2.4GHz CPU上，求解深度的线性方程需要约1.5秒。

4.1。烧蚀研究

第一组实验研究不同的测试输入、训练数据、损失函数、深度表示和优化方法如何影响深度预测结果(进一步的结果可以在补充材料中找到)。

由于我们的工作重点是预测深度传感器无法观测到的深度，因此我们的评估只测量测试深度图像中未观测到的(但呈现在呈现的图像中)测试图像像素的深度预测误差。这与之前大多数深度估计的工作相反，以前的工作只测量由深度相机观察到的像素的误差。

在评估深度预测时，我们报告相对于呈现深度的中值误差(Rel)、以米为单位的均方根误差(RMSE)和pix-的百分比

船预计深度下跌区间内([δ= |预测−真| /真]),δ是1.05,1.10,1.25,1.252,1.253。除了增加1.05和1.10的阈值以支持更细粒度的评估之外，这些指标是以前深度预测工作中的标准。

在评估表面法线预测时，我们报告平均值和中值误差(以度为单位)，以及法线预测值小于阈值11.25、22.5和30度的像素百分比。

应该向网络输入什么数据? 表1显示了一个实验的结果，该实验测试哪种类型的输入最适合我们的常规预测网络:只显示颜色、只显示原始深度，或者两者兼备。从直觉上看，两者都输入似乎是最好的。然而，我们发现，当只给出颜色时，网络学习预测表面法线更好(中值误差= 17.28◦的颜色和23.07◦的两个)，这导致深度估计也略好(Rel = 0.089 vs. 0.090)。无论我们对所有像素进行深度训练，只对观察到的像素进行深度训练，还是只对未观察到的像素进行深度训练(结果是补充材料)，这种差异都会持续存在。我们预计原因是，如果有观测深度，网络可以快速地学习插值，这阻碍了它学习在大孔中合成新的深度。

这个结果的影响是相当显著的，因为它激发了我们的两阶段系统设计，将常规/边界预测只从颜色和原始深度优化中分离出来。

什么深度表示最好? 表2显示了一个实验的结果，测试哪种深度表示最适合我们的网络进行预测。我们分别训练网络预测绝对深度(D)、表面法线(N)和8个方向的深度导数(DD)，然后通过优化方程1使用不同的组合完成深度。结果表明，从预测法线(N)求深度得到的结果最好(Rel = 0.089)，而深度(D)为0.167，导数(DD)为0.100，法线和导数(N+DD)为0.092。我们预计这是因为法线只表示曲面的方向，这相对容易预测[35]。此外，与深度或深度导数不同，法线不随深度缩放，因此在一系列视图中更一致。

遮挡边界的预测有帮助吗? 表2的最后六行显示了要测试的实验结果

B代表Rel↓RMSE↓1.05↑1.10↑1.25↑1.252↑1.253↑1.253↑- D 0.167 0.241 16.43 31.13 57.62 75.63 84.01

不

DD 0.123 0.176 35.39 45.88 60.41 73.26 80.73 N+DD 0.112 0.163 37.85 47.22 61.27 73.70 80.83

N 0.110 0.161 38.12 47.96 61.42 73.77 80.85

是的

DD 0.100 0.131 37.95 49.14 64.26 76.14 82.63 N+DD 0.092 0.122 39.93 50.73 65.33 77.04 83.25

N 0.089 0.116 40.63 51.21 65.35 76.74 82.98

表2。预测表示法对深度精度的影响。 DD表示深度导数，N表示曲面法线。并对边界权值的应用效果进行了评价。第一行显示了直接估计深度的性能。总的来说，用表面法线和遮挡边界求解反深度的效果最好。

Deep Depth Completion of a Single RGB-D Image（深度像素补全）全文机器翻译

图6。遮挡边界预测对法线的影响。第二列显示了估计的表面法线和遮挡边界。第3列和第4列显示了带有/不包含遮挡边界权值的优化结果。为了帮助理解三维几何和局部细节，我们还可视化了从输出深度计算出的表面法线。遮挡边界提供了深度不连续的信息，有助于保持边界的锐度。

是否降低接近预测遮挡边界的表面法线的权重有助于优化器解决更好的深度问题。第2-4行没有边界预测(第一列中的“No”)，第5-7行有边界预测(“Yes”)。结果表明，边界预测将结果提高了约19% (Rel = 0.089 vs. 0.110)。这表明网络平均正确地预测了表面法线有噪声或不正确的像素，如图6所示。

需要观察多少深度? 图7显示了一个实验的结果，测试我们的深度补全方法在多大程度上依赖于输入深度的数量。为了研究这个问题，我们通过随机屏蔽不同像素数的输入深度图像，然后将其提供给优化器，以便从预测的法线和边界解出完整的深度。这两个图显示了曲线，表示原始深度图像中观察到的像素(左)和未观察到的像素(右)的深度精度。从这些结果中，我们可以看到，优化器能够在只给出原始深度图像中一小部分像素的情况下，几乎同样精确地求解深度。正如预期的那样，在未被原始深度观察到的像素上，性能要差得多(它们更难)。然而，深度估计仍然是相当好的时候

Deep Depth Completion of a Single RGB-D Image（深度像素补全）全文机器翻译

图7。稀疏原始深度输入对深度精度的影响。该方法具有良好的完井效果。 t个具有深度的输入像素。从图中可以看出，对于未观测到的像素点，深度估计要比观测到的困难。实验结果表明，该方法仅对少量的稀疏像素具有良好的处理效果，在实际应用中得到了广泛的应用。

只提供了一小部分原始像素(曲线上最右边的点在2000像素处，仅占所有像素的2.5%)。结果表明，该方法可用于其它稀疏测量深度传感器的设计。在这种情况下，我们的深层网络将不必为每一个新的高密度传感器(因为它只取决于颜色)重新训练，这是我们两阶段方法的一个好处。

4.2。与基线方法的比较

第二组实验研究了该方法与基线绘制深度和深度估计方法的比较。

表8显示了一项研究结果，该研究将我们提出的方法与典型的非数据驱动的深度Inpainting方法进行了比较。本研究的重点是建立已知方法的执行情况，从而为这个新数据集提供一个关于问题有多难的基线。因此，我们考虑的方法包括:a)联合双线性滤波[64](双边)，b)快速双边求解器[5](fast)， c)全局边缘感知能量优化[20](TGV)。表8中的结果表明，我们的方法明显优于这些方法(Rel=0.089，而其他方法的结果是0.103-0.151)。该方法通过训练用深度网络预测曲面法线，学习用数据驱动的先验来完成深度，这比简单的几何启发式算法更有效。图8显示了与经过测试的最佳手工调优方法(双边)之间的差异。

方法Rel↓RMSE↓1.05↑1.10↑1.25↑1.252↑1.253↑光滑度0.151 0.187 32.80 42.71 57.61 72.29 80.15

双侧[64]0.118 0.152 34.39 46.50 61.92 75.26 81.84 Fast [5] 0.127 0.154 33.65 45.08 60.36 74.52 81.79 TGV [20] 0.103 0.146 37.40 48.75 62.97 75.00 81.71

我们的0.089 0.116 40.63 51.21 65.35 76.74 82.98

表3。与基线画法比较。我们的方法明显优于基线绘画方法。

与深度估计方法的比较结果如表4所示

Deep Depth Completion of a Single RGB-D Image（深度像素补全）全文机器翻译

图8。与双侧联合滤光片inpainting比较。我们的方法从颜色中学习到更好的指导，产生了比较清晰和准确的结果。

Deep Depth Completion of a Single RGB-D Image（深度像素补全）全文机器翻译

图9。与深度估计方法比较。在此基础上，对现有的深度估计方法进行了比较。我们的方法不仅能产生精确的深度值，而且能产生反映在表面法线上的大规模几何形状。

以前的方法，估计深度只从颜色。我们考虑比较查克拉巴蒂等人的[7]，其方法

Obs Meth Rel↓RMSE↓1.05↑1.10↑1.25↑1.252↑1.253↑Y

[37] 0.190 0.374 17.90 31.03 54.80 75.97 85.69 [7] 0.161 0.320 21.52 75.5 58.75 77.48 85.65 our 0.130 0.274 30.60 43.65 61.14 75.69 82.65

[37] 0.384 0.537 8.86 16.67 34.64 55.60 69.21 [7] 0.352 0.610 11.16 20.50 37.73 57.77 70.10 our 0.283 0.537 17.27 27.42 44.19 61.80 70.90

表4。与深度估计方法比较。我们与Laina等人的[37]和Chakrabarti等人的[7]进行了比较。所有方法在未观测到的像素上的性能都比观测到的像素差，说明未观测到的像素更难处理。我们的方法明显优于其他方法。

最类似于我们的(它使用预测的衍生物)，以及Laina等人的[37]，他们最近在NYUv2的实验中报告了最先进的结果[64]。我们对数据集中的[7]进行了微调，但是没有提供[37]在NYUv2上的预训练模型，因为没有提供它们的训练代码。

当然，这些深度估计方法解决的问题与我们的不同(没有输入深度)，替代方法对深度值的比例尺具有不同的敏感性，因此我们尽最大努力使它们和我们的方法适应相同的设置，以便进行公平的比较。为此，我们运行所有只使用彩色图像作为输入的方法，然后均匀地缩放它们的深度图像输出，以在一个随机像素上完美地与真实深度对齐(对所有方法选择相同的)。在我们的例子中，由于方程1是欠约束的，没有任何深度数据，我们在优化过程中任意将中间像素设置为3米的深度，然后应用与其他方法相同的缩放。这种方法的重点是比较预测的“形状”的计算深度图像，而不是其全球规模。

比较结果如图9和表4所示。从图9的定性结果中，我们可以看到我们的方法最好地再现了场景的结构和精细的细节——即使只有一个原始深度的像素。由表4所示的定量结果可知，无论评价像素是否具有观测深度(Y) (N)，我们的方法都比其他方法好23-40%。这些结果表明，预测表面法线也是一种很有前途的深度估计方法。

5. 结论

本文介绍了一种利用RGB-D摄像机完成RGB-D图像深度通道的深度学习框架。它提供了两个主要的研究贡献。首先，提出了利用颜色预测表面法线和遮挡边界的两阶段过程来完成深度，然后根据这些预测来求解完成深度。其次，通过对大规模地表重建数据的监督训练，学习完成深度图像。在使用新的基准进行测试时，我们发现所提出的方法在绘制深度和估计方面优于以前的基线方法。

参考文献

适用于windows的[1]Kinect。 https://developer.microsoft.com/en-us/windows/kinect。 14

[2]结构传感器。 https://structure.io/。 14

[3] A. Bansal, B. Russell和A. Gupta。 Marr重温:通过表面法线预测二维-三维对准。《IEEE计算机视觉与模式识别会议论文集》，2016年第5965-5974页。 4

[4] J. T.巴伦和J.马利克。单一rgb-d图像的固有场景属性。《IEEE计算机视觉与模式识别会议论文集》，2013年第17-24页。 2

[5] J. T.巴伦和B.普尔。快速双边解决方案。在欧洲计算机视觉会议上，第617-632页。施普林格,2016年。 7、15

[6] M. Bertalmio, A. L. Bertozzi和G. Sapiro。纳维-斯托克斯，流体动力学，图像和视频绘画。计算机视觉与模式识别，2001。 CVPR 2001。 2001年IEEE计算机学会会议论文集，第1卷，第1页。 IEEE 2001。 2

[7] A. Chakrabarti, J. Shao和G. Shakhnarovich。通过协调过于完整的本地网络预测，从单个图像获得深度。《神经信息处理系统研究进展》，第2658-2666页，2016。 4、8、13

[8] A. Chang, A. Dai, T. Funkhouser, M. Halber, M. Niessner, M. Savva, S. Song, A. Zeng, Y。张。 Matterport3d:在室内环境中学习rgb-d数据。 2017年3D视觉国际会议(3DV)。 3.

[9] W. Chen, Z. Fu, D. Yang, J. Deng。单幅图像在野外的深度感知。《神经信息处理系统的进展》，第730-738页，2016。 4

[10] W. Chen, H. Yue, J. Wang，和X. Wu。一种改进的深度图嵌入边缘检测算法。《光学与激光工程》，55:69-77,2014。 2

[11] M. Ciotta和D. routsos。深度引导图像完成结构和纹理合成。在声学、语音和信号处理(ICASSP)， 2016年IEEE国际会议上，第1199-1203页。 IEEE 2016。 2

[12]a, a . x, m·萨瓦m .没什么,t . Funkhouser和m . Nießner。 Scannet:丰富的室内场景三维重建注释。《IEEE计算机视觉与模式识别会议论文集》(Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2017)。 3、14

[13]t·戴维斯。 Csparse。工业与应用数学学会，费城，2006。 6

[14]j . D 'Errico。填补nan, 2017年。 www.mathworks.com/matlabcentral/fileexchange/4551-

inpaint-nans。 15

[15] J. Diebel和S. Thrun。马尔可夫随机场在距离传感中的应用。《神经信息处理系统的进展》，第291-298页，2006。 2

[16] D. Doria和R. J. Radke。通过嵌入深度梯度填充激光雷达数据中的大孔。在计算机视觉和模式识别研讨会(CVPRW)， 2012年IEEE计算机学会会议上，第65-72页。 IEEE 2012。 1、2

[17] K. A. Ehinger, W. J. Adams, E. W. Graf, J. H. Elder, K. Vaia-pury, B. Purushothaman, A. Pal, S. Agarwal, B. Bhowmick，

I. Rafegas等。局部深度边缘检测与深度神经网络。在《IEEE计算机视觉与模式识别会议论文集》2017年第2681-2689页。

[18] D. Eigen和R. Fergus。使用通用的多尺度卷积结构预测深度、表面法线和语义标签。发表于2015年IEEE计算机视觉国际会议论文集，第2650-2658页。 2、4

[19] D. Eigen, C. Puhrsch和R. Fergus。利用多尺度深度网络对单幅图像进行深度地图预测。《神经信息处理系统研究进展》，2014年第2366-2374页。 1、2

[20]d . Ferstl c . Reinbacher r . Ranftl m . Rü,女孩和h。利用各向异性总广义变异量进行图像引导深度上采样。在计算机视觉(ICCV)， 2013年IEEE国际会议上，第993 - 1000页。 IEEE 2013。 7、15

[21] W. T. Freeman, T. R. Jones和E. C. Pasztor。基于实例的超分辨率。 IEEE计算机图形与应用，22(2):56-65,2002。 2

[22] S.加利亚尼和K.辛德勒。只看图像:特定于视点的表面法线预测，用于改进的多视点重建。《IEEE计算机视觉与模式识别会议论文集》，2016年第5479-5487页。 4

[23]d·加西亚。一维及更高维网格数据的鲁棒平滑与缺失值。计算统计学与数据分析，54(4):1167-1178,2010。 15

[24] J. Gautier, O. Le Meur和C. Guillemot。基于深度的图像完成为视图合成。 3D电视会议:3D视频的真实视觉捕捉、传输和显示(3DTV- con)， 2011，第1-4页。 IEEE 2011。 2

龚，刘，周，刘。通过快速行进的方法引导深度增强。图像与视觉计算，31(10):695-703,2013。 2

[26] M. Halber和T. Funkhouser。 rgb-d扫描的精细到粗的全局配准。《IEEE计算机视觉与模式识别会议论文集》(Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2017)。 3.

[27]Y。汉族,J。 - y。李和我。高质量的形状从一个单一的rgb-d图像在未经校准的自然光照。发表于《IEEE计算机视觉国际会议论文集》(Proceedings of the IEEE International Conference on Computer Vision, page 1617-1624, 2013)。 2

[28] C. Hane, L. Ladicky和M. Pollefeys。方向问题:使用表面法向分类器进行深度估计。《IEEE计算机视觉与模式识别会议论文集》，381-389页，2015。 4

[29] S. Hawe, M. Kleinsteuber和K. Diepold。密集视差映射来自稀疏视差测量。在计算机视觉(ICCV)， 2011年IEEE国际会议上，第2126-2133页。 IEEE 2011。 3.

[30]d Herrera, j . Kannala j .么̈,等。深度地图在绘制之前的二阶平滑度。在斯堪的纳维亚图像分析会议上，第555-566页。施普林格,2013年。

[31] D. Hoiem, A. A. Efros和M. Hebert。自动弹出照片。《ACM图形学报》(TOG)， 24(3):577 - 584, 2005。 2

[32]s。华,Q.-H。阮文堂，m.k。 Tran L.-F。 Yu和研究。杨。场景:场景用注释来网格数据集。在3D视觉(3DV)， 2016第四届国际会议上，第92-101页。 IEEE 2016。 3.

[33] M. Kazhdan和H. Hoppe。筛选泊松曲面重建。图论ACM Transactions on Graphics (TOG)， 32(3): 29,2013。 3、12

[34] M. Kiechle, S. Hawe和M. Kleinsteuber。深度图超分辨率的强度与深度联合稀疏分析模型。在IEEE计算机视觉国际会议论文集，第1545-1552页，2013。 2

[35] J. J. Koenderink, A. J. Van Doorn, and A. M. Kappers。图片中的表面感知。注意，知觉，&心理-乔波物理学，52(5):487-496,1992。 1、6

[36] M. Kulkarni和A. N. Rajagopalan。用张量投票的方法画出深度。 JOSA A, 30(6): 1155-1165, 2013。 2

[37] I. Laina, C. Rupprecht, V。 Belagiannis, F. Tombari和N. Navab。全卷积剩余网络的深度预测。在3D视觉(3DV)， 2016第四届国际会议上，第239-248页。 IEEE 2016。 2、8

B.李，C.沈，Y。戴，A.范登亨格尔，和M.何。利用深度特征回归和分层crfs对单目图像进行深度和表面法线估计。发表于2015年IEEE计算机视觉与模式识别会议论文集，第1119-1127页。 4

李，克莱恩，姚。一种双流网络，用于从单个rgb图像估计精细的深度地图。在《IEEE计算机视觉与模式识别会议论文集》2017年第3372-3380页。 4

刘f、沈c、林g和里德。利用深度卷积神经场从单目图像中学习深度。《IEEE模式分析与机器智能学报》，38(10):2024-2039,2016。 2

[41] J. Liu和X. Gong。通过各向异性扩散引导深度增强。在太平洋沿岸多媒体会议上，第408-417页。施普林格,2013年。 2

刘，龚，刘。 kinect深度地图的引导inpainting和filter。在模式识别(ICPR)， 2012年第21届国际会议上，2055-2058页。 IEEE 2012。 2

[43]L.-K。刘，陈少雄，阮子强。稀疏样本深度重构:表示、算法和采样。 IEEE图像处理学报，24(6):1983-1996,2015。 3.

[44]刘先生，何晓欣，和萨尔兹曼先生。通过完成和产生幻觉的深度和语义来构建场景模型。在欧洲计算机视觉会议上，第258-274页。施普林格,2016年。 2

[45] J. Lu和D. Forsyth。稀疏深度超分辨率。《IEEE计算机视觉与模式识别会议论文集》，2015年第2245-2253页。 2

吕俊杰，戴敏，柏华，杜敏。重温基于mrf的深度图超分辨率和增强。在声学，语音和信号处理(ICASSP)， 2011年IEEE国际会议上，第985-988页。 IEEE 2011。 2

[47] F. Ma和S. Karaman。稀疏到稠密:从稀疏深度样本和单个图像进行深度预测。预印本arXiv:1709.07492, 2017。 3、5

[48] O. Mac Aodha, N. D. Campbell, A. Nair和G. J. Bros-tow。基于Patch的单深度图像超分辨率合成。在欧洲计算机视觉会议上，第71-84页。施普林格,2012年。 2

[49] M. Mahmoudi和G. Sapiro。用于范围数据恢复的稀疏表示。 [11]王建民，王建民。基于图像处理的IEEE学报，21(5):2909-2915,2012。 2

[50]毛，沈，Y .- b。杨。图像恢复使用非常深的卷积编解码器网络与对称跳过连接。《神经信息处理系统进展》，第2802-2810页，2016。 15

[51]，松子和Y。青木。利用局部切平面近似增强深度图像。《IEEE计算机视觉与模式识别会议论文集》，3574-3583页，2015。 1、2

[52]美国迈斯特,美国Izadi·克里m公顷̈mmerle, c·洛特,d . Kondermann。什么时候可以使用kinectfusion进行地面真实感采集。 2012年第2期《机器人学中颜色-深度相机融合技术研讨会》。 3.

[53] E. Mingolla和J. T. Todd。从阴影中感知实体形状。生物控制论，53(3):137-151,1986。 1

[54] S. M. Muddala, M. Sjostrom和R. Olsson。基于深度的inpainting用于去除遮挡填充。 3D电视大会:3D视频的真实视觉捕捉、传输与显示(3D电视大会)，2014，第1-4页。 IEEE 2014。 2

[55] D. Nehab, S. Rusinkiewicz, J. Davis和R. Ramamoorthi。有效地结合位置和法线精确的三维几何。《ACM图形学报》(TOG)， 24(3):536 - 543, 2005。 4、5

柏建杰，金学贤，杨。泰，布朗先生和奎恩先生。高质量的深度地图上采样的三维tof相机。在计算机视觉(ICCV)， 2011年IEEE国际会议上，第1623-1630页。 IEEE 2011。 2

[57] J.帕克，Q。 - y。周，V。 Koltun。重新访问彩色点云注册。《IEEE计算机视觉与模式识别会议论文集》，第143-152页，2017。 3.

[58] D. Pathak, P. Krahenbuhl, J. Donahue, T. Darrell和A. A. Efros。上下文编码器:通过inpainting学习。在《IEEE计算机视觉与模式识别会议论文集》2016年第2536-2544页。 2、15

[59] A. Roy和S. Todorovic。利用神经回归森林进行单目深度估计。在《IEEE计算机视觉与模式识别会议论文集》2016年第5506-5514页。 2

[60] A. Saxena, s.h. Chung和a.y。 Ng。单目图像的学习深度。《神经信息处理系统的进展》，第1161-1168页，2006。 2

[61] A. Saxena, M. Sun和A. Y。 Ng。 Make3d:从单个静止图像学习三维场景结构。 [11]张建民，张建民，等。基于模态分析与机器智能的IEEE学报，31(5):824 - 840,2009。 2

[62]d . Scharstein h . Hirschmü噢,Y。 Kitajima, g . Krathwohl n . Nešićx Wang和p .韦斯特林。高分辨率立体数据集与子像素精确的地面真相。在德国模式识别会议上，第31-42页。施普林格,2014年。 3.

[63] E. Shabaninia, A. R. Naghsh-Nilchi和S. Kasaei。高阶马尔可夫随机场用于单深度图像的超分辨率。 IET计算机视觉，2017。 2

[64] N.希尔伯曼，D.霍伊姆，P.科利和R.费格斯。室内分割和支持从rgbd图像推理。计算机视觉- eccv 2012，第746-760页，2012。 1 7 8 15

[65] S. Song, S. P. Lichtenberg, J. Xiao。 Sun rgb-d: rgb-d场景理解基准套件。在IEEE计算机视觉与模式识别会议论文集，567-576页，2015。 14

[66]宋圣，余发，曾，常，萨瓦，芬克豪斯。语义场景完成从一个单一的深度图像。 IEEE计算机视觉与模式识别会议论文集，2016。 6

[67] S. Suwajanakorn, C. Hernandez和S. M. Seitz。深度从焦点与您的手机。《IEEE计算机视觉与模式识别会议论文集》，3497-3506页，2015。 2

[68] A. K. Thabet, J. Lahoud, D. Asmar, B. Ghanem.分段平面场景中深度地图的三维感知校正与补全。在亚洲计算机视觉会议上，第226-241页。施普林格,2014年。 2

[69] I. Tosic和S. Drewes。学习联合强度-深度稀疏表示。 IEEE图像处理学报，23(5):2122-2132,2014。 2

[70] A. van den Oord, N. Kalchbrenner, L. Espeholt, O. Vinyals, A. Graves等。条件图像生成与像素-cnn解码器。《神经信息处理系统进展》，2016年第4790-4798页。

[71]王晓霞，傅希，古普塔。设计用于表面法向估计的深度网络。《IEEE计算机视觉与模式识别会议论文集》，539-547页，2015。 4

[72] J. Xiao, A. Owens, A. Torralba。 Sun3d:使用sfm和对象标签重建大空间的数据库。在IEEE计算机视觉国际会议论文集，1625-1632页，2013。 3.

[73]谢，R.格希克，A.法哈迪。深度3d:采用深度卷积神经网络，全自动2d- 3d视频转换。在欧洲计算机视觉会议上，第842-857页。施普林格,2016年。 2

[74]谢文文，王文民，齐晓霞，张林。单法线贴图的三维表面细节增强。在《IEEE计算机视觉与模式识别会议论文集》2017年第2325-2333页。 4

[75]薛，张，蔡。深度图像绘制:改进低秩矩阵完成与低梯度正则化。 IEEE图像处理学报，26(9):4311-4320,2017。 2、3

[76]L.-F。于研究。杨,Y, w。基于阴影的rgb-d图像形状细化。《IEEE计算机视觉与模式识别会议论文集》，2013年第1415-1422页。 2

[77]张洪涛，于杰，于志峰。王。概率轮廓引导深度图的绘制和超分辨率使用非局部总广义变异。《多媒体工具与应用》，2017年第1-18页。 2

[78]张，P.-S.。蔡，J. E. Cryer和M. Shah。 Shape-from-shading:一项调查。《IEEE模式分析与机器智能学报》，21(8):690-706,1999。 2

[79]张，J。 - y。朱，P.伊索拉，耿晓霞，林亚生，余，和A. A.埃弗罗斯。实时用户引导图像着色与学习深先验。图论ACM Transactions on Graphics (TOG)， 9(4)， 2017。 5、12

[80]Y。张，宋，于默，萨瓦，J。 - y。 Lee, H. Jin和T. Funkhouser。基于物理的卷积神经网络室内场景理解渲染。 IEEE计算机视觉与模式识别会议论文集，2017。 4 6 12 15

[81]Y。左，吴，张，安平。显式边缘不一致性评价模型用于彩色地图深度增强。 IEEE视频技术电路与系统学报，2016。 2

补充材料

本文档包含了烧蚀研究的进一步实现细节和结果，跨数据集实验，以及与其他不适合在主要论文中的inpainting方法的比较。

A.进一步实施细节

本节为我们的方法提供了额外的实现细节。所有数据和代码将在验收后发布，以确保重现性。

. 1。网格重建与渲染

对于Matterport3D数据集中的每个场景，使用以下过程对网格进行重构和渲染，以提供“完整的深度图像”。首先，每个房子都被手动划分成大致对应于房间的区域，使用交互式的平面图绘制界面。其次，提取每个区域内包含RGB-D点(像素)的密集点云，不包括距离摄像机4米以上的像素(避免重构网格中的噪声)。第三，利用经过筛选的泊松曲面重建[33]，深度为oc-tree 11，从每个区域的点重建网格。然后对所有区域的网格进行合并，形成每个场景的最终重构网格M。然后，使用OpenGL为每个原始的RGB-D相机视图创建“完成深度图像”，并读取深度缓冲区。

图10显示了使用此过程生成的网格的图像。第一行显示了覆盖整个房子的外部视图(左边是顶点颜色，右边是平阴影)。底部一行显示了网格内部视图的特写图像。虽然网格并不完美，但它有12.2米的三角形再现了大部分的表面细节。请注意网格是完整的，在RGB-D图像中通常出现的洞(窗户，闪亮的桌面，椅子的薄结构，光滑的橱柜表面等)。此外，请注意距离摄像机较远的表面的高细节(例如，通过门道可以看到隔壁房间的家具)。

由信用证。网络体系结构

本项目所用的所有网络均来自Zhang et.al[80]提出的表面法向估计模型，并进行了如下修改。

根据输入的不同，网络在第一卷积层接收不同通道的数据。

•颜色。颜色是一个3通道张量，每个都有R G B。强度值被归一化为[-0.5 0.5]。

Deep Depth Completion of a Single RGB-D Image（深度像素补全）全文机器翻译

图10。为一个场景重建网格。用于渲染完成深度图像的网格从外部视图(顶部)和内部视图(底部)中显示，使用顶点颜色(左侧)和平面阴影(右侧)进行渲染。

如果需要，我们使用双线性插值来调整彩色图像的大小。

•深度。以米为单位的深度绝对值作为输入。没有来自传感器深度信号的像素被赋值为零。为了解决“缺失”和“0米”之间的模糊性，根据Zhang et.al[79]的建议，增加了一个二元掩码作为附加通道，该掩码表示传感器具有深度的像素。总的来说，深度输入包含2个通道(绝对深度和二进制有效掩码)。为了防止平滑不准确，我们使用最近邻搜索来调整深度图像的大小。

•颜色+深度。本例中的输入是前面介绍的颜色和深度的连接。这就产生了一个5通道张量作为输入。

输出网络的绝对深度、表面法线、深度导数分别输出1、3、8通道的结果。遮挡边界检测网络生成3个通道输出，表示每个像素属于“无边缘”、“深度折痕”和“遮挡边界”的概率。

损失深度、表面法线和导数被预测为回归任务。训练深度和导数使用SmoothL1有损s1，训练曲面法线使用余弦包埋有损s2。将遮挡边界检测转化为分类任务，并利用交叉熵损失s3进行分类。最后两批归一化lay-

1 https: / /github.com/torch/nn/blob/master/doc/criterion.md # nn.Smoot-hL1Criterion

2 https: / /github.com/torch/nn/blob/master/doc/criterion.md # nn.Cosine-EmbeddingCriterion

3 https: / /github.com/torch/nn/blob/master/doc/criterion.md # nn.CrossE-ntropyCriterion

输入代表Rel↓RMSE↓1.05↑1.10↑1.25↑1.253↑C D 0.408 0.500 6.49 12.80 30.01 54.44 72.88 C 1/D 0.412 0.492 6.86 12.88 54.51 73.13 D D 0.167 0.241 31.43 57.62 75.63 84.01 D 1/D 0.199 0.255 73.70 74.19 83.85

我们的0.089 0.116 40.63 51.21 65.35 76.74 82.98

表5所示。不同深度表示的比较。预测深度(D)或视差(1/D)比预测表面法线和求解颜色或深度输入的深度(我们的)结果更糟。

er被删除了，因为这在实践中产生了更好的性能。

出具。培训模式

在Torch中实现了神经网络的训练和测试。所有训练任务均采用RMSprop优化算法。动量设置为0.9，批量大小为1。最初将学习率设置为0.001，并且每100K迭代将学习率降低一半。所有模型在300K迭代内收敛。

B.进一步实验结果

本节提供了额外的实验结果，包括烧蚀研究、跨数据集实验以及与其他深度完井方法的比较。

责任。烧蚀研究

本文第4.1节提供了消融研究的结果，旨在研究不同的测试输入、训练数据、损失函数、深度表示和优化方法如何影响我们的深度预测结果。本节将提供该类型的进一步结果。

不同设置训练的曲面法向估计模型定性结果如图11所示。相比之下，使用我们设置的训练曲面法向估计模型(即只使用彩色图像作为输入，所有可用的像素都以渲染深度为监督，如图4列所示)，可以获得最好的预测质量，从而有利于深度补全的全局优化。

什么样的地面真相更好? 本试验研究了在训练地面预报网络时，应采用何种法线作为损失监测指标。我们实验了从原始深度图像计算法线和从渲染网格计算法线。表6前两行(比较:Target)的结果表明，根据呈现深度训练的模型比根据原始深度训练的模型性能更好。这种改进似乎部分来自于为未观测区域提供训练像素，部分来自于更精确的深度(更少的噪音)。

什么损失应该用来培训网络? 本实验研究的是在训练曲面预测网络时，哪些像素点应该包含在损失中。我们只使用未观察到的像素进行实验，只使用观察到的像素，并同时作为监督。这三个模型分别训练训练分裂的新的数据集,然后评估与测试集的呈现法线。定量结果的最后三行表6(比较:像素)表明,模型训练和监督从观察到的和未被注意的像素(底部行)只略优于一个训练有素的工作或无法观察到的像素像素。这表明未观测到的像素确实提供了额外的信息。

什么样的深度表现最好? 本文考虑了几种深度表示(n -mals、导数、深度等)。本节提供了关于直接预测深度和视差(即1 /深度)的进一步结果，以补充/修正本文表2中的结果。

实际上，本文表2的第一行(第2列中的Rep为' D ')被错误地描述为直接通过颜色预测深度——它实际上是直接通过输入深度预测整个深度。那是个错误。对不起，给您添麻烦了。正确的结果在这个文档表5的顶部行(Input=C, Rep=D)。结果非常相似，没有改变任何结论:预测表面法线，然后求解深度比直接预测深度好(Rel = 0.089 vs. 0.408)。

我们还考虑了Chakrabarti et.al等人在[7]等论文中提出的对差异而不是深度的预测。我们分别训练模型直接从颜色和原始深度来估计视差。结果如表5所示。我们发现，当颜色或深度作为深度补全应用程序的输入时，估计差异导致的性能并不比估计深度好。

B.2。 Cross-Dataset实验

这个测试研究是否可能在一个数据集上训练我们的方法，然后在另一个数据集上有效地使用它。

我们首先在Matterport3D和ScanNet数据集之间进行了实验。这两种方法都具有针对大型环境集(每个∼1000个房间)的3D表面重构，因此可以为训练提供合适的训练数据，并使用呈现的网格测试我们的方法。我们在每个数据集上分别训练一个表面法向估计模型，然后在不进行微调的情况下对另一个测试集执行深度补全。的

Deep Depth Completion of a Single RGB-D Image（深度像素补全）全文机器翻译

图11。不同训练设置下的正常估计比较。第4列显示仅使用颜色作为输入训练模型的输出，以及所有像素的渲染深度作为监督，这是我们为系统选择的设置。相对而言，它比其他替代训练设置生成更好的表面法线。

比较设置深度完成面法线估计输入目标像素Rel↓RMSE↓1.05↑1.10↑1.25↑1.252↑1.253↑均值↓中值↓11.25↓22.5↑30↑

目标颜色原色均为0.094 0.123 39.84 50.40 64.68 76.38 82.80 32.87 18.70 34.2 55.7 64.3颜色渲染均为0.089 0.116 40.63 51.21 65.35 76.64 82.98 31.13 17.28 37.7 58.3 67.1像素

未观察到的颜色分别为0.090 0.119 40.71 51.22 65.21 83.04 31.52 17.70 35.4 57.7 66.6、0.089 0.116 40.63 51.21 65.35 76.64 82.13 17.28 37.7 58.3 67.1

输入

深度渲染均为0.107 0.165 38.89 48.54 61.12 73.57 80.98 35.08 23.07 27.6 49.1 58.6，深度渲染均为0.090 0.124 40.13 51.26 64.84 76.46 83.05 35.30 23.59 58.5 58.1，颜色渲染均为0.089 0.116 40.63 51.21 65.35 76.64 82.13 17.28 37.7 58.3 67.1

表6所示。烧蚀的研究。利用不同的训练投入和损失对估计的地面法线和求解的深度进行评估。为了便于比较，在最后三行复制了main paper中的表1，作为不同输入之间的比较。

定量结果如表7所示。正如预期的那样，模型在匹配训练数据源的测试数据集上工作得最好。实际上，与ScanNet训练的模型相比，Matterport3D训练的模型具有更好的泛化能力，这可能是因为Matterport3D数据集具有更多样化的摄像机视点范围。然而，有趣的是，当在另一个数据集上运行时，这两个模型仍然可以很好地工作，即使它们根本没有经过微调。我们推测这是因为我们的表面法线预测模型只训练在颜色输入上，这两个数据集之间是相对相似的。由于两个数据集的深度图像之间存在显著差异，使用深度作为输入的替代方法可能不能很好地推广。

与结构传感器[2]和Kinect[1]相比，来自in -tel RealSense的深度图在短时间内具有更好的质量，但包含更多的缺失区域。对于距离较远的区域和表面有特殊材料，如光亮、黑暗等，深度信号可以完全丢失或极度稀疏。我们从ScanNet数据集[12]中训练了一个表面法向估计模型，并直接对SUN-RGBD数据集中Intel RealSense采集的RGBD图像进行评估[65]。结果如图12所示。从左到右依次显示输入彩色图像、输入深度图像、使用我们的方法生成的完成深度图像、输入和完成深度图的点云可视化以及由完成深度转换而来的表面法线。从图中可以看出，与Matterport3D和ScanNet相比，RealSense的深度包含了更多的缺失区域，但是我们的模型仍然生成了不错的结果。

列车测试Rel RMSE 1.05 1.10 1.25 1.252 1.253 Matterport3D Matterport3D 0.116 40.63 51.21 65.35 76.74 82.98 ScanNet 82.04 76.04 82.64 mterport3d ScanNet

表7所示。 Cross-dataset性能。我们分别在Matterport3D和ScanNet两种数据集上训练了表面法向估计模型，并对这两种模型进行了测试。模型在训练它的数据集上工作得最好。 Matterport3D模型的泛化能力优于ScanNet模型。

这再次表明，我们的方法可以有效地运行在不同深度传感器捕获的具有显著不同深度模式的RGBD图像上。

B.3。与深度绘画方法的比较

本文的第4.2节比较了不同的画深方法。本节将在表8中提供该类型的进一步结果。在本附加研究中，我们用以下方法进行了比较:

•DCT[23]:使用Matlab Central的代码，通过离散余弦变换求解线性系统的惩罚最小二乘，填补缺失值

。

•FCN[50]:使用Zhang et.al[80]的代码，训练具有对称快捷连接的FCN，以原始深度为输入，生成完成深度为输出。

•CE[58]:训练Pathak et.al的上下文编码器，使用Github 5中的代码来绘制深度图像。

DCT[23]的结果与本文所提供的其他绘画对比结果相似。他们主要是插洞。

FCN和CE的结果表明，inpainting color的设计方法在inpainting depth上并不十分有效。正如本文所描述的，使用FCN从深度学习深度的方法可能是懒惰的，并且只学习复制和插值提供的深度。然而，由于深度数据有许多不同于颜色的特征，因此问题比这更微妙。对于初学者来说，上下文编码器具有比我们的网络更浅的生成器和更低的分辨率，因此生成的深度图像比我们的更模糊。更重要的是，地面真值深度数据可能有缺失值，这使得在上下文编码器(CE)中对鉴别器网络的训练变得复杂——在一个简单的实现中，生成器将被训练来预测缺失值，以便欺骗鉴别器。我们尝试了多种方法来绕过这个问题，包括只在未观察到的像素上传播梯度，

4 https: / /www.mathworks.com/matlabcentral/fileexchange/27994-inpaint-over-missing-data-in-1-d-2-d-3-d-nd-arrays

5 https: / /github.com/pathak22/context-encoder

在缺失区域填充平均深度值。我们发现它们都不如我们的方法有效。

我们的方法以及与其他画法的比较结果可以在本文最后的图14、15、16中看到。每两行显示一个示例，其中第二行显示不同方法的完成深度，第一行显示它们对应的表面法线，以便突出显示细节和3D几何。对于每个例子，我们显示输入，ground truth，我们的结果，然后是FCN[50]的结果，joint bilateral filter[64]，离散余弦变换[23]，只有平滑的优化，和PDE[14]的结果。可以看出，我们的方法生成了更好的大尺度平面几何和更清晰的物体边界。

方法Rel↓RMSE↓1.05↑1.10↑1.25↑1.252↑1.253↑光滑度0.151 0.187 32.80 42.71 57.61 72.29 80.15

双侧[64]0.118 0.152 34.39 46.50 61.92 75.26 81.84 Fast [5] 0.127 0.154 33.65 45.08 60.36 74.52 81.79 TGV [20] 0.103 0.146 37.40 48.75 62.97 75.00 81.71

Garcia et.al [23] 0.115 0.144 36.78 47.13 61.48 74.89 81.67 FCN [80] 0.167 0.241 16.43 31.13 57.62 75.63 84.01

我们的0.089 0.116 40.63 51.21 65.35 76.74 82.98

表8所示。与基线画法比较。为了便于比较，我们将主论文中比较的方法复制到同一个表中。我们的方法明显优于基线绘画方法。

我们还将完成的深度图转换为三维点云进行可视化和比较，如图13所示。利用Matter-port3D数据集中提供的相机内建特性，将深度图上的每个像素投影到三维点上，并从彩色图像中复制颜色强度。每一行都显示一个例子，其中彩色图像和点云由地面真实值转换而来，输入深度(即包含大量缺失区域的传感器原始深度)，以及我们的方法FCN[50]的结果，联合双侧滤波[64]，平滑inpainting。与其他方法相比，我们的方法保持了更好的三维几何形状和更少的边界出血。

Deep Depth Completion of a Single RGB-D Image（深度像素补全）全文机器翻译

图12。我们在RealSense数据上的结果。我们运行一个从ScanNet数据集训练的模型，并在没有finetune的情况下对Intel RealSense捕获的RGBD图像进行测试。从左到右依次显示输入彩色图像、输入深度图像、使用我们的方法生成的完成深度图像、输入和完成深度图的点云可视化以及由完成深度转换而来的表面法线。该方法对深度完井效果良好。

Deep Depth Completion of a Single RGB-D Image（深度像素补全）全文机器翻译

图13。点云可视化方法与我们的其他方法进行比较。我们将完成的深度转换为点云。我们的模型产生了更好的三维几何和更少的出血问题的边界。

Deep Depth Completion of a Single RGB-D Image（深度像素补全）全文机器翻译

图14。更多的结果和比较inpainting方法。每个示例都显示在两行中，其中第二行显示输入、地面真相和完成的深度，而第一行显示第二行上每个对应深度映射的表面法线，以突出显示细节。我们的方法在一般作品中比其他绘画方法要好。

Deep Depth Completion of a Single RGB-D Image（深度像素补全）全文机器翻译

图15。更多的结果和比较inpainting方法。每个示例都显示在两行中，其中第二行显示输入、地面真相和完成的深度，而第一行显示第二行上每个对应深度映射的表面法线，以突出显示细节。我们的方法在一般作品中比其他绘画方法要好。

Deep Depth Completion of a Single RGB-D Image（深度像素补全）全文机器翻译

图16。更多的结果和比较inpainting方法。每个示例都显示在两行中，其中第二行显示输入、地面真相和完成的深度，而第一行显示第二行上每个对应深度映射的表面法线，以突出显示细节。我们的方法在一般作品中比其他绘画方法要好。

<a class="rengong_notice-try" href="https://f.youdao.com/?vendor=fanyi-doc-result-bottom" target="_blank" rel="external nofollow" ></a>
      <a class="rengong_notice-close" href="javascript:;" target="_blank" rel="external nofollow" >X</a>
    </div></div>