【EMSANet2022】Efficient Multi-Task RGB-D Scene Analysis for Indoor Environments

本文主要是介绍【EMSANet2022】Efficient Multi-Task RGB-D Scene Analysis for Indoor Environments，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

Efficient Multi-Task RGB-D Scene Analysis for Indoor Environments

室内环境的高效多任务RGB-D场景分析

arXiv:2207.04526v1 [cs.CV] 10 Jul 2022
文章地址：https://arxiv.org/abs/2207.04526
代码地址： https://github.com/TUI-NICR/EMSANet

摘要

语义场景理解对于在各种环境中行动的移动代理至关重要。尽管语义分割已经提供了很多信息，但关于单个物体以及一般场景的细节还是缺失的，但对于许多现实世界的应用来说是需要的。然而，鉴于移动平台上有限的计算和电池能力，单独解决多个任务是昂贵的，而且不能实时完成。在本文中，我们提出了一种高效的RGB-D场景分析的多任务方法（EMSANet），它同时进行语义和实例分割（全景分割）、实例方向估计和场景分类。我们表明，所有的任务都可以在移动平台上使用单一的神经网络实时完成，而不会降低性能–相比之下，各个任务之间能够相互受益。为了评估我们的多任务方法，我们扩展了常见的RGB-D室内数据集NYUv2和SUNRGB-D的注释，以便进行分割和方向估计。据我们所知，我们是第一个在NYUv2和SUNRGB-D上为室内场景分析提供如此全面的多任务设置的结果。

索引项–多任务学习，方向估计，全景分割，场景分类，语义分割，NYUv2，SUNRGB-D

1. 导言

图1. 我们提出的高效多任务场景分析网络（EMSANet）的预测，它同时进行全景分割、方向估计和场景分类。以24. FPS的NVIDIA Jetson AGX Xavier，它很适合移动机器人应用。语义标签颜色见图4。颜色变化表示个别实例。

在计算机视觉中，语义场景理解通常等同于语义分割，因为它能够通过给图像的每个像素分配一个语义标签来获得关于场景结构的精确知识。然而，这种知识对于我们正在进行的研究项目MORPHIA和CO-HUMANICS中需要在其环境中自主操作的代理来说是不够的。想象一下，一个移动机器人应该导航到一个语义实体，例如，如图1所示，在客厅的一组椅子中的一个特定椅子。执行这样一个高层次的任务需要对场景有更广泛的了解。首先，即使有了环境的语义图[1]，机器人仍然需要知道其环境的哪一部分属于客厅。随后，它需要能够区分同一语义类别的各个实例，最后，为了从正确的方向接近椅子，需要它的方向。

在本文中，我们提出了一种叫做高效多任务场景分析网络（EMSANet）的方法，用于解决上述所有的挑战，以完成这样一个高级任务。我们的方法可以进行场景分类、语义和实例分割（全景分割），以及实例方向估计。然而，考虑到移动平台上有限的计算和电池资源，单独解决所有这些任务是昂贵的，而且不能实时完成。因此，我们设计了我们的方法来解决所有上述的任务，使用一个单一的高效的多任务网络。我们的方法扩展了ESANet[2]，这是一种高效的语义分割方法，通过增加额外的头来处理全景分割、实例方向估计和场景分类。ESANet同时处理RGB和深度数据作为输入。如[2]所示，特别是对于室内环境，深度数据提供了补充的几何信息，有助于分析杂乱的室内场景。在本文中，我们表明这对于全景分割、实例方向估计和场景分类也是如此。因此，我们的方法也依赖于RGB和深度数据。

训练这样一个多任务方法需要全面的数据集。然而，据我们所知，没有一个真实世界的RGB-D室内数据集包含了所有上述任务的地面真实注释。因此，我们在现有的数据集NYUv2[3]和SUNRGB-D[4]中为实例分割和实例方向估计增加了注释。有了这些数据，我们首先训练单任务基线，然后在几个多任务设置中结合多个任务。我们的实验表明，所有的任务都可以使用单个神经网络实时解决，而不会降低性能–相比之下，各个任务能够相互促进。我们的完全多任务方法达到了24。在移动平台NVIDIA Jetson AGX Xavier上的FPS，同时实现了最先进的性能。因此，它非常适用于移动平台上的实际应用。

综上所述，我们的主要贡献是。

一种高效的RGB-D多任务方法，用于全景分割、场景分类和实例方向估计（EMSANet），包括一种新颖的实例方向编码
丰富的NYUv2和SUNRGB-D注释
在NVIDIA Jetson AGX Xavier上进行的关于单任务和多任务设置中的性能以及相应推理吞吐量的详细实验。

我们的代码、NYUv2和SUNRGB-D的额外注释以及训练好的模型都可在以下网站上公开获得：https://github.com/TUI-NICR/EMSANet

2. 相关工作

在下文中，我们简要地总结了每个任务的相关工作。此外，我们还对多任务环境下的任务组合提出了一些见解。

A. 语义分割

语义分割的架构通常遵循编码器-解码器设计，以完成密集的像素级预测。知名的方法如PSPNet[5]或DeepLab系列[6]-[8]取得了良好的效果，但由于其对中间特征表示的低下采样，无法在移动平台上实时执行。因此，出现了另一条研究路线，专注于低推理时间，同时仍然保持高性能。例如，ERFNet[9]通过在空间上将昂贵的3×3卷积分解为3×1和1×3卷积，引入了一个更有效的块，因此，减少了计算量。相比之下，SwiftNet[10]只是使用了预先训练好的ResNet18[11]作为编码器，并进行了早期和高度的下采样，从而使推理时间较短，但也仍然有很好的性能。

虽然上述方法只处理RGB数据，特别是针对室内应用，但其他方法[12]-[16]也纳入了深度数据，因为它们提供了补充的几何信息，有助于分析杂乱的场景。大多数方法首先使用两个编码器分别处理RGB和深度数据（RGB-D），然后在网络中融合产生的特征。然而，几乎所有的RGB-D方法都使用深度和复杂的网络结构，并不注重快速推理。相比之下，我们最近发表的ESANet[2]结合了高效和RGB-D语义分割的优点。它利用了一个精心设计的架构，其特点是基于RGB-D ResNet的双分支编码器，具有高下采样和空间因子化的卷积，能够实现快速推理。我们在[2]中的实验表明，用浅色骨架处理RGB和深度数据要比只利用RGB数据和更深的骨架要好。因此，我们的方法沿用了ESANet，并通过额外的头处理剩余的任务来扩展其架构。

B. 全景分割

全景分割[17]是为了将语义分割（为每个像素分配一个类别标签）和实例分割（为同一实例的像素分配一个唯一的ID）统一在一个任务中。在全景分割中，可计数物体的语义类被视为事物类，代表前景。背景类，如墙或地板–被称为东西类–不需要实例。因此，所有相关的像素都有相同的实例ID。全景分割的方法可以分为自上而下、自下而上和端到端的方法。自上而下的方法通常扩展了两阶段的实例分割方法，如Mask R-CNN[18]，并增加了一个用于语义分割的解码器[19]，[20]。尽管自上而下的方法通常会取得优异的性能，但它们有几个主要的缺点。由于实例分割方法可以输出重叠的实例掩码，因此需要进一步的逻辑来解决这些问题，以便在没有矛盾的情况下合并实例和语义分割。此外，它们需要复杂的训练和推理管道，这使得它们不太适合于移动应用。另一方面，自下而上的方法为语义分割扩展了基于编码器-解码器的架构，并通过将像素分组到集群中，将事物类别分成实例[21]-[23]。由于自下而上的方法既不需要区域建议，也不需要独立估计多个掩码，更不需要进一步的细化步骤，因此与自上而下的方法相比，其训练和推理的管道要简单得多。然而，在Panoptic DeepLab[23]之前，自下而上的方法在全景质量方面无法与自上而下的方法竞争。尽管如此，自上而下和自下而上的方法都需要额外的逻辑来合并实例和语义分割。最近提出的MaX-DeepLab[24]采用了另一种基于新型双路径转化器架构的方法[25]，并试图使用一个端到端的管道直接预测泛在的分割。然而，这类方法的研究目前侧重于建立新的架构，而不是快速有效的推断。

与语义分割不同，只有少数方法以效率为目标[26]-[30]。然而，他们的目标硬件是不同的，因为他们只报告了高端GPU上的推理时间。在移动平台上的执行，如NVIDIA Jetson AGX Xavier，预计会慢得多。

我们的方法遵循自下而上的理念，因为它可以直接集成到ESANet中，并有望在移动平台上实现更快的推理。

C.方向估计

方向估计通常与三维边界框检测一起完成[31]-[33]，并深深地集成到这种架构中。调整这些检测器以完成密集预测将需要根本性的改变，因此，不适合我们的应用。与方位估计密切相关的另一个研究领域是人的感知[34]-[38]。除了使用骨架[34]来估计一个人的固有方向外，还有一些方法直接从斑块中估计方向[35]-[38]。这可以使用分类或回归来进行。然而，如[35]所示，分类法进一步增加了离散性的不准确性，并且不能很好地说明周期性。因此，诸如[35]、[36]等方法依赖于回归，并通过其正弦和余弦部分估计角度，这通常被称为Biternion编码[35]。同一作者还提议使用冯-米塞斯损失函数[35]，而不是L1或MSE损失，因为它进一步改善了核算周期性，避免了不连续现象。

我们的方法遵循后者的想法，并将方向估计制定为回归。然而，我们没有使用基于补丁的方法，而是提出了一种新的方法来完成密集的方向估计。