Advances in Deep Concealed Scene Understanding (伪装场景理解综述解读）

本文主要是介绍Advances in Deep Concealed Scene Understanding (伪装场景理解综述解读），希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

摘要

伪装场景理解是计算机视觉领域的一个研究热点，其目的是对伪装物体进行感知。在技术和应用方面的目前繁荣发展需要进行最新的调查。这可以帮助研究人员更好地了解全球CSU领域，包括当前的成就和仍然存在的挑战。本文有四个方面的贡献：（1）我们首次提出了针对CSU的深度学习技术的全面调查，包括分类、特定任务的挑战和正在进行的发展。（2）为了对最先进的技术进行权威的量化，我们为伪装目标分割提供了最大和最新的基准。（3）为了评估深度CSU在实际场景中的泛化性，我们收集了最大的伪装缺陷分割数据集CDS2K，其中包含多种工业场景的难案例，并在此基础上构建了一个综合基准。（4）讨论了CSU有待解决的问题和潜在的研究方向。

1.引言

图一

伪装场景理解（CSU）旨在识别表现出伪装形式的物体。就其本质而言，与传统的目标检测相比，CSU显然是一个具有挑战性的问题。它在现实世界中有大量的应用，包括搜索救援工作，稀有物种发现，医疗保健（如结肠息肉和复变的自动诊断），农业（如害虫鉴定和水果成熟度评估）内容创作（如娱乐艺术等）。在过去的十年中，学术界和工业界都对CSU进行了广泛的研究，并且使用传统的计算机视觉和模式识别技术处理了具有伪装目标的各种类型的图像，包括手工设计模式（例如，运动线索，光流），启发式先验（例如颜色，纹理，强度）和组合技术。

近年来，由于可用的基准（例如COD10k和NC4K）和深度学习的快速发展，该领域取得了重要的进步。在2020，FAN（这篇文章作者）等人发布了第一个大规模公共数据集COD10K，旨在推进必须处理隐藏的感知任务。这也启发了其他相关学科。例如，MEI等人提出了一种用于伪装物体分割的分心感知框架，该框架可以扩展到自然场景中透明材料的识别。2023年，JI等人提出了一种来自于目标级梯度的学习纹理高效模型，其泛化性已通过各种下游应用得到验证，例如医学息肉分割和道路裂缝检测。尽管多个研究团队已经解决了与伪装目标有关的任务，但我们相信，在正在进行的努力之间进行更强的互动是有益的。因此，我们主要回顾了基于CSU的深度学习的现状和最新进展。同时我们提供了一个大规模的伪装缺陷分割数据集CDS2K。该数据集来自不同场景工业界的难样例，从而为CSU提供了有效的基准。

过往调查及范围。据我们所知，在CSU社区发表的调查论文很少，这些论文主要是回顾非深度学习技术。有一些基准范围较窄，例如图像分割，其中只评估了少数深度学习。在本文中我们展示了深度学习CSU技术的全面调查，从而扩大了范围。我们也通过了更全面的比较和面向应用的评估，提供了更广泛的基准测试。贡献。我们的贡献总结如下：

(1) 我们首次全面考察了针对CSU的深度学习技术，这包括对其分类和特定障碍的概述，以及通过对现有数据集和技术的考察，评估了在深度学习时代取得的进展。

(2) 为了定量评估当前最先进的技术水平，我们创建了一个新的伪装目标分割基准（COS Benchmark），这是CSU领域内一个关键且非常成功的领域。这个基准是目前最新、最全面的。

(3) 为了评估深度学习在现实世界场景中的适用性，我们对CDS2K数据集进行了重新构建——这是用于伪装缺陷分割的最大数据集，其中包括来自各种工业环境的具有挑战性的案例。我们利用这个更新后的数据集创建了一个全面的评估基准。

(4) 我们的讨论深入探讨了CSU社区目前面临的障碍、可用的前景以及未来的研究领域。

2.背景

2.1任务分类和形式化定义

图2

2.1.1图像级CSU

在本节中，我们介绍了五个常用的图像级CSU任务，这些任务可以被形式化为一个映射函数 F：X → Y，将输入空间 X 转换为目标空间 Y。

伪装目标分割（Concealed Object Segmentation，COS）是一种与类别无关的密集预测任务，用于分割具有未知类别的隐蔽区域或物体。如图2（a）所示，模型 FCOS：X → Y 受到二值掩码 Y 的监督，用于预测图像 X 的每个像素 x 的概率 p ∈ [0,1]，这代表了模型确定像素 x 是否属于伪装区域的置信水平。伪装目标定位（Concealed Object Localization，COL）的目标是识别伪装目标中最显著的区域，这与人类感知心理学相一致。该任务是学习一个密集映射 FCOL：X → Y。输出 Y 是由眼动追踪设备捕获的非二值注视图，如图2（b）所示。实质上，像素 x 的概率预测 p ∈ [0,1] 表示其伪装有多明显。

伪装实例排序（Concealed Instance Ranking，CIR）是基于它们的可检测性对伪装场景中的不同实例进行排序。伪装的水平是这个排序的基础。CIR 任务的目标是在输入空间 X 和伪装排序空间 Y 之间学习一个密集映射 FCIR：X → Y，其中 Y 表示每个实例的逐像素注释，带有相应的排序级别。例如，在图2（c）中，有三只具有不同伪装水平的蟾蜍，它们的排序标签来自[23]。为了执行这个任务，可以在实例分割模型（如 Mask R-CNN [33]）中，用排名标签替换每个实例的类别ID。

伪装实例分割（Concealed Instance Segmentation，CIS）是一种旨在基于语义特征识别伪装场景中的实例的技术。与一般的实例分割不同[36]，[37]，在一般的实例分割中，每个实例被分配一个类别标签，而CIS则通过识别伪装目标的属性来更有效地区分不同的实体。为了实现这一点，CIS 使用一个映射函数 FCIS：X → Y，其中 Y 是一个标量集合，包含用于解析每个像素的各种实体。这个概念在图2（d）中有所说明。

伪装目标计数（Concealed Object Counting，COC）[38] 是CSU领域的一个新兴主题，旨在估计伪装在其环境中的实例数量。如图2（e）所示，COC任务的目标是估计每个实例的中心坐标并生成它们的数量计数。它的形式可以定义为FCOC：X → Y，其中X是输入图像，Y表示输出密度地图，指示了场景中的伪装实例。

总体而言，图像级CSU任务可以根据它们的语义特点分为两组：目标级（COS和COL）和实例级（CIR、COC和CIS）。目标级任务侧重于感知物体，而实例级任务旨在识别语义以区分不同的实体。此外，基于其输出形式，COC被视为稀疏预测任务，而其他任务属于密集预测任务。COS已经得到广泛研究，而对其他三个任务的研究逐渐增加。

2.1.2视频级CSU

给定一个包含T个伪装帧的视频剪辑 {Xt}Tt=1，视频级CSU可以被形式化为一个映射函数 F：{Xt}Tt=1 → {Yt}Tt=1，用于解析密集的时空对应关系，其中Yt是帧Xt的标签。视频伪装目标检测（Video Concealed Object Detection，VCOD）[39] 与视频目标检测 [40] 类似。该任务旨在通过学习一个时空映射函数 FVCOD：{Xt}Tt=1 → {Yt}Tt=1 来在视频中识别和定位伪装目标，其中预测每个帧 Xt 中物体的位置 Yt。位置标签 Yt 以边界框的形式提供（见图2（f）），包含四个数字（x、y、w、h），分别表示目标的位置。这里，(x,y) 表示其左上角坐标，而 w 和 h 分别表示宽度和高度。视频伪装目标分割（VCOS）[41] 源自伪装目标发现任务[39]。其目标是在视频中分割伪装的目标。这项任务通常利用时空线索来驱动模型学习输入帧 Xt 与相应的分割掩码标签 Yt 之间的映射 FVCOS : {Xt}Tt=1 7→ {Yt}Tt=1。、图2（g）展示了其分割掩码的示例。

总的来说，与图像级别的伪装目标场景理解（CSU）相比，视频级别的隐蔽物体理解发展较为缓慢。这是因为采集和标注视频数据需要耗费大量的人力和时间。然而，随着在 MoCA-Mask 上建立了第一个大规模的视频伪装目标分割基准[41]，这个领域取得了根本性的进展，同时仍有充足的探索空间。

2.1.3 任务关系

在图像级别的伪装场景理解任务中，CIR任务需要最高水平的理解，因为它可能不仅涉及四个子任务，如像素级区域分割（即COS）、计数（即COC）或区分不同实例（即CIS），还需要在不同难度级别下根据其注视概率（即COL）对这些实例进行排序。此外，关于两个视频级别的任务，VCOS是对VCOD的下游任务，因为分割任务要求模型提供像素级别的分类概率。

2.2相关的主题

接下来，我们将简要介绍显著目标检测（SOD），它与COS类似，需要提取目标物体的特性，但一个侧重于显著性，而另一个侧重于伪装属性。

图像级SOD旨在识别图像中最吸引人的物体，并提取其像素级精确的轮廓[42]。在深度 SOD模型中已经探索了各种网络架构。例如，多层感知器，全卷积网络，胶囊网络，基于Transformer的网络，以及混合网络等不同类型的网络在SOD领域得到研究。与此同时，SOD模型也研究了不同的学习策略，包括数据高效的方法（例如，弱监督与分类标签以及无监督与伪掩码），多任务范式（例如，物体数量估计，注视点预测，语义分割，边缘检测，图像标题生成），实例级别的范式等。为了更全面地了解这个领域，读者可以参考关于视觉注意力、显著性预测、共同显著性检测、RGB显著性目标检测、RGB-D（深度）显著性目标检测、RGB-T（热像）显著性目标检测，以及光场显著性目标检测[94]的一些权威综述或代表性研究。

视频级别显著性目标检测（VSOD）。视频显著性目标检测（VSOD）的早期发展源自于在视频目标分割（VOS）任务中引入注意力机制。在那个阶段，任务场景相对简单，仅包含视频中移动的一个目标。由于移动目标往往会吸引视觉注意力，VOS和VSOD是等价的任务。例如，王等人[95]使用全卷积神经网络来解决VSOD任务。随着VOS技术的发展，研究人员引入了更复杂的场景（例如，复杂的背景、目标移动和两个目标），但这两个任务仍然是等价的。因此，后来的工作利用了语义级别的时空特征，循环神经网络，或离线运动线索，如光流。然而，随着更具挑战性的视频场景的引入（包含三个或更多的目标、同时相机和目标移动），VOS和VSOD不再等价。然而，研究人员继续将这两个任务视为等价，忽视了视频场景中多对象运动中的视觉注意力分配问题，这严重阻碍了该领域的发展。为了解决这个问题，2019年，范等人首次引入眼动仪来标记多对象运动场景中的视觉注意力变化，提出了VSOD中的注意力转移的科学问题，并构建了第一个大规模的VSOD基准数据集 - DA VSOD1，以及基准模型SSA V，推动VSOD进入一个新的发展阶段。

评论。COS和SOD是不同的任务，但它们可以通过CamDiff方法相互受益。这已通过对抗学习得到证明，从而引发了联合研究努力，如最近提出的二分图像分割。

3.深度CSU模型

本节系统地回顾了基于任务定义和数据类型的深度CSU方法。我们还创建了一个GitHub基地，作为一个全面的收集，以提供该领域的最新信息。

图三

3.1图像级别的CSU模型

我们回顾了现有的四个图像级别CSU任务：伪装目标分割（COS）、伪装目标定位（COL）、伪装实例排序（CIR）和伪装实例分割（CIS）。表格1总结了这些被回顾方法的关键特点。

3.1.1伪装目标分割

本节从网络架构和学习范式两个角度讨论了伪装目标分割(COS)的先前解决方案。

网络架构。一般来说，全卷积网络（FCNs ）是图像分割的标准解决方案，因为它们可以接收灵活尺寸的输入并进行单次前向传播。正如预期的那样，FCN形状的框架主导了COS的主要解决方案，这些解决方案分为三类：a) 多流框架，如图3(a)所示，包含多个输入流以明确地学习多源表示。MirrorNet 是第一个尝试添加额外数据流作为生物启发攻击的尝试，它可以打破伪装状态。一些最近的工作采用了多流方法来改进结果，例如提供伪深度生成、伪边缘不确定性、对抗学习范式、频率增强流、多尺度或多视图输入，以及多个主干网络。与其他监督设置不同，CRNet 是唯一使用涂鸦标签作为监督的弱监督框架。这种方法有助于减轻在有限注释数据上的过拟合问题。自底向上和自顶向下框架如图3 (b)所示，在a中使用较深的特征逐步增强较浅的特征单次前向传播。例如，C2FNet [112]采用这种设计来从粗到精的级别改进隐蔽特征。此外，SegMaR [135]采用了一个基于这种策略的迭代细化网络子网络。此外，其他研究利用了深度监督策略[150]、[151]在这个框架的各种中间特征层次上。这种实际应用还被特征金字塔网络[152]使用，通过密集的自顶向下和自底向上传播组合更全面的多上下文特征，并在最终预测之前引入额外的监督信号，以为更深的层提供更可靠的指导。c) 分支框架，如图3(c)所示，是一种单输入多输出架构，由分割和辅助任务分支组成。值得注意的是，这个分支框架的分割部分可能与先前的框架有一些重叠，例如单流[20]和自底向上和自顶向下框架。例如，ERRNet [122]和FAPNet [126]是共同学习隐蔽物体及其边界的典型示例。由于这些分支框架与多任务学习范式密切相关，我们将提供进一步的细节。

学习范式。我们讨论了COS任务中两种常见的学习范式：单任务和多任务。a) 单任务学习是COS中最常用的范式，仅涉及伪装目标的分割任务。基于这一范式，大多数当前的工作专注于开发注意力模块来识别目标区域。b) 多任务学习引入了辅助任务来协调或补充分割任务，从而实现稳健的COS学习。这些多任务框架可以通过进行置信度估计、定位/排序[23]、[32]、类别预测[20]任务以及学习深度[110]、[148]、边界和纹理[27]、[114]等伪装目标的线索来实现。

3.1.2伪装实例排序

在这个领域进行的研究相对有限。吕等人[23]首次观察到现有的COS方法无法量化伪装的难度水平。

针对这个问题，他们使用了眼动仪创建了一个名为CAM-LDR [32]的新数据集，其中包含实例分割掩码、注视标签和排序标签。他们还提出了两个统一的框架，LSR [23]及其扩展LSR+ [32]，以同时学习定位、分割和排名伪装目标的三重任务。其背后的思想是，判别定位区域可以指导对整个伪装目标范围的分割，然后可以通过排序任务推断不同伪装目标的可检测性。

3.1.3伪装实例分割

与COS相比，这个任务将COS任务从区域级别推进到实例级别，这是一个相对较新的领域。

然后，Le等人[35]通过对先前的CAMO [20]数据集进行扩展，建立了一个新的CIS基准数据集，名为CAMO++。

他们还提出了一种伪装融合学习策略，通过学习图像上下文来微调现有的实例分割模型（例如，Mask R-CNN [33]）。基于像COD10K [19]和NC4K [23]这样的实例基准，首个一阶段Transformer框架OS-Former [34]被引入到这个领域，引入了两个核心设计：位置感知Transformer和粗精融合。最近，罗等人[145]提出使用两个设计来分割伪装实例：像素级伪装解耦模块和实例级伪装抑制模块。

3.1.4伪装目标计数

Sun等人[38]最近为社区引入了一个名为难以区分目标计数（IOC）的新挑战，其中涉及计数难以从周围区分的目标。他们创建了IOCfish5K，这是一个大规模的数据集，包含了许多难以区分的目标（重点关注鱼类）的高分辨率水下场景图像，并提供了密集的注释，以解决这个挑战缺乏合适数据集的问题。他们还提出了一个名为IOCFormer的基准模型，通过在统一框架中集成基于密度和基于回归的方法来实现。

基于以上总结，COS任务正处于快速发展期，每年都有大量的当代研究论文。然而，对于COL、CIR和CIS任务，提出的解决方案仍然很少。这表明这些领域仍未得到充分开发，并为进一步研究提供了重要的空间。

值得注意的是，许多先前的研究可以作为参考(如显著性预测[83]，显著性目标细分[67]和显著性实例分割[81])，提供了一个从伪装的角度理解这些任务的坚实基础。

3.2视频级别CSU模型

视频级CSU任务有两个分支，包括从视频中检测和分割伪装目标。详见表2。

3.2.1视频伪装目标检测

大多数研究将这个问题描述为分割任务的降级问题，因为像素级别的注释稀缺。他们通常在分割数据集上进行训练（例如，DA VIS ，FBMS ），但在视频伪装物体检测数据集MoCA 上评估了泛化性能。

这些方法一致选择提取离线光流作为分割任务的运动引导，但在学习策略方面多样化，例如使用真实数据，，或合成数据，进行的全监督学习，以及自监督学习。

3.2.2 视频伪装目标分割

Xie等人提出了关于视频中伪装目标发现的第一个研究。他们使用像素轨迹循环神经网络来对前景运动进行分割。然而，这项工作仅限于小规模数据集CAD [162]。最近，基于具有边界框标签的定位级别数据集MoCA [39]，Cheng等人[41]通过创建一个具有像素级别掩码的大规模VCOS基准数据集MoCA-Mask来扩展了这个领域。他们还引入了一个两阶段基准模型SLTNet，以隐式地利用运动信息。从我们上面的回顾中可以看出，目前针对VCOS任务的方法仍处于发展的初级阶段。在已经建立的视频分割领域中，一些同期进行的研究工作（例如，自监督对应学习，不同基于运动的任务的统一框架）指明了未来探索的方向。此外，考虑到高级语义理解方面存在一个需要填补的研究空白，例如伪装场景中的语义分割和实例分割。

6.讨论与展望

基于我们的文献综述和实验分析，我们在本节讨论五个挑战和潜在的与CSU相关的方向。

标注高效学习。深度学习技术已经显著推动了CSU领域的发展。然而，传统的监督深度学习对数据需求大且资源消耗大。在实际情况中，我们希望模型能够在有限资源下工作，并具有良好的泛化性能。因此，为CSU任务开发有效的学习策略是一个有前途的方向，例如CRNet中的弱监督策略。

领域自适应。伪装目标通常来自自然场景。因此，在自动驾驶场景中部署模型以检测伪装目标是具有挑战性的。最近的实践表明，可以使用各种技术来缓解这个问题，例如领域自适应[184]、迁移学习[185]、少样本学习[186]和元学习[187]。

高保真合成数据集。为了减轻算法偏差，增加数据的多样性和规模至关重要。人工智能生成内容（AIGC）[188]以及深度生成模型，如生成对抗网络和扩散模型的迅速发展，使得为一般领域创建合成数据变得更加容易。最近，为了解决多样式训练图像的稀缺性，罗等人提出了一种基于扩散的图像生成框架，该框架能够在维护原始标签的同时，在伪装样本上生成显著目标。因此，模型应该能够区分伪装目标和显著目标，以实现稳健的特征表示。

神经网络架构搜索。自动网络架构搜索（NAS）是一个有前途的研究方向，可以为给定任务发现优越性能的最佳网络架构。在伪装领域，NAS可以识别更有效的网络架构，以处理复杂的背景场景、高度可变的目标外观和有限的标记数据。这可以导致开发更高效和有效的网络架构，从而提高准确性和效率。将NAS与其他研究方向（如领域自适应和数据高效学习）结合使用，可以进一步提高对伪装场景的理解。这些研究方向具有显著的潜力，有望推动现有技术的进步，并值得在未来的研究中进一步探讨。

大型模型和提示工程。这个话题变得越来越受欢迎，甚至已经成为自然语言处理领域的一个方向。最近，Segment Anything Model (SAM) [194]已经彻底改变了计算机视觉算法，尽管在一些伪装场景的无提示设置中存在局限性[195]。可以利用提示工程范式来简化工作流程，使用经过良好训练的强大编码器和任务特定的自适应，例如任务特定的提示和多任务预测头。这种方法预计将成为计算机视觉社区的未来趋势。大型语言模型（LLMs）为人工智能带来了新的机会和挑战，使其朝着人工通用智能的方向更进一步。然而，对于学术界来说，训练资源消耗大的大型模型具有挑战性。可能存在一种有前途的范式，即最先进的深度CSU模型被用作领域专家，同时，大型模型可以作为外部组件，通过提供辅助决策、表示等来协助专家模型。

8.结论

本论文旨在提供针对伪装场景理解（CSU）定制的深度学习技术的概述。为了帮助读者全面了解这一领域的全局格局，我们做出了四个贡献：首先，我们提供了CSU的详细调查，包括其背景、分类、任务特定挑战以及深度学习时代的进展。据我们所知，这次调查是迄今为止最全面的。其次，我们创建了最大且最新的伪装物体分割（COS）基准数据集，这是CSU领域的一个基础性和繁荣的方向。这个基准数据集允许对最先进的技术进行定量比较。第三，我们收集了最大的伪装缺陷分割数据集CDS2K，其中包括来自不同工业场景的难例。我们还构建了一个综合性基准数据集，用于评估深度CSU在实际场景中的泛化能力。最后，我们讨论了这个社区的未解决问题和潜在方向。我们的目标是鼓励进一步研究和发展这一领域。

我们将从以下几个角度进行总结：

（1）模型。最常见的做法是基于共享UNet架构，并通过各种注意力模块进行增强。此外，注入额外的先验知识和/或引入辅助任务可以提高性能，但仍有许多潜在问题需要探讨。

（2）训练。在COS中，完全监督学习是主流策略，但很少有研究人员解决由于数据或标签不足而引起的挑战。CRNet [141]是缓解这个问题的良好尝试。

（3）数据集。现有数据集仍然不够大且多样化。这个社区需要更多涉及更多领域（例如自动驾驶和临床诊断）的伪装样本。

（4）性能。基于Transformer和ConvNext的模型明显优于其他竞争对手。性能与成本的权衡仍需进一步研究，DGNet [27]是一个不错的尝试。

（5）评估指标。目前没有明确定义的评估指标可以考虑不同数据的不同伪装程度，因此导致了不公平的比较。

此外，现有的CSU方法侧重于伪装场景的外观属性（例如颜色、纹理、边界）来区分伪装对象，但在语义角度缺乏足够的感知和输出（例如对象之间的关系）。然而，语义是弥合人类和机器智能差距的有力工具。因此，除了视觉空间之外，语义级别的认知对于下一代伪装视觉感知至关重要。在未来，CSU模型应该融合各种语义能力，包括整合高级语义、学习视觉语言知识[213]以及建模跨对象之间的交互作用。我们希望本调查为新研究人员提供了详细的概述，为相关专家提供了方便的参考，并鼓励未来的研究。

这篇关于Advances in Deep Concealed Scene Understanding (伪装场景理解综述解读）的文章就介绍到这儿，希望我们推荐的文章对编程师们有所帮助！