Concealed Object Detection阅读笔记

2024-03-11 20:30

本文主要是介绍Concealed Object Detection阅读笔记,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

arXiv 2021
Deng-Ping Fan, Ge-Peng Ji, Ming-Ming Cheng, Ling Shao
https://arxiv.org/abs/2102.10274

一、简介

收集了COD10K数据集,这项工作已经在SINet中提出。

提出了SINet-V2框架,总训练时间为4小时使用搜索和识别的策略,该策略适用于COD任务。

二、SINet-V2

在这里插入图片描述

2.1 Search Phase(搜索阶段)

2.1.1 Feature Extraction(特征提取)

输入图像I(W×H×3),经过Res2Net-50(去除顶部全连接层)得到特征{f1,f2,f3,f4,f5},其分辨率大小为H/2k×W/2k

2.1.2 Texture Enhanced Module(TEM)

TEM是纹理增强模块,用于捕捉细粒度的纹理和放大上下文线索。

神经科学实验已经证实,在人类视觉系统中,一组不同大小的人群感受野有助于突出视网膜中心凹附近的区域,该区域对微小的空间移动非常敏感。这促使我们在搜索阶段(通常在小/局部空间)使用TEM来合并更具区分性的特征表示。

与标准感受野块结构相比,TEM多增加了一条扩张率更大的分支来扩大感受野,并进一步用两个不对称的卷积层代替了标准的卷积。

2.1.3 Neighbor Connection Decoder (NCD)

NCD是相邻连接解码器,它能够提供位置信息。

底层特征由于其较大的空间分辨率消耗了更多的计算资源,但对性能贡献相对较小。因此我们仅聚合f3,f4和f5 以获得更有效的学习能力。

然而,在聚合多个特征金字塔时,仍然有两个关键问题,即如何保持层内的语义一致性和如何跨层拼接上下文。这里,我们提出使用相邻连接解码器(NCD)来解决这些问题。

在这里插入图片描述

g[]表示一个3×3的带有bn操作的卷积层。
δ表示采样操作,为了确保形状一致。箭头向上表示上采样,箭头向下表示下采样。
⊗是按元素相乘操作。

这样就生成了粗略的位置图C6。

2.2 Identification Phase(识别阶段)

在这里插入图片描述

2.2.1 Reverse Guidance

在搜索阶段得到的C6只能够捕捉隐藏物体的相对粗略位置,而忽略了结构和纹理细节。

为了解决这个问题,我们引入了一种原则性的策略,通过删除对象来挖掘有区别的隐含区域。如图14(B)所示,我们通过Sigmoid和反向运算获得输出反向注意引导r1。

在这里插入图片描述

σ是sigmoid函数。

2.2.2 Group Guidance Operation (GGO)

通过从侧向输出特征中删除现有的估计目标区域,反向注意被用于挖掘互补区域和细节。我们提出了一种新的GroupWise操作来更有效地利用先验反向引导。如图14(A)所示,团体引导操作包含两个主要步骤。首先,我们沿着通道维度将候选特征p分成N组。然后,在分割特征p,之间周期性地内插先验引导rk。

在这里插入图片描述

相反,[7]更强调确保候选特征直接与先验相乘,这可能会引起两个问题:a)由于网络的分辨能力有限,特征混淆;b)简单的乘法引入真假先验,因此容易积累不准确。与文献[7]相比,我们的GGO可以在后续的精化过程之前显式地分离先验和候选特征。

2.2.3 Group-Reversal Attention (GRA)

级联反向注意(GRA)块,它协同工作从更深的层改进粗略的预测。通过不同的特征金字塔逐步细化粗略预测。

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

三、实验

在这里插入图片描述

在这里插入图片描述

四、伪装目标检测应用

4.1 医学

在这里插入图片描述

息肉分割。

在这里插入图片描述

肺部感染分割。

4.2 制造业

在这里插入图片描述

表面缺陷检测。

4.3 农业

在这里插入图片描述

有害生物检测。

在这里插入图片描述

水果成熟度检测。

4.4 艺术

在这里插入图片描述

休闲艺术。

在这里插入图片描述

从隐蔽的物体到显眼的物体。

4.5 日常生活

在这里插入图片描述

透明物品/物体检测。

在这里插入图片描述

搜索引擎。

五、潜在研究方向

5.1 弱/半监督学习

现有的基于深度的方法以完全监督的方式从带有对象级标签的图像中提取特征。但是,像素级标注通常由LabelMe或Adobe Photoshop工具手动标记,具有密集的专业交互,要耗费大量的精力。因此,必须利用弱/半(部分)标注数据进行训练,以避免巨大的标注成本。

5.2 自监督学习

5.3 其他模态的伪装目标检测

现有的伪装数据仅基于静态图像或动态视频。然而,其他形式的伪装对象检测可能与诸如黑夜害虫监测、机器人和艺术家设计等领域密切相关。与RGB-D SOD、RGB-T SOD和VSOD中的类似,这些模式可以是音频、热或深度数据,在特定场景下提出了新的挑战。

5.4 伪装目标分类

通用目标分类是计算机视觉中的一项基本任务。因此,隐蔽对象分类在未来也可能获得关注。利用COD10K提供的类和子类标签,可以构建大规模、细粒度的分类任务。

5.5 伪装目标跟踪

5.6 伪装对象排序

目前,伪装目标检测算法都是建立在二值化的基础上,生成伪装目标的掩模,而不分析伪装程度。然而,了解伪装的程度有助于更好地探索模型背后的机制,提供对它们的更深层次的洞察力。

5.7 伪装对象实例分割

5.8 多任务通用网络

不同的视觉任务之间有很强的联系。因此,它们的监管可以在一个通用系统中重用,而不会增加复杂性。考虑设计一个通用网络来同时定位、分割和排序隐藏对象是很自然的。

5.9 神经网络搜索

无论是传统算法还是基于深度学习的隐蔽目标检测模型,都需要具有强大先验知识或熟练专业知识的人类专家。有时,由算法工程师设计的手工制作的功能和体系结构可能不是最优的。因此,神经结构搜索技术,如流行的自动机器学习,提供了一个潜在的方向。

5.10 将突出对象转换为隐藏对象

将显著对象转换为隐藏对象以增加训练数据,以及在SOD和COD任务之间引入生成性对抗机制以提高网络的特征提取能力。

这篇关于Concealed Object Detection阅读笔记的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/798981

相关文章

深入探讨Java 中的 Object 类详解(一切类的根基)

《深入探讨Java中的Object类详解(一切类的根基)》本文详细介绍了Java中的Object类,作为所有类的根类,其重要性不言而喻,文章涵盖了Object类的主要方法,如toString()... 目录1. Object 类的基本概念1.1 Object 类的定义2. Object 类的主要方法3. O

JAVA智听未来一站式有声阅读平台听书系统小程序源码

智听未来,一站式有声阅读平台听书系统 🌟 开篇:遇见未来,从“智听”开始 在这个快节奏的时代,你是否渴望在忙碌的间隙,找到一片属于自己的宁静角落?是否梦想着能随时随地,沉浸在知识的海洋,或是故事的奇幻世界里?今天,就让我带你一起探索“智听未来”——这一站式有声阅读平台听书系统,它正悄悄改变着我们的阅读方式,让未来触手可及! 📚 第一站:海量资源,应有尽有 走进“智听

【学习笔记】 陈强-机器学习-Python-Ch15 人工神经网络(1)sklearn

系列文章目录 监督学习:参数方法 【学习笔记】 陈强-机器学习-Python-Ch4 线性回归 【学习笔记】 陈强-机器学习-Python-Ch5 逻辑回归 【课后题练习】 陈强-机器学习-Python-Ch5 逻辑回归(SAheart.csv) 【学习笔记】 陈强-机器学习-Python-Ch6 多项逻辑回归 【学习笔记 及 课后题练习】 陈强-机器学习-Python-Ch7 判别分析 【学

系统架构师考试学习笔记第三篇——架构设计高级知识(20)通信系统架构设计理论与实践

本章知识考点:         第20课时主要学习通信系统架构设计的理论和工作中的实践。根据新版考试大纲,本课时知识点会涉及案例分析题(25分),而在历年考试中,案例题对该部分内容的考查并不多,虽在综合知识选择题目中经常考查,但分值也不高。本课时内容侧重于对知识点的记忆和理解,按照以往的出题规律,通信系统架构设计基础知识点多来源于教材内的基础网络设备、网络架构和教材外最新时事热点技术。本课时知识

论文阅读笔记: Segment Anything

文章目录 Segment Anything摘要引言任务模型数据引擎数据集负责任的人工智能 Segment Anything Model图像编码器提示编码器mask解码器解决歧义损失和训练 Segment Anything 论文地址: https://arxiv.org/abs/2304.02643 代码地址:https://github.com/facebookresear

数学建模笔记—— 非线性规划

数学建模笔记—— 非线性规划 非线性规划1. 模型原理1.1 非线性规划的标准型1.2 非线性规划求解的Matlab函数 2. 典型例题3. matlab代码求解3.1 例1 一个简单示例3.2 例2 选址问题1. 第一问 线性规划2. 第二问 非线性规划 非线性规划 非线性规划是一种求解目标函数或约束条件中有一个或几个非线性函数的最优化问题的方法。运筹学的一个重要分支。2

【C++学习笔记 20】C++中的智能指针

智能指针的功能 在上一篇笔记提到了在栈和堆上创建变量的区别,使用new关键字创建变量时,需要搭配delete关键字销毁变量。而智能指针的作用就是调用new分配内存时,不必自己去调用delete,甚至不用调用new。 智能指针实际上就是对原始指针的包装。 unique_ptr 最简单的智能指针,是一种作用域指针,意思是当指针超出该作用域时,会自动调用delete。它名为unique的原因是这个

查看提交历史 —— Git 学习笔记 11

查看提交历史 查看提交历史 不带任何选项的git log-p选项--stat 选项--pretty=oneline选项--pretty=format选项git log常用选项列表参考资料 在提交了若干更新,又或者克隆了某个项目之后,你也许想回顾下提交历史。 完成这个任务最简单而又有效的 工具是 git log 命令。 接下来的例子会用一个用于演示的 simplegit

记录每次更新到仓库 —— Git 学习笔记 10

记录每次更新到仓库 文章目录 文件的状态三个区域检查当前文件状态跟踪新文件取消跟踪(un-tracking)文件重新跟踪(re-tracking)文件暂存已修改文件忽略某些文件查看已暂存和未暂存的修改提交更新跳过暂存区删除文件移动文件参考资料 咱们接着很多天以前的 取得Git仓库 这篇文章继续说。 文件的状态 不管是通过哪种方法,现在我们已经有了一个仓库,并从这个仓

忽略某些文件 —— Git 学习笔记 05

忽略某些文件 忽略某些文件 通过.gitignore文件其他规则源如何选择规则源参考资料 对于某些文件,我们不希望把它们纳入 Git 的管理,也不希望它们总出现在未跟踪文件列表。通常它们都是些自动生成的文件,比如日志文件、编译过程中创建的临时文件等。 通过.gitignore文件 假设我们要忽略 lib.a 文件,那我们可以在 lib.a 所在目录下创建一个名为 .gi