【论文阅读】Context-aware Cross-level Fusion Network for Camouflaged Object Detection(IJCAI2021)

本文主要是介绍【论文阅读】Context-aware Cross-level Fusion Network for Camouflaged Object Detection(IJCAI2021),希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

论文题目:Context-aware Cross-level Fusion Network for Camouflflaged Object Detection

论文地址:https://arxiv.org/pdf/2105.12555.pdf

代码地址:https://github.com/thograce/C2FNet

 

文章贡献:

1. 提出了一个新的伪装目标检测模型C2F-Net,它整合了跨层特征,并考虑了丰富的全局上下文信息;

2. 提出了一个上下文感知模块DGCM,该模块可从融合的特征中获取全局上下文信息;

3. 提出了一个有效的融合模块ACFM集成跨层特征,该模块将特征与MSCA提供的有价值的注意线索集成在一起。

 

1 背景与动机

论文解决的是伪装目标检测(camouflflaged object detection,COD)的问题。由于伪装,物体和周围环境之间的边界对比度非常低,从而导致难以准确识别:

 

2 方法框架

总体架构

使用Res2Net50来获取5个stage的特征,对高维度特征E3\E4\E5使用接收域块(receptive fifield block,RFB)来扩展接收域,捕获更丰富的特征。

之后将E4和E5经过RFB后的结果输入注意诱导的跨级融合模块(Attention-induced Cross-level Fusion Module ,ACFM)集成多尺度特征,再经过双分支全局上下文模块(Dual-branch Global Context Module ,DGCM)来获取上下文信息。同样的,对E3经过RFB后的结果也经过上述处理,最终得到预测结果。

其中,RFB的结构如下,输出Y的通道数为64:

 

ACFM

由于相同的目标物体可能由于拍摄原因在图像中存在大小不同的问题,因此论文提出ACFM来集成多尺度特征。

对输入的2个特征Fa和Fb,将Fb上采样到与Fa相同的大小,进行相加的操作获得融合了不同尺度特征的总特征xy。将xy输入MSCA模块,获得输出结果wei,wei和wei的反向分别与Fa和上采样的Fb相乘,再将这两者相加,得到xo。最后xo经过3x3卷积,得到最终的输出特征F。

其中MSCA(Multi-Scale Channel Attention)的结构如下:

对输入的特征X经过一个双分支结构,分支1是局部注意分支,由1x1卷积+BN+ReLU+1x1卷积+BN组成。分支2是全局注意分支,由全局池化+1x1卷积+BN+ReLU+1x1卷积+BN组成。最后将双分支的结果经过加总,在经过sigmoid函数,得到输出特征W。

 

DGCM

全局上下文信息是提高伪装目标检测性能的关键,因此论文提出DGCM模块来获取上下文信息。

输入特征F经过两个分支,分支1对F进行3x3卷积操作得到Fc(CxHxW),再将Fc和Fc经过MSCA模块后的输入相乘,得到Fcm。分支2对F进行池化+3X3卷积操作得到Fp(CxW/2xH/2),跟Fc进行同样的操作后得到Fpm。之后将Fpm进行上采样并与Fcm相加,经过3x3卷积,加上特征F后再次经过3x3卷积,最终得到输出特征F'。

 

损失函数

使用加权二值交叉熵损失和加权IoU损失。

 

3 实验结果

数据集

  1. CHAMELEON,包含76张伪装图像;
  2. CAMO,1.25k图像,共8个类别;
  3. COD10K,共5066张图像,包含5个大类和69个子类。

评价指标 

  1. MAE,评估归一化后的pred和GT之间的平均像素级相对误差;
  2. 加权F-measure,考虑加权精度和加权查全率的综合性能测度;
  3. S-measure,计算pred与GT之间的对象感知和区域感知结构相似性;
  4. E-measure,基于人类视觉感知机制来评估COD的整体和局部准确性。

 

与先进方法的比较:

各模块消融实验:

MSCA消融实验,第一列表示使用卷积操作替换MSCA模块:

这篇关于【论文阅读】Context-aware Cross-level Fusion Network for Camouflaged Object Detection(IJCAI2021)的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/577675

相关文章

JAVA智听未来一站式有声阅读平台听书系统小程序源码

智听未来,一站式有声阅读平台听书系统 🌟 开篇:遇见未来,从“智听”开始 在这个快节奏的时代,你是否渴望在忙碌的间隙,找到一片属于自己的宁静角落?是否梦想着能随时随地,沉浸在知识的海洋,或是故事的奇幻世界里?今天,就让我带你一起探索“智听未来”——这一站式有声阅读平台听书系统,它正悄悄改变着我们的阅读方式,让未来触手可及! 📚 第一站:海量资源,应有尽有 走进“智听

poj 2349 Arctic Network uva 10369(prim or kruscal最小生成树)

题目很麻烦,因为不熟悉最小生成树的算法调试了好久。 感觉网上的题目解释都没说得很清楚,不适合新手。自己写一个。 题意:给你点的坐标,然后两点间可以有两种方式来通信:第一种是卫星通信,第二种是无线电通信。 卫星通信:任何两个有卫星频道的点间都可以直接建立连接,与点间的距离无关; 无线电通信:两个点之间的距离不能超过D,无线电收发器的功率越大,D越大,越昂贵。 计算无线电收发器D

AI hospital 论文Idea

一、Benchmarking Large Language Models on Communicative Medical Coaching: A Dataset and a Novel System论文地址含代码 大多数现有模型和工具主要迎合以患者为中心的服务。这项工作深入探讨了LLMs在提高医疗专业人员的沟通能力。目标是构建一个模拟实践环境,人类医生(即医学学习者)可以在其中与患者代理进行医学

cross-plateform 跨平台应用程序-03-如果只选择一个框架,应该选择哪一个?

跨平台系列 cross-plateform 跨平台应用程序-01-概览 cross-plateform 跨平台应用程序-02-有哪些主流技术栈? cross-plateform 跨平台应用程序-03-如果只选择一个框架,应该选择哪一个? cross-plateform 跨平台应用程序-04-React Native 介绍 cross-plateform 跨平台应用程序-05-Flutte

论文翻译:arxiv-2024 Benchmark Data Contamination of Large Language Models: A Survey

Benchmark Data Contamination of Large Language Models: A Survey https://arxiv.org/abs/2406.04244 大规模语言模型的基准数据污染:一项综述 文章目录 大规模语言模型的基准数据污染:一项综述摘要1 引言 摘要 大规模语言模型(LLMs),如GPT-4、Claude-3和Gemini的快

论文阅读笔记: Segment Anything

文章目录 Segment Anything摘要引言任务模型数据引擎数据集负责任的人工智能 Segment Anything Model图像编码器提示编码器mask解码器解决歧义损失和训练 Segment Anything 论文地址: https://arxiv.org/abs/2304.02643 代码地址:https://github.com/facebookresear

论文翻译:ICLR-2024 PROVING TEST SET CONTAMINATION IN BLACK BOX LANGUAGE MODELS

PROVING TEST SET CONTAMINATION IN BLACK BOX LANGUAGE MODELS https://openreview.net/forum?id=KS8mIvetg2 验证测试集污染在黑盒语言模型中 文章目录 验证测试集污染在黑盒语言模型中摘要1 引言 摘要 大型语言模型是在大量互联网数据上训练的,这引发了人们的担忧和猜测,即它们可能已

OmniGlue论文详解(特征匹配)

OmniGlue论文详解(特征匹配) 摘要1. 引言2. 相关工作2.1. 广义局部特征匹配2.2. 稀疏可学习匹配2.3. 半稠密可学习匹配2.4. 与其他图像表示匹配 3. OmniGlue3.1. 模型概述3.2. OmniGlue 细节3.2.1. 特征提取3.2.2. 利用DINOv2构建图形。3.2.3. 信息传播与新的指导3.2.4. 匹配层和损失函数3.2.5. 与Super

软件架构模式:5 分钟阅读

原文: https://orkhanscience.medium.com/software-architecture-patterns-5-mins-read-e9e3c8eb47d2 软件架构模式:5 分钟阅读 当有人潜入软件工程世界时,有一天他需要学习软件架构模式的基础知识。当我刚接触编码时,我不知道从哪里获得简要介绍现有架构模式的资源,这样它就不会太详细和混乱,而是非常抽象和易

BERT 论文逐段精读【论文精读】

BERT: 近 3 年 NLP 最火 CV: 大数据集上的训练好的 NN 模型,提升 CV 任务的性能 —— ImageNet 的 CNN 模型 NLP: BERT 简化了 NLP 任务的训练,提升了 NLP 任务的性能 BERT 如何站在巨人的肩膀上的?使用了哪些 NLP 已有的技术和思想?哪些是 BERT 的创新? 1标题 + 作者 BERT: Pre-trainin