【论文阅读笔记】Split frequency attention network for single image deraining

本文主要是介绍【论文阅读笔记】Split frequency attention network for single image deraining,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

1.论文介绍

Split frequency attention network for single image deraining
用于单幅图像去噪的分频注意力网络
Paper Code
2023年 SIVP

2.摘要

雨纹对图像质量的影响极大,基于数据驱动的单图像去噪方法不断发展并取得了巨大的成功。然而,传统的卷积神经网络只能隐式地对频域特征进行建模,而离散余弦变换(DCT)可以看作是对频域特征的显式建模。因此,我们提出了一种分裂频率注意力,以改善内部相关性的输入特征在频域的DCT。我们选择前K个低频分量作为DCT层的输出,在频域恢复出高质量的图像,而分裂机制使网络聚焦于信息丰富的区域,保持了恢复图像细节的保真度。在几个数据集上的实验表明,我们的方法取得了更好的结果比最近的最先进的方法。

Keywords:频域,去噪,图像恢复

3. Introduction

雨条纹降低了从相机捕获的图像,大多数高级别的户外视觉任务需要清晰的图像,并且由于下雨场景,这些方法通常表现不佳。因此,研究者们提出了许多处理降雨图像的算法。大多数方法忽略了图像的结构信息,并且由于不能保持图像细节和结构的保真度而破坏了纹理细节。由于分裂注意力通过对输入特征图进行分裂和分类,使网络专注于具有丰富信息的区域。分裂注意力通过改善输入特征的内部相关性,保持了图像细节的保真度和图像结构的一致性。因此,我们采用了分裂注意力的方法来恢复降雨图像。

综上所述,我们提出了一个分裂频率的注意力网络用于单图像去噪。首先,我们提出了一个分裂频率注意(SFA),以改善内部相关性的输入特征在频域的DCT。在此基础上提出了一种分裂频率注意块(SFAB)算法,从图像的丰富信息区域中提取特征,使恢复后的图像保持了图像细节和结构的保真度。最后,提出了一种分裂频率注意组(SFAG)级联的端到端网络,恢复雨图像。

4.网络结构介绍

网络结构如下图,主要包含四个模块:预处理模块、分裂频率注意力特征提取、动态特征增强(DFE)模块和重建模块。预处理模块包含一个3 × 3卷积层和两个下采样层,大大降低了GPU的内存消耗。使用分裂频率注意组来提取深度特征。然后利用两个DFE模块融合更多的空间信息,增强了变换能力。对称地,重建模块包含两个上采样层和一个3 × 3卷积层,用于恢复特征的大小和输出恢复的图像。mixup操作用于连接下采样层和上采样层。
在这里插入图片描述

频域学习

根据二维离散余弦变换(DCT),频谱可按下式计算:在这里插入图片描述
其中 x ∈ R H × W x ∈ R^{H×W} xRH×W表示输入,H和W分别是输入的高度和宽度。基函数 B h , w i , j B^{i,j}_{h,w} Bh,wi,j为:
在这里插入图片描述
相应地,可以通过下式从频谱f中恢复x:
在这里插入图片描述
如果假设h、w =0,则:
在这里插入图片描述
f 0 , 0 d c t f^{dct}_{0,0} f0,0dct表示2D DCT的最低频率分量,并且它与全局平均池化(GAP)成比例。

当使用GAP时,仅保留最低频率信息。将GAP推广到2D DCT的更多频率分量,并使用2D DCT的多个频率分量压缩更多信息。设X为输入特征图,分配2D DCT分量来压缩通道注意力的结果,并定义:
在这里插入图片描述
[ui vi ]是对应于X的频率分量2D索引,并且Freqi是压缩向量。在信道注意之后,DCT层的输出被定义为:
在这里插入图片描述
其中sigmod是激活函数,fc表示诸如一维卷积或全连接层的映射函数,并且Freq是具有不同2D DCT分量的整个压缩向量:
在这里插入图片描述
其中K是前K个低频分量,根据先前的工作,低频分量更适合CNN。

就是介绍了一下二维离散余弦变换和逆变换:
在这里插入图片描述
然后根据频域信号,只提取低级特征,即i=0、1、……K-1的信号,把它们连接在一起然后形成Freq。

分离的网络

由于受感受野的限制,CNN缺乏交互性和相关性,所以提出了一种分裂网络,通过对特征进行分裂和分类来提高输入特征的内部相关性,并从信息丰富的区域中提取特征,使恢复后的图像保持图像细节和结构的保真度。在分裂网络和频率关注度的基础上,设计了一种基本的分块分裂频率关注度(SFA)来构建去盲网络。

分频注意
如下图所示,在SFA中,输入特征图沿通道轴沿着分成m个部分。以 X ∈ R W × H × C X ∈ R^{W×H×C} XRW×H×C为输入特征图,利用3 × 3卷积得到 X 1 ∈ R W × H × C 1 X_1 ∈ R^{W×H×C_1} X1RW×H×C1,其中C1=mC,然后利用逐元素求和运算融合这些分裂。跨多个分裂的元素求和可以融合组合表示。

然后将融合特征f ∈ RW×H×C通过一个DCT层得到X2 ∈ RW×H× C,然后采用两个1 × 1卷积层得到X3 ∈ RW×H×C和X4 ∈ RW×H×C1,然后使用r − softmax操作增强来自丰富区域的信息,然后将特征再次分类为m个分裂。然后将每个分裂乘以前一个分裂,最后再次使用逐元素求和运算以获得输出特征。结构如下:
在这里插入图片描述

分裂频率注意块(SFAB)是基于SFA设计的。SFAB由若干个1 × 1卷积层、批归一化(BN)、校正的线性激活函数(ReLU)和SFA。
在这里插入图片描述

使用跳过连接来增强细节信息。然后利用SFAB和SFA建立分裂频率注意群(SFAG)。在SFAG中,输入特征被分成两条路径,一条是SFA,另一条是几个SFAB,两个结果融合生成输出:
在这里插入图片描述
其中G(·)由几个SFAB和一个3×3卷积层组成。
在这里插入图片描述

动态特征增强

通常,在卷积层中使用固定网格内核。具有固定网格内核的卷积不能提取结构化信息。提出了具有动态和灵活内核的可变形卷积以利用结构化信息。两个可变形卷积层被用作动态特征增强(DFE),以从丰富区域捕获更重要的信息。

混接

在浅层中捕获的低级特征可以通过短连接传递到更深层,并且可以增强图像的细节信息。但是深度网络表现出了不受欢迎的行为,如鲁棒性和记忆,并且提出了一种mixup操作。混淆很简单,它可以增加神经网络的鲁棒性我们应用mixup来连接下采样层和上采样层,并且下采样层中的细节信息可以与更深的上采样层中捕获的高级特征融合。第二下采样层的输出与第一上采样的输出混合,并且第一下采样层的输出与第二上采样的输出混合。混合操作定义为:
在这里插入图片描述
其中fmix是输出,α是在训练期间学习的参数,f↓是来自下采样层的特征,f↑表示来自上采样层的特征图。

这篇关于【论文阅读笔记】Split frequency attention network for single image deraining的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/825338

相关文章

JAVA智听未来一站式有声阅读平台听书系统小程序源码

智听未来,一站式有声阅读平台听书系统 🌟 开篇:遇见未来,从“智听”开始 在这个快节奏的时代,你是否渴望在忙碌的间隙,找到一片属于自己的宁静角落?是否梦想着能随时随地,沉浸在知识的海洋,或是故事的奇幻世界里?今天,就让我带你一起探索“智听未来”——这一站式有声阅读平台听书系统,它正悄悄改变着我们的阅读方式,让未来触手可及! 📚 第一站:海量资源,应有尽有 走进“智听

poj 2349 Arctic Network uva 10369(prim or kruscal最小生成树)

题目很麻烦,因为不熟悉最小生成树的算法调试了好久。 感觉网上的题目解释都没说得很清楚,不适合新手。自己写一个。 题意:给你点的坐标,然后两点间可以有两种方式来通信:第一种是卫星通信,第二种是无线电通信。 卫星通信:任何两个有卫星频道的点间都可以直接建立连接,与点间的距离无关; 无线电通信:两个点之间的距离不能超过D,无线电收发器的功率越大,D越大,越昂贵。 计算无线电收发器D

AI hospital 论文Idea

一、Benchmarking Large Language Models on Communicative Medical Coaching: A Dataset and a Novel System论文地址含代码 大多数现有模型和工具主要迎合以患者为中心的服务。这项工作深入探讨了LLMs在提高医疗专业人员的沟通能力。目标是构建一个模拟实践环境,人类医生(即医学学习者)可以在其中与患者代理进行医学

【学习笔记】 陈强-机器学习-Python-Ch15 人工神经网络(1)sklearn

系列文章目录 监督学习:参数方法 【学习笔记】 陈强-机器学习-Python-Ch4 线性回归 【学习笔记】 陈强-机器学习-Python-Ch5 逻辑回归 【课后题练习】 陈强-机器学习-Python-Ch5 逻辑回归(SAheart.csv) 【学习笔记】 陈强-机器学习-Python-Ch6 多项逻辑回归 【学习笔记 及 课后题练习】 陈强-机器学习-Python-Ch7 判别分析 【学

系统架构师考试学习笔记第三篇——架构设计高级知识(20)通信系统架构设计理论与实践

本章知识考点:         第20课时主要学习通信系统架构设计的理论和工作中的实践。根据新版考试大纲,本课时知识点会涉及案例分析题(25分),而在历年考试中,案例题对该部分内容的考查并不多,虽在综合知识选择题目中经常考查,但分值也不高。本课时内容侧重于对知识点的记忆和理解,按照以往的出题规律,通信系统架构设计基础知识点多来源于教材内的基础网络设备、网络架构和教材外最新时事热点技术。本课时知识

论文翻译:arxiv-2024 Benchmark Data Contamination of Large Language Models: A Survey

Benchmark Data Contamination of Large Language Models: A Survey https://arxiv.org/abs/2406.04244 大规模语言模型的基准数据污染:一项综述 文章目录 大规模语言模型的基准数据污染:一项综述摘要1 引言 摘要 大规模语言模型(LLMs),如GPT-4、Claude-3和Gemini的快

什么是 Flash Attention

Flash Attention 是 由 Tri Dao 和 Dan Fu 等人在2022年的论文 FlashAttention: Fast and Memory-Efficient Exact Attention with IO-Awareness 中 提出的, 论文可以从 https://arxiv.org/abs/2205.14135 页面下载,点击 View PDF 就可以下载。 下面我

bytes.split的用法和注意事项

当然,我很乐意详细介绍 bytes.Split 的用法和注意事项。这个函数是 Go 标准库中 bytes 包的一个重要组成部分,用于分割字节切片。 基本用法 bytes.Split 的函数签名如下: func Split(s, sep []byte) [][]byte s 是要分割的字节切片sep 是用作分隔符的字节切片返回值是一个二维字节切片,包含分割后的结果 基本使用示例: pa

论文阅读笔记: Segment Anything

文章目录 Segment Anything摘要引言任务模型数据引擎数据集负责任的人工智能 Segment Anything Model图像编码器提示编码器mask解码器解决歧义损失和训练 Segment Anything 论文地址: https://arxiv.org/abs/2304.02643 代码地址:https://github.com/facebookresear

数学建模笔记—— 非线性规划

数学建模笔记—— 非线性规划 非线性规划1. 模型原理1.1 非线性规划的标准型1.2 非线性规划求解的Matlab函数 2. 典型例题3. matlab代码求解3.1 例1 一个简单示例3.2 例2 选址问题1. 第一问 线性规划2. 第二问 非线性规划 非线性规划 非线性规划是一种求解目标函数或约束条件中有一个或几个非线性函数的最优化问题的方法。运筹学的一个重要分支。2