【论文阅读笔记】Split frequency attention network for single image deraining

本文主要是介绍【论文阅读笔记】Split frequency attention network for single image deraining，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

1.论文介绍

Split frequency attention network for single image deraining
用于单幅图像去噪的分频注意力网络
Paper Code
2023年 SIVP

2.摘要

雨纹对图像质量的影响极大，基于数据驱动的单图像去噪方法不断发展并取得了巨大的成功。然而，传统的卷积神经网络只能隐式地对频域特征进行建模，而离散余弦变换（DCT）可以看作是对频域特征的显式建模。因此，我们提出了一种分裂频率注意力，以改善内部相关性的输入特征在频域的DCT。我们选择前K个低频分量作为DCT层的输出，在频域恢复出高质量的图像，而分裂机制使网络聚焦于信息丰富的区域，保持了恢复图像细节的保真度。在几个数据集上的实验表明，我们的方法取得了更好的结果比最近的最先进的方法。

Keywords：频域，去噪，图像恢复

3. Introduction

雨条纹降低了从相机捕获的图像，大多数高级别的户外视觉任务需要清晰的图像，并且由于下雨场景，这些方法通常表现不佳。因此，研究者们提出了许多处理降雨图像的算法。大多数方法忽略了图像的结构信息，并且由于不能保持图像细节和结构的保真度而破坏了纹理细节。由于分裂注意力通过对输入特征图进行分裂和分类，使网络专注于具有丰富信息的区域。分裂注意力通过改善输入特征的内部相关性，保持了图像细节的保真度和图像结构的一致性。因此，我们采用了分裂注意力的方法来恢复降雨图像。

综上所述，我们提出了一个分裂频率的注意力网络用于单图像去噪。首先，我们提出了一个分裂频率注意（SFA），以改善内部相关性的输入特征在频域的DCT。在此基础上提出了一种分裂频率注意块（SFAB）算法，从图像的丰富信息区域中提取特征，使恢复后的图像保持了图像细节和结构的保真度。最后，提出了一种分裂频率注意组（SFAG）级联的端到端网络，恢复雨图像。

4.网络结构介绍

网络结构如下图，主要包含四个模块：预处理模块、分裂频率注意力特征提取、动态特征增强（DFE）模块和重建模块。预处理模块包含一个3 × 3卷积层和两个下采样层，大大降低了GPU的内存消耗。使用分裂频率注意组来提取深度特征。然后利用两个DFE模块融合更多的空间信息，增强了变换能力。对称地，重建模块包含两个上采样层和一个3 × 3卷积层，用于恢复特征的大小和输出恢复的图像。mixup操作用于连接下采样层和上采样层。
在这里插入图片描述

频域学习

根据二维离散余弦变换（DCT），频谱可按下式计算：在这里插入图片描述
其中 $x ∈ R^{H×W}$ 表示输入，H和W分别是输入的高度和宽度。基函数 $B^{i,j}_{h,w}$ 为：

相应地，可以通过下式从频谱f中恢复x：

如果假设h、w =0，则：

$f^{dct}_{0,0}$ 表示2D DCT的最低频率分量，并且它与全局平均池化（GAP）成比例。

当使用GAP时，仅保留最低频率信息。将GAP推广到2D DCT的更多频率分量，并使用2D DCT的多个频率分量压缩更多信息。设X为输入特征图，分配2D DCT分量来压缩通道注意力的结果，并定义：
在这里插入图片描述
[ui vi ]是对应于X的频率分量2D索引，并且Freqi是压缩向量。在信道注意之后，DCT层的输出被定义为：

其中sigmod是激活函数，fc表示诸如一维卷积或全连接层的映射函数，并且Freq是具有不同2D DCT分量的整个压缩向量：
在这里插入图片描述
其中K是前K个低频分量，根据先前的工作，低频分量更适合CNN。

就是介绍了一下二维离散余弦变换和逆变换：

然后根据频域信号，只提取低级特征，即i=0、1、……K-1的信号，把它们连接在一起然后形成Freq。

分离的网络

由于受感受野的限制，CNN缺乏交互性和相关性，所以提出了一种分裂网络，通过对特征进行分裂和分类来提高输入特征的内部相关性，并从信息丰富的区域中提取特征，使恢复后的图像保持图像细节和结构的保真度。在分裂网络和频率关注度的基础上，设计了一种基本的分块分裂频率关注度（SFA）来构建去盲网络。

分频注意：
如下图所示，在SFA中，输入特征图沿通道轴沿着分成m个部分。以 $X ∈ R^{W×H×C}$ 为输入特征图，利用3 × 3卷积得到 $X_1 ∈ R^{W×H×C_1}$ ，其中C1=mC，然后利用逐元素求和运算融合这些分裂。跨多个分裂的元素求和可以融合组合表示。

然后将融合特征f ∈ RW×H×C通过一个DCT层得到X2 ∈ RW×H× C，然后采用两个1 × 1卷积层得到X3 ∈ RW×H×C和X4 ∈ RW×H×C1，然后使用r − softmax操作增强来自丰富区域的信息，然后将特征再次分类为m个分裂。然后将每个分裂乘以前一个分裂，最后再次使用逐元素求和运算以获得输出特征。结构如下：
在这里插入图片描述

分裂频率注意块（SFAB）是基于SFA设计的。SFAB由若干个1 × 1卷积层、批归一化（BN）、校正的线性激活函数（ReLU）和SFA。
在这里插入图片描述

使用跳过连接来增强细节信息。然后利用SFAB和SFA建立分裂频率注意群（SFAG）。在SFAG中，输入特征被分成两条路径，一条是SFA，另一条是几个SFAB，两个结果融合生成输出：
在这里插入图片描述
其中G（·）由几个SFAB和一个3×3卷积层组成。

动态特征增强

通常，在卷积层中使用固定网格内核。具有固定网格内核的卷积不能提取结构化信息。提出了具有动态和灵活内核的可变形卷积以利用结构化信息。两个可变形卷积层被用作动态特征增强（DFE），以从丰富区域捕获更重要的信息。

混接

在浅层中捕获的低级特征可以通过短连接传递到更深层，并且可以增强图像的细节信息。但是深度网络表现出了不受欢迎的行为，如鲁棒性和记忆，并且提出了一种mixup操作。混淆很简单，它可以增加神经网络的鲁棒性我们应用mixup来连接下采样层和上采样层，并且下采样层中的细节信息可以与更深的上采样层中捕获的高级特征融合。第二下采样层的输出与第一上采样的输出混合，并且第一下采样层的输出与第二上采样的输出混合。混合操作定义为：
在这里插入图片描述
其中fmix是输出，α是在训练期间学习的参数，f↓是来自下采样层的特征，f↑表示来自上采样层的特征图。