【论文阅读笔记】Activating More Pixels in Image Super-Resolution Transformer

本文主要是介绍【论文阅读笔记】Activating More Pixels in Image Super-Resolution Transformer,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

论文地址:https://arxiv.org/abs/2205.04437
代码位置:https://github.com/XPixelGroup/HAT

论文小结

  本文方法是基于Transformer的方法,探索了Transformer在低级视觉任务(如SR)中的应用潜力。本文提升有效利用像素范围得到的网络,提出了一种混合注意力Transformer,命名为 HAT(Hybrid Attention Transformer)。
  本文的混合注意力Transformer结合channel attention和基于窗口的self-attention方案,所以认为是结合了全局数据统计和局部拟合能力的互补优势。为了进一步聚合跨窗口的信息,作者使用了重叠交叉注意模块来增加相邻窗口特征之间的交流。

  本文方法比当时最先进的方法领先PSNR指标1dB以上。

论文简介

  使用LAM方法测试(可以得到选择区域哪些像素贡献了最多),得到结论:虽然swinIR的平均指标更高,但基于transformer的swinIR的信息利用范围并不比基于CNN的RCAN方法要大,如下图所示。有效信息范围较小,但指标高,可能可以得出SwinIR比CNN方法拥有更大的映射能力的结论。但与此同时,由于其利用像素区域的范围有限,可能会恢复出错误的纹理。所以本文设计网络的时候考虑了在使用近self-attention结构的时候利用更多的像素用于重构

  查看swinIR的中间状态,有的样本的中间状态会有块效应。这表明移位窗口机制不能完美地实现跨窗口信息交互。所有本文加强了滑动窗口之间的连接,这样可以改善基于窗口的self-attention方法。

  为了解决上述问题,释放Transformer在SR方向上的潜力,作者提出了HAT,混合注意力Transformer。HAT结合了channel attention和self-attention,意图使用前者的全局信息能力和后者强大的表达能力。此外还引入了重叠交叉注意模块来实现相邻窗口特征更直接的交互。

  由于Transformer不像CNN那样具有归纳偏差,因此使用大规模数据预训练的模型参数对于释放此类模型的潜力非常重要。在本文中,作者提供了一种有效的同任务预训练策略。IPT使用多个恢复任务进行预训练。EDT使用多个退化级别进行预训练。作者直接使用大规模数据集对同一任务进行预训练,并相信大规模数据对于预训练来说才是真正重要的。以训练出来的指标作为验证,如下图所示,比其他方法高 0.1 0.1 0.1~ 1.2 1.2 1.2dB。

论文方法

网络架构

  本文设计的网络结构如下图所示:和很多网络一样,整个网络由三个部分组成,包括浅层特征提取,深层特征提取和图像重构。

HAB

  如图2所示,当采用channel attention时,更多的像素会被激活,因为有一个全局信息作为权重(个别图的牵强解释?)。所以本文引入channel-attention为基础的conv block,加入到Transformer block中来增强网络的表达能力。
  如上图4所示,一个channel attention block(CAB)被塞到了标准的Swin Transformer block下的第一个LayerNorm(LN)层后面,与window-base multi-head self-attention(W-MSA)模块平行。

  类似于SwinIR和Swin Transformer,在连续的HAB中,每隔一段时间就采用基于偏移窗口的自注意力(SW-MSA)。为了避免CAB和MSA在优化和视觉表示上可能的冲突,CAB的输出乘以一个小常数 α \alpha α。对于给定的输入,HAB的整个计算过程:其中 X N X_N XN X M X_M XM都是中间特征, Y Y Y是HAB的输出。
X N = L N ( X ) , X M = ( S ) W − M S A ( X N ) + α C A B ( X N ) + X , Y = M L P ( L N ( X M ) ) + X M , (1) \begin{equation}%输入公式的区域 \begin{aligned}%aligned命令对齐,在对齐的地方用"&" X_N&=LN(X), \\ X_M&=(S)W-MSA(X_N)+\alpha CAB(X_N)+X, \\ Y&=MLP(LN(X_M))+X_M, \end{aligned} \end{equation} \tag{1} XNXMY=LN(X),=(S)WMSA(XN)+αCAB(XN)+X,=MLP(LN(XM))+XM,(1)

  把每个像素看做是embedding的一个token(比如像SwinIR一样,将patch size设置1作为patch embedding)。MLP表示多层感知机。为了计算self-attention模块,将输入的特征( H × W × C H\times W\times C H×W×C)划分为 M × M M\times M M×M大小的 H W M 2 \frac{HW}{M^2} M2HW局部窗口。对于局部窗口特征 X W ∈ R M 2 × C X_W\in\mathbb{R}^{M^2\times C} XWRM2×Cquery,keyvalue矩阵都通过线性映射计算为 Q , K Q,K Q,K V V V。然后基于窗口的自注意力被表述为 A t t e n t i o n ( Q , K , V ) = S o f t M a x ( Q K T / d + B ) V , (2) \mathcal{Attention}(Q,K,V)=\mathcal{SoftMax}(QK^T/\sqrt{d}+B)V,\tag{2} Attention(Q,K,V)=SoftMax(QKT/d +B)V,(2)  其中 d d d表示为 q u e r y / k e y query/key query/key的维度;B表示相对位置编码,计算公式由Transformer论文(Attention is all you need)可得;需要注意的是,本文使用了较大的窗口来计算self-attention,因为作者发现这样可以显著扩大使用像素的范围。除此之外,为了建立非重叠窗口邻居之间的联系,作者使用移位窗口划分方法(如Swin Transformer一样),设置偏移量为窗口大小的一半。

  一个CAB模块包含两个标准卷积层,一个GELU激活函数,一个channel Attention(CA)。由于基于Transformer的架构通常需要较大的channel数量来进行token embedding,所以直接使用恒定宽度的卷积会产生很大的计算成本。因此,作者将两个卷积层的通道数压缩一个常数 β \beta β。对于一个输入通道数为 C C C的特征,第一个卷积的输出特征的通道数会被压缩到 C β \frac{C}\beta βC,然后第二个卷积层会恢复到 C C C的通道数。接下来使用标准的CA模块来自适应调整通道特征。

OCAB

  作者引入OCAB(Overlapping Cross-Attention Block)是为了建立跨窗口连接并增强窗口自注意力的能力。本文的OCAB由重叠的交叉注意(OCA)和MLP层组成,类似于标准的Swin Transformer block。

  对于OCA结构,如下图所示,使用不同的窗口大小来划分投影特征。具体来说,对于输入特征 X X X X Q , X K , X V ∈ R H × W × C X_Q,X_K,X_V\in\mathbb{R}^{H\times W\times C} XQ,XK,XVRH×W×C X Q X_Q XQ划分为 M × M M\times M M×M H W M 2 \frac{HW}{M^2} M2HW大小的非重叠窗口,而 X K , X V X_K,X_V XK,XV被展开为 M o × M o M_o\times M_o Mo×Mo H W M 2 \frac{HW}{M^2} M2HW大小的重叠窗口,其计算方法为 M o = ( 1 + γ ) × M M_o=(1+\gamma)\times M Mo=(1+γ)×M

  其中, γ \gamma γ是控制重叠大小的常数。直观上来说,标准的窗口分区,可以认为是kernel size和stride都等于窗口大小 M M M的滑动窗口。重叠窗口分区,可以认为是kernel size为 M o M_o Mo,stride为 M M M的滑动窗口。使用大小为 γ M 2 \frac{\gamma M}2 2γMzero-padding用以保证重叠窗口的大小一致性

  使用公式(2)计算attention矩阵,位置bias B ∈ R M × M o B\in \mathbb{R}^{M\times M_o} BRM×Mo也应用。不像WSA一样,query/key/value都从同一个窗口特征计算,OCA从更大的感受野上计算key/value,在该字段中可以利用更多的信息进行查询(query)。

模型预训练

  IPT使用其他低级任务(去噪、去雨、超分等)进行预训练;EDT使用同个数据集的不同退化等级进行预训练;而本文使用相同任务进行预训练,但只是在其他数据集上(比如大的图像数据集ImageNet)预训练。比如要训练 × 4 \times4 ×4的超分任务,就在ImageNet数据集上进行分 × 4 \times4 ×4的超分预训练,然后再在特定数据集(比如DF2K)上进行微调。所提出的策略,即相同任务预训练。作者认为这样的预训练会让训练更简单,同时带来更多的性能改进。

  同时,作者也提出在预训练时有足够的训练迭代次数,以及微调时适当的小学习率对于预训练策略的有效性非常重要。作者认为这是因为Transformer需要更多的数据和迭代来学习任务的一般知识,但需要较小的学习率进行微调以避免对特定数据集的过度拟合。

论文实验

结构和参数设置

  训练数据集采用DF2K(DIV2K+Flicker2K),因为作者发现只使用DIV2K会导致过拟合。在利用预训练时,采用ImageNet。使用Set5,Set14,BSD100,Urban100和Manga109评估方法。定量指标使用PSNR和SSIM,在Y通道上计算。损失函数采用 L 1 L_1 L1

  对于HAT的结构,作者采用与SwinIR相同的深度和宽度。具体而言,RHAG数量和HAB数量都设为 6 6 6。channel数量设置为 180 180 180。对于(S)W-MSA和OCA,将attention head数量和window 大小设置为 6 6 6 16 16 16。HAB的权重因子超参数 α \alpha α设为 0.01 0.01 0.01,CAB的两个卷积之间的压缩因子 β \beta β设为 3 3 3,OCA的重叠率设为 0.5 0.5 0.5
  对于更大变体结构 HAT-L ,作者采用增加深度的方式,即将HAT中的RHAG数量从 6 6 6提升到了 12 12 12
  对于与SiwnIR类似计算量,且参数更少的架构 HAT-S ,channel 数量设置成 144 144 144,同时在CAB中使用depth-wise 卷积。

消融学习

窗口大小设置

  该消融学习的实验,是在swinIR上进行了,为了避免本文新引入块的影响。定量分析如下表所示,窗口大小为 16 × 16 16\times 16 16×16的模型比 8 × 8 8 \times 8 8×8的模型要有更好的性能,特别是在Urban100上。

  定性分析如下图所示,对于红色标记的patch,窗口大小为 16 16 16的模型比窗口大小为 8 8 8的模型能利用更多的输入像素。

  定量分析和定性分析都能证明大窗口尺寸的有效性。基于这个结论,作者直接使用 16 16 16的窗口大小作为默认设置。

OCAB和CAB的有效性

  OCAB和CAB的定量分析如下表所示,在Urban100数据集上都能带来性能增益,组合起来也能有组合增益。

  如下图所示,使用OCAB的模型具有更大的利用像素范围,并能生成更好的重建结果。使用CAB时,所使用的像素甚至扩展到几乎整个图像。使用OCAB和CAB的结果获得了最高的DI,这意味着本文的方法利用了最多的输入像素。尽管使用OCAB和CAB的模型性能比w/OCAB稍低,但本文的方法获得了最高的SSIM并重建了最清晰的纹理

CAB的设计

  channel attention带来的影响如下表所示,能带来 0.05 d B 0.05dB 0.05dB的性能增益。

  作者还探索了CAB的权重因子 α \alpha α的有效性, α \alpha α就是CAB结果的输出权重, α = 0 \alpha=0 α=0就是不使用CAB的结果。如下表所示, α = 0.01 \alpha=0.01 α=0.01能获得最佳性能。这表明CAB和自注意力在优化方面可能存在潜在问题

OCAB中重叠率的影响

  超参数 γ \gamma γ被用于控制OCAB重叠交叉注意力的重叠大小。下表展示了 γ \gamma γ 0 0 0 0.75 0.75 0.75的影响。

   γ = 0 \gamma=0 γ=0表示的是标准的Transformer模块。从表中也能看到 g a m m a = 0.5 gamma=0.5 gamma=0.5能得到最佳性能。但当 γ = 0.25 \gamma=0.25 γ=0.25或者 γ = 0.75 \gamma=0.75 γ=0.75时,给模型带来的增益较小,甚至会出现性能下降。这表明,不合适的重叠率不利于相邻窗口的相互

实验结果

  下表对比了与SOTA方法的量化性能对比,具有更少参数和类似计算的HAT-S也可以显著由于最先进的方法SwinIR。与IPT和EDT的对比,就是使用了ImageNet预训练的结果,可以看出预训练策略能让模型受益匪浅。

  视觉对比效果如下图所示。纹理和字符等恢复的都是最好的。

  预训练策略的消融学习如下:

  在不同网络上,进行同任务预训练的对比如下:

  

这篇关于【论文阅读笔记】Activating More Pixels in Image Super-Resolution Transformer的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/787678

相关文章

JAVA智听未来一站式有声阅读平台听书系统小程序源码

智听未来,一站式有声阅读平台听书系统 🌟 开篇:遇见未来,从“智听”开始 在这个快节奏的时代,你是否渴望在忙碌的间隙,找到一片属于自己的宁静角落?是否梦想着能随时随地,沉浸在知识的海洋,或是故事的奇幻世界里?今天,就让我带你一起探索“智听未来”——这一站式有声阅读平台听书系统,它正悄悄改变着我们的阅读方式,让未来触手可及! 📚 第一站:海量资源,应有尽有 走进“智听

AI hospital 论文Idea

一、Benchmarking Large Language Models on Communicative Medical Coaching: A Dataset and a Novel System论文地址含代码 大多数现有模型和工具主要迎合以患者为中心的服务。这项工作深入探讨了LLMs在提高医疗专业人员的沟通能力。目标是构建一个模拟实践环境,人类医生(即医学学习者)可以在其中与患者代理进行医学

【学习笔记】 陈强-机器学习-Python-Ch15 人工神经网络(1)sklearn

系列文章目录 监督学习:参数方法 【学习笔记】 陈强-机器学习-Python-Ch4 线性回归 【学习笔记】 陈强-机器学习-Python-Ch5 逻辑回归 【课后题练习】 陈强-机器学习-Python-Ch5 逻辑回归(SAheart.csv) 【学习笔记】 陈强-机器学习-Python-Ch6 多项逻辑回归 【学习笔记 及 课后题练习】 陈强-机器学习-Python-Ch7 判别分析 【学

系统架构师考试学习笔记第三篇——架构设计高级知识(20)通信系统架构设计理论与实践

本章知识考点:         第20课时主要学习通信系统架构设计的理论和工作中的实践。根据新版考试大纲,本课时知识点会涉及案例分析题(25分),而在历年考试中,案例题对该部分内容的考查并不多,虽在综合知识选择题目中经常考查,但分值也不高。本课时内容侧重于对知识点的记忆和理解,按照以往的出题规律,通信系统架构设计基础知识点多来源于教材内的基础网络设备、网络架构和教材外最新时事热点技术。本课时知识

论文翻译:arxiv-2024 Benchmark Data Contamination of Large Language Models: A Survey

Benchmark Data Contamination of Large Language Models: A Survey https://arxiv.org/abs/2406.04244 大规模语言模型的基准数据污染:一项综述 文章目录 大规模语言模型的基准数据污染:一项综述摘要1 引言 摘要 大规模语言模型(LLMs),如GPT-4、Claude-3和Gemini的快

论文阅读笔记: Segment Anything

文章目录 Segment Anything摘要引言任务模型数据引擎数据集负责任的人工智能 Segment Anything Model图像编码器提示编码器mask解码器解决歧义损失和训练 Segment Anything 论文地址: https://arxiv.org/abs/2304.02643 代码地址:https://github.com/facebookresear

数学建模笔记—— 非线性规划

数学建模笔记—— 非线性规划 非线性规划1. 模型原理1.1 非线性规划的标准型1.2 非线性规划求解的Matlab函数 2. 典型例题3. matlab代码求解3.1 例1 一个简单示例3.2 例2 选址问题1. 第一问 线性规划2. 第二问 非线性规划 非线性规划 非线性规划是一种求解目标函数或约束条件中有一个或几个非线性函数的最优化问题的方法。运筹学的一个重要分支。2

【C++学习笔记 20】C++中的智能指针

智能指针的功能 在上一篇笔记提到了在栈和堆上创建变量的区别,使用new关键字创建变量时,需要搭配delete关键字销毁变量。而智能指针的作用就是调用new分配内存时,不必自己去调用delete,甚至不用调用new。 智能指针实际上就是对原始指针的包装。 unique_ptr 最简单的智能指针,是一种作用域指针,意思是当指针超出该作用域时,会自动调用delete。它名为unique的原因是这个

查看提交历史 —— Git 学习笔记 11

查看提交历史 查看提交历史 不带任何选项的git log-p选项--stat 选项--pretty=oneline选项--pretty=format选项git log常用选项列表参考资料 在提交了若干更新,又或者克隆了某个项目之后,你也许想回顾下提交历史。 完成这个任务最简单而又有效的 工具是 git log 命令。 接下来的例子会用一个用于演示的 simplegit

记录每次更新到仓库 —— Git 学习笔记 10

记录每次更新到仓库 文章目录 文件的状态三个区域检查当前文件状态跟踪新文件取消跟踪(un-tracking)文件重新跟踪(re-tracking)文件暂存已修改文件忽略某些文件查看已暂存和未暂存的修改提交更新跳过暂存区删除文件移动文件参考资料 咱们接着很多天以前的 取得Git仓库 这篇文章继续说。 文件的状态 不管是通过哪种方法,现在我们已经有了一个仓库,并从这个仓