超越传统卷积!快速傅里叶卷积突破计算极限,加速高达7.93倍

本文主要是介绍超越传统卷积!快速傅里叶卷积突破计算极限,加速高达7.93倍,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

通过结合快速傅里叶变换的优势,快速傅里叶卷积(FFC)提供了一种高效的方式来执行卷积操作,特别是在需要全局上下文信息和跨尺度特征融合的场景中。

这种独特的频域操作不仅能提高特征提取的效率和质量,还可以加速计算过程。在实际应用中帮助我们提高模型性能,同时保持较低的计算成本。比如:

  • 英伟达等团队提出的基于傅里叶的神经网络预测模型FourCastNet,在节点小时(node-hour)基础上比传统 NWP 模型快约 45,000 倍。

  • 斯坦福团队引入FlashFFTConv来优化机器学习中长序列的FFT卷积,可将FFT卷积加速高达7.93倍。

为帮助同学们深入了解FFC原理,获取科研灵感,我整理了10个快速傅里叶卷积创新方案,来源文章以及开源代码也列上了,方便同学们复现。

论文和代码需要的同学看文末

FlashFFTConv: Efficient Convolutions for Long Sequences with Tensor Cores

方法:作者提出了一种新的系统FlashFFTConv,通过Monarch FFT分解对FFT卷积进行优化。该分解将FFT表示为一系列矩阵乘法操作,可以有效地映射到硬件上。通过简单的GPU成本模型,作者展示了如何根据序列长度调整分解的顺序p,以平衡FLOP成本和I/O成本。

FlashFFTConv还利用实值FFT算法将FFT操作的长度减半,并在输入进行零填充时有选择地跳过矩阵乘法操作的部分。此外,作者还提出了部分卷积和频率稀疏卷积的架构扩展,这些扩展可以减少内存占用和运行时间。

创新点:

  • FlashFFTConv是一种优化FFT卷积的新系统,通过Monarch分解FFT来提高卷积的效率和性能。

  • FlashFFTConv通过优化FFT卷积算法,提高了卷积序列模型的质量和效率。

  • FlashFFTConv还引入了部分卷积和频率稀疏卷积两种新的卷积算法,可以进一步减少内存占用和提高计算速度。

FOURCASTNET: A GLOBAL DATA-DRIVEN HIGH-RESOLUTION WEATHER MODEL USING ADAPTIVE FOURIER NEURAL OPERATORS

方法:FourCastNet是一种全球数据驱动的深度学习(DL)天气预报模型,基于Fourier神经算子(FNO)和自适应Fourier神经算子(AFNO)。FourCastNet能够以很高的准确性生成高分辨率的风速和降水预报,预测速度更快、计算成本更低,并且能够生成大规模的集合预报。

创新点:

  • FourCastNet 的分辨率比现有的最先进基于DL的全球天气模型高出八倍,使其能够准确解析极端事件,如热带气旋和大气河。

  • 在最长一周的预报时效内,FourCastNet 的预测结果可以与传统的数值天气预报(NWP)模型IFS相媲美,展现了数据驱动模型在补充甚至最终替代NWP方面的潜力。

  • FourCastNet 能够在数秒内生成非常大的集合预报,提高了对极端天气事件预警的可靠性,并能够快速评估其影响。

  • FourCastNet 比传统的NWP模型快大约45,000倍,并且能耗降低了12,000倍,使其成为天气预报的一种更高效、更经济的解决方案。

Fast-ParC: Capturing Position Aware Global Feature for ConvNets and ViTs

方法:本文提出了一种名为ParC(Positional Aware Circular Convolution)的新型插入式操作,将Transformer和ConvNet的优点相结合。ParC通过使用全局卷积核和循环卷积来捕捉全局特征,并使用位置编码保持位置敏感性。与MHA相比,ParC将全局操作的时间复杂度从O(n^2)降低到O(n^3/2)。通过使用FFT(Fast Fourier Transform),Fast-ParC将ParC的复杂度进一步降低到O(n log n)。

创新点:

  • ParC操作
    • ParC操作是一种新颖的插入式操作,结合了ViT中使用的自注意力机制和纯卷积操作,具有全局感受野。

    • ParC操作可以更方便地在不同硬件平台上支持,并提高网络在分类任务上的性能。

    • 基于ParC的模型在下游任务上也表现出优越性能。

  • Fast-ParC操作
    • Fast-ParC是ParC的一种基于FFT的加速版本,用于处理高分辨率输入特征。

    • Fast-ParC操作能够在高输入分辨率的情况下保持较低的计算预算,使ParC成为大多数计算机视觉任务的竞争性通用选择。

    • Fast-ParC操作进一步拓宽了ParC的应用场景。

ADAPTIVE FOURIER NEURAL OPERATORS: EFFICIENT TOKEN MIXERS FOR TRANSFORMERS

方法:论文研究了运算符学习和高分辨率令牌混合的有效变换器之间的关系。通过建立了运算符学习和高分辨率令牌混合之间的联系,并将FNO从PDEs中进行了适应,提出了一种具有准线性复杂度的高效混合器AFNO。

创新点:

  • 将运算符学习与高分辨率令牌混合相结合,将PDE中的FNO改编为具有准线性复杂度的高效混合器。

  • 通过引入块对角结构、自适应权重共享和稀疏性,以有原则的方式设计了AFNO,以提高其表达能力和泛化能力。

关注下方《学姐带你玩AI》🚀🚀🚀

回复“FFC模块”获取全部论文+代码

码字不易,欢迎大家点赞评论收藏

这篇关于超越传统卷积!快速傅里叶卷积突破计算极限,加速高达7.93倍的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/833926

相关文章

如何突破底层思维方式的牢笼

我始终认为,牛人和普通人的根本区别在于思维方式的不同,而非知识多少、阅历多少。 在这个世界上总有一帮神一样的人物存在。就像读到的那句话:“人类就像是一条历史长河中的鱼,只有某几条鱼跳出河面,看到世界的法则,但是却无法改变,当那几条鱼中有跳上岸,进化了,改变河道流向,那样才能改变法则。”  最近一段时间一直在不断寻在内心的东西,同时也在不断的去反省和否定自己的一些思维模式,尝试重

乐鑫 Matter 技术体验日|快速落地 Matter 产品,引领智能家居生态新发展

随着 Matter 协议的推广和普及,智能家居行业正迎来新的发展机遇,众多厂商纷纷投身于 Matter 产品的研发与验证。然而,开发者普遍面临技术门槛高、认证流程繁琐、生产管理复杂等诸多挑战。  乐鑫信息科技 (688018.SH) 凭借深厚的研发实力与行业洞察力,推出了全面的 Matter 解决方案,包含基于乐鑫 SoC 的 Matter 硬件平台、基于开源 ESP-Matter SDK 的一

计算绕原点旋转某角度后的点的坐标

问题: A点(x, y)按顺时针旋转 theta 角度后点的坐标为A1点(x1,y1)  ,求x1 y1坐标用(x,y)和 theta 来表示 方法一: 设 OA 向量和x轴的角度为 alpha , 那么顺时针转过 theta后 ,OA1 向量和x轴的角度为 (alpha - theta) 。 使用圆的参数方程来表示点坐标。A的坐标可以表示为: \[\left\{ {\begin{ar

YOLOv8改进 | SPPF | 具有多尺度带孔卷积层的ASPP【CVPR2018】

💡💡💡本专栏所有程序均经过测试,可成功执行💡💡💡 专栏目录 :《YOLOv8改进有效涨点》专栏介绍 & 专栏目录 | 目前已有40+篇内容,内含各种Head检测头、损失函数Loss、Backbone、Neck、NMS等创新点改进——点击即可跳转 Atrous Spatial Pyramid Pooling (ASPP) 是一种在深度学习框架中用于语义分割的网络结构,它旨

时间服务器中,适用于国内的 NTP 服务器地址,可用于时间同步或 Android 加速 GPS 定位

NTP 是什么?   NTP 是网络时间协议(Network Time Protocol),它用来同步网络设备【如计算机、手机】的时间的协议。 NTP 实现什么目的?   目的很简单,就是为了提供准确时间。因为我们的手表、设备等,经常会时间跑着跑着就有误差,或快或慢的少几秒,时间长了甚至误差过分钟。 NTP 服务器列表 最常见、熟知的就是 www.pool.ntp.org/zo

LVGL快速入门笔记

目录 一、基础知识 1. 基础对象(lv_obj) 2. 基础对象的大小(size) 3. 基础对象的位置(position) 3.1 直接设置方式 3.2 参照父对象对齐 3.3 获取位置 4. 基础对象的盒子模型(border-box) 5. 基础对象的样式(styles) 5.1 样式的状态和部分 5.1.1 对象可以处于以下状态States的组合: 5.1.2 对象

【云计算 复习】第1节 云计算概述和 GFS + chunk

一、云计算概述 1.云计算的商业模式 (1)软件即服务(SaaS) 有些景区给游客提供烧烤场地,游客需要自己挖坑或者砌烧烤台,然后买肉、串串、烧烤。 (2)平台即服务(PaaS) 有些景区给游客提供烧烤场地,同时搭建好烧烤台,游客只需要自己带食材和调料、串串、烧烤。 (3)基础设施即服务(IaaS) 有些景区给游客提供烧烤场地,同时搭建好烧烤台,还有专门的厨师来烧烤,用户不需要关心前面的所有

【图像识别系统】昆虫识别Python+卷积神经网络算法+人工智能+深度学习+机器学习+TensorFlow+ResNet50

一、介绍 昆虫识别系统,使用Python作为主要开发语言。通过TensorFlow搭建ResNet50卷积神经网络算法(CNN)模型。通过对10种常见的昆虫图片数据集(‘蜜蜂’, ‘甲虫’, ‘蝴蝶’, ‘蝉’, ‘蜻蜓’, ‘蚱蜢’, ‘蛾’, ‘蝎子’, ‘蜗牛’, ‘蜘蛛’)进行训练,得到一个识别精度较高的H5格式模型文件,然后使用Django搭建Web网页端可视化操作界面,实现用户上传一

大型网站架构演化(六)——使用反向代理和CDN加速网站响应

随着网站业务不断发展,用户规模越来越大,由于中国复杂的网络环境,不同地区的用户访问网站时,速度差别也极大。有研究表明,网站访问延迟和用户流失率正相关,网站访问越慢,用户越容易失去耐心而离开。为了提供更好的用户体验,留住用户,网站需要加速网站访问速度。      主要手段:使用CDN和反向代理。如图。     使用CDN和反向代理的目的都是尽早返回数据给用户,一方面加快用户访问速

【Spring】Spring Boot 快速入门

📚博客主页:爱敲代码的小杨. ✨专栏:《Java SE语法》 | 《数据结构与算法》 | 《C生万物》 |《MySQL探索之旅》 |《Web世界探险家》 ❤️感谢大家点赞👍🏻收藏⭐评论✍🏻,您的三连就是我持续更新的动力❤️ 🙏小杨水平有限,欢迎各位大佬指点,相互学习进步! 小杨近些在学习人工智能方面的知识,发现了一个巨牛的人工智能学习网站,通俗易懂,风趣幽默,忍不住分享一