超越传统卷积!快速傅里叶卷积突破计算极限,加速高达7.93倍

本文主要是介绍超越传统卷积!快速傅里叶卷积突破计算极限,加速高达7.93倍,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

通过结合快速傅里叶变换的优势,快速傅里叶卷积(FFC)提供了一种高效的方式来执行卷积操作,特别是在需要全局上下文信息和跨尺度特征融合的场景中。

这种独特的频域操作不仅能提高特征提取的效率和质量,还可以加速计算过程。在实际应用中帮助我们提高模型性能,同时保持较低的计算成本。比如:

  • 英伟达等团队提出的基于傅里叶的神经网络预测模型FourCastNet,在节点小时(node-hour)基础上比传统 NWP 模型快约 45,000 倍。

  • 斯坦福团队引入FlashFFTConv来优化机器学习中长序列的FFT卷积,可将FFT卷积加速高达7.93倍。

为帮助同学们深入了解FFC原理,获取科研灵感,我整理了10个快速傅里叶卷积创新方案,来源文章以及开源代码也列上了,方便同学们复现。

论文和代码需要的同学看文末

FlashFFTConv: Efficient Convolutions for Long Sequences with Tensor Cores

方法:作者提出了一种新的系统FlashFFTConv,通过Monarch FFT分解对FFT卷积进行优化。该分解将FFT表示为一系列矩阵乘法操作,可以有效地映射到硬件上。通过简单的GPU成本模型,作者展示了如何根据序列长度调整分解的顺序p,以平衡FLOP成本和I/O成本。

FlashFFTConv还利用实值FFT算法将FFT操作的长度减半,并在输入进行零填充时有选择地跳过矩阵乘法操作的部分。此外,作者还提出了部分卷积和频率稀疏卷积的架构扩展,这些扩展可以减少内存占用和运行时间。

创新点:

  • FlashFFTConv是一种优化FFT卷积的新系统,通过Monarch分解FFT来提高卷积的效率和性能。

  • FlashFFTConv通过优化FFT卷积算法,提高了卷积序列模型的质量和效率。

  • FlashFFTConv还引入了部分卷积和频率稀疏卷积两种新的卷积算法,可以进一步减少内存占用和提高计算速度。

FOURCASTNET: A GLOBAL DATA-DRIVEN HIGH-RESOLUTION WEATHER MODEL USING ADAPTIVE FOURIER NEURAL OPERATORS

方法:FourCastNet是一种全球数据驱动的深度学习(DL)天气预报模型,基于Fourier神经算子(FNO)和自适应Fourier神经算子(AFNO)。FourCastNet能够以很高的准确性生成高分辨率的风速和降水预报,预测速度更快、计算成本更低,并且能够生成大规模的集合预报。

创新点:

  • FourCastNet 的分辨率比现有的最先进基于DL的全球天气模型高出八倍,使其能够准确解析极端事件,如热带气旋和大气河。

  • 在最长一周的预报时效内,FourCastNet 的预测结果可以与传统的数值天气预报(NWP)模型IFS相媲美,展现了数据驱动模型在补充甚至最终替代NWP方面的潜力。

  • FourCastNet 能够在数秒内生成非常大的集合预报,提高了对极端天气事件预警的可靠性,并能够快速评估其影响。

  • FourCastNet 比传统的NWP模型快大约45,000倍,并且能耗降低了12,000倍,使其成为天气预报的一种更高效、更经济的解决方案。

Fast-ParC: Capturing Position Aware Global Feature for ConvNets and ViTs

方法:本文提出了一种名为ParC(Positional Aware Circular Convolution)的新型插入式操作,将Transformer和ConvNet的优点相结合。ParC通过使用全局卷积核和循环卷积来捕捉全局特征,并使用位置编码保持位置敏感性。与MHA相比,ParC将全局操作的时间复杂度从O(n^2)降低到O(n^3/2)。通过使用FFT(Fast Fourier Transform),Fast-ParC将ParC的复杂度进一步降低到O(n log n)。

创新点:

  • ParC操作
    • ParC操作是一种新颖的插入式操作,结合了ViT中使用的自注意力机制和纯卷积操作,具有全局感受野。

    • ParC操作可以更方便地在不同硬件平台上支持,并提高网络在分类任务上的性能。

    • 基于ParC的模型在下游任务上也表现出优越性能。

  • Fast-ParC操作
    • Fast-ParC是ParC的一种基于FFT的加速版本,用于处理高分辨率输入特征。

    • Fast-ParC操作能够在高输入分辨率的情况下保持较低的计算预算,使ParC成为大多数计算机视觉任务的竞争性通用选择。

    • Fast-ParC操作进一步拓宽了ParC的应用场景。

ADAPTIVE FOURIER NEURAL OPERATORS: EFFICIENT TOKEN MIXERS FOR TRANSFORMERS

方法:论文研究了运算符学习和高分辨率令牌混合的有效变换器之间的关系。通过建立了运算符学习和高分辨率令牌混合之间的联系,并将FNO从PDEs中进行了适应,提出了一种具有准线性复杂度的高效混合器AFNO。

创新点:

  • 将运算符学习与高分辨率令牌混合相结合,将PDE中的FNO改编为具有准线性复杂度的高效混合器。

  • 通过引入块对角结构、自适应权重共享和稀疏性,以有原则的方式设计了AFNO,以提高其表达能力和泛化能力。

关注下方《学姐带你玩AI》🚀🚀🚀

回复“FFC模块”获取全部论文+代码

码字不易,欢迎大家点赞评论收藏

这篇关于超越传统卷积!快速傅里叶卷积突破计算极限,加速高达7.93倍的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/833926

相关文章

Python实现精确小数计算的完全指南

《Python实现精确小数计算的完全指南》在金融计算、科学实验和工程领域,浮点数精度问题一直是开发者面临的重大挑战,本文将深入解析Python精确小数计算技术体系,感兴趣的小伙伴可以了解一下... 目录引言:小数精度问题的核心挑战一、浮点数精度问题分析1.1 浮点数精度陷阱1.2 浮点数误差来源二、基础解决

Python文本相似度计算的方法大全

《Python文本相似度计算的方法大全》文本相似度是指两个文本在内容、结构或语义上的相近程度,通常用0到1之间的数值表示,0表示完全不同,1表示完全相同,本文将深入解析多种文本相似度计算方法,帮助您选... 目录前言什么是文本相似度?1. Levenshtein 距离(编辑距离)核心公式实现示例2. Jac

Python多线程实现大文件快速下载的代码实现

《Python多线程实现大文件快速下载的代码实现》在互联网时代,文件下载是日常操作之一,尤其是大文件,然而,网络条件不稳定或带宽有限时,下载速度会变得很慢,本文将介绍如何使用Python实现多线程下载... 目录引言一、多线程下载原理二、python实现多线程下载代码说明:三、实战案例四、注意事项五、总结引

C#使用Spire.XLS快速生成多表格Excel文件

《C#使用Spire.XLS快速生成多表格Excel文件》在日常开发中,我们经常需要将业务数据导出为结构清晰的Excel文件,本文将手把手教你使用Spire.XLS这个强大的.NET组件,只需几行C#... 目录一、Spire.XLS核心优势清单1.1 性能碾压:从3秒到0.5秒的质变1.2 批量操作的优雅

Python中经纬度距离计算的实现方式

《Python中经纬度距离计算的实现方式》文章介绍Python中计算经纬度距离的方法及中国加密坐标系转换工具,主要方法包括geopy(Vincenty/Karney)、Haversine、pyproj... 目录一、基本方法1. 使用geopy库(推荐)2. 手动实现 Haversine 公式3. 使用py

Mybatis-Plus 3.5.12 分页拦截器消失的问题及快速解决方法

《Mybatis-Plus3.5.12分页拦截器消失的问题及快速解决方法》作为Java开发者,我们都爱用Mybatis-Plus简化CRUD操作,尤其是它的分页功能,几行代码就能搞定复杂的分页查询... 目录一、问题场景:分页拦截器突然 “失踪”二、问题根源:依赖拆分惹的祸三、解决办法:添加扩展依赖四、分页

c++日志库log4cplus快速入门小结

《c++日志库log4cplus快速入门小结》文章浏览阅读1.1w次,点赞9次,收藏44次。本文介绍Log4cplus,一种适用于C++的线程安全日志记录API,提供灵活的日志管理和配置控制。文章涵盖... 目录简介日志等级配置文件使用关于初始化使用示例总结参考资料简介log4j 用于Java,log4c

使用Redis快速实现共享Session登录的详细步骤

《使用Redis快速实现共享Session登录的详细步骤》在Web开发中,Session通常用于存储用户的会话信息,允许用户在多个页面之间保持登录状态,Redis是一个开源的高性能键值数据库,广泛用于... 目录前言实现原理:步骤:使用Redis实现共享Session登录1. 引入Redis依赖2. 配置R

详解MySQL中JSON数据类型用法及与传统JSON字符串对比

《详解MySQL中JSON数据类型用法及与传统JSON字符串对比》MySQL从5.7版本开始引入了JSON数据类型,专门用于存储JSON格式的数据,本文将为大家简单介绍一下MySQL中JSON数据类型... 目录前言基本用法jsON数据类型 vs 传统JSON字符串1. 存储方式2. 查询方式对比3. 索引

Linux如何快速检查服务器的硬件配置和性能指标

《Linux如何快速检查服务器的硬件配置和性能指标》在运维和开发工作中,我们经常需要快速检查Linux服务器的硬件配置和性能指标,本文将以CentOS为例,介绍如何通过命令行快速获取这些关键信息,... 目录引言一、查询CPU核心数编程(几C?)1. 使用 nproc(最简单)2. 使用 lscpu(详细信