【ARXIV2211】Efficient multi-order gated aggregation network

2023-10-31 09:50

文章标签 network order multi aggregation efficient gated arxiv2211

本文主要是介绍【ARXIV2211】Efficient multi-order gated aggregation network，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

在这里插入图片描述
作者认为，交互复杂性是视觉识别一个重要特点。为此，作者通过复杂特征交互构建了一个纯卷积的网络 MogaNet 用于图像识别。MogaNet的整体框架如下图所示，架构和一般的 Transformer 网络非常类似，核心包括两个模块：spatial aggregation （取代注意力）和 channel aggregation （取代FFN）。

请添加图片描述

（1）spatial aggregation 如下图所示，蓝色部分叫做 feature decomposition，用于 exclude trivial interactions. (我对这个模块的动机并不太理解，不过下面的 channel aggregation 也用到了这个) 。下面是 Moga模块，也就是多次 DWConv，作者认为是多阶门控。

请添加图片描述

（2）channel aggregation 如下图所示。当前的主流方法FFN中仅包括两个FC层。因此，作者进行了如下改进。我理解这个操作类似于是一个空间位置的注意力，但貌似也并不很一样，不清楚在其它论文里有没有类似的操作。

请添加图片描述

这篇关于【ARXIV2211】Efficient multi-order gated aggregation network的文章就介绍到这儿，希望我们推荐的文章对编程师们有所帮助！

http://www.chinasem.cn/article/314507。 23002807@qq.com

相关文章

MySQL ORDER BY 语句常见用法、示例详解

MySQL ORDER BY 语句常见用法、示例详解

《MySQLORDERBY语句常见用法、示例详解》ORDERBY是结构化查询语言（SQL）中的关键字,隶属于SELECT语句的子句结构,用于对查询结果集按指定列进行排序,本文给大家介绍MySQL... 目录mysql ORDER BY 语句详细说明1.基本语法2.排序方向详解3.多列排序4.常见用法示例5.

阅读更多...

mysqld_multi在Linux服务器上运行多个MySQL实例

mysqld_multi在Linux服务器上运行多个MySQL实例

《mysqld_multi在Linux服务器上运行多个MySQL实例》在Linux系统上使用mysqld_multi来启动和管理多个MySQL实例是一种常见的做法,这种方式允许你在同一台机器上运行多个... 目录1. 安装mysql2. 配置文件示例配置文件3. 创建数据目录4. 启动和管理实例启动所有实例

阅读更多...

poj 2349 Arctic Network uva 10369（prim or kruscal最小生成树）

poj 2349 Arctic Network uva 10369（prim or kruscal最小生成树）

题目很麻烦，因为不熟悉最小生成树的算法调试了好久。感觉网上的题目解释都没说得很清楚，不适合新手。自己写一个。题意：给你点的坐标，然后两点间可以有两种方式来通信：第一种是卫星通信，第二种是无线电通信。卫星通信：任何两个有卫星频道的点间都可以直接建立连接，与点间的距离无关；无线电通信：两个点之间的距离不能超过D，无线电收发器的功率越大，D越大，越昂贵。计算无线电收发器D

阅读更多...

2014 Multi-University Training Contest 8小记

2014 Multi-University Training Contest 8小记

1002 计算几何最大的速度才可能拥有无限的面积。最大的速度的点求凸包，凸包上的点（注意不是端点）才拥有无限的面积注意：凸包上如果有重点则不满足。另外最大的速度为0也不行的。 int cmp(double x){if(fabs(x) < 1e-8) return 0 ;if(x > 0) return 1 ;return -1 ;}struct poin

阅读更多...

2014 Multi-University Training Contest 7小记

2014 Multi-University Training Contest 7小记

1003 数学，先暴力再解方程。在b进制下是个2 ， 3 位数的大概是10000进制以上。这部分解方程 2-10000 直接暴力 typedef long long LL ;LL n ;int ok(int b){LL m = n ;int c ;while(m){c = m % b ;if(c == 3 || c == 4 || c == 5 ||

阅读更多...

2014 Multi-University Training Contest 6小记

2014 Multi-University Training Contest 6小记

1003 贪心对于111...10....000 这样的序列， a 为1的个数，b为0的个数，易得当 x= a / (a + b) 时 f最小。讲串分成若干段 1..10..0 , 1..10..0 , 要满足x非递减。对于 xi > xi+1 这样的合并即可。 const int maxn = 100008 ;struct Node{int

阅读更多...

图神经网络框架DGL实现Graph Attention Network (GAT)笔记

图神经网络框架DGL实现Graph Attention Network (GAT)笔记

参考列表： [1]深入理解图注意力机制 [2]DGL官方学习教程一 ——基础操作&消息传递 [3]Cora数据集介绍+python读取一、DGL实现GAT分类机器学习论文程序摘自[1]，该程序实现了利用图神经网络框架——DGL，实现图注意网络（GAT）。应用demo为对机器学习论文数据集——Cora，对论文所属类别进行分类。（下图摘自[3]） 1. 程序 Ubuntu：18.04

阅读更多...

[论文笔记]QLoRA: Efficient Finetuning of Quantized LLMs

[论文笔记]QLoRA: Efficient Finetuning of Quantized LLMs

引言今天带来LoRA的量化版论文笔记——QLoRA: Efficient Finetuning of Quantized LLMs 为了简单，下文中以翻译的口吻记录，比如替换"作者"为"我们"。我们提出了QLoRA，一种高效的微调方法，它在减少内存使用的同时，能够在单个48GB GPU上对65B参数的模型进行微调，同时保持16位微调任务的完整性能。QLoRA通过一个冻结的4位量化预

阅读更多...

深度学习--对抗生成网络（GAN, Generative Adversarial Network）

深度学习--对抗生成网络（GAN, Generative Adversarial Network）

对抗生成网络（GAN, Generative Adversarial Network）是一种深度学习模型，由Ian Goodfellow等人在2014年提出。GAN主要用于生成数据，通过两个神经网络相互对抗，来生成以假乱真的新数据。以下是对GAN的详细阐述，包括其概念、作用、核心要点、实现过程、代码实现和适用场景。 1. 概念 GAN由两个神经网络组成：生成器（Generator）和判别器（D

阅读更多...

MapReduce算法 – 反转排序(Order Inversion)

MapReduce算法 – 反转排序(Order Inversion)

译者注：在刚开始翻译的时候，我将Order Inversion按照字面意思翻译成“反序”或者“倒序”，但是翻译完整篇文章之后，我感觉到，将Order Inversion翻译成反序模式是不恰当的，根据本文的内容，很显然，Inversion并非是将顺序倒排的意思，而是如同Spring的IOC一样，表明的是一种控制权的反转。Spring将对象的实例化责任从业务代码反转给了框架，而在本文的模式中，在map

阅读更多...