MLP-Mixer: An all-MLP Architecture for Vision

本文主要是介绍MLP-Mixer: An all-MLP Architecture for Vision，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

Abstract

在计算机视觉领域，卷积神经网络（CNNs）是首选的模型。最近，基于注意力机制的网络，如Vision Transformer，也变得流行起来。在这篇论文中，我们展示了卷积和注意力虽然都足以实现良好的性能，但它们两者都不是必需的。我们提出了MLP-Mixer，这是一种仅基于多层感知机（MLPs）的架构。MLP-Mixer包含两种类型的层：一种是独立应用于图像块的MLPs（即“混合”每个位置的特征），另一种是跨图像块应用MLPs（即“混合”空间信息）。在大型数据集上进行训练，或使用现代正则化方案时，MLP-Mixer在图像分类基准测试中取得了竞争性的分数，其预训练和推断成本与最先进的模型相当。我们希望这些结果能够激发超越已经建立的CNNs和Transformers领域的进一步研究。

1 Introduction

计算机视觉的历史表明，更大的数据集与增强的计算能力往往导致范式转变。尽管卷积神经网络（CNNs）一直是计算机视觉的事实标准，但最近基于自注意力层的Vision Transformers [14]（ViT）取得了最先进的性能，成为一种替代方案。ViT延续了去除手工制作的视觉特征和归纳偏见的长期趋势，并进一步依赖于从原始数据中学习。

我们提出了MLP-Mixer架构（简称"Mixer"），这是一种竞争性但在概念上和技术上简单的替代方案，不使用卷积或自注意力。相反，Mixer的架构完全基于多层感知机（MLPs），这些MLPs反复应用于空间位置或特征通道。Mixer

这篇关于MLP-Mixer: An all-MLP Architecture for Vision的文章就介绍到这儿，希望我们推荐的文章对编程师们有所帮助！