本文主要是介绍【ICML2023】Hiera: 一个无需花哨附加功能的分层视觉Transformer,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!
来源:专知
本文为论文介绍,建议阅读5分钟我们创建了Hiera,一种极其简单的分层视觉Transformer,比以前的模型更精确。
现代的分层视觉Transformer已经添加了几个专门针对视觉的组件,以追求监督分类的性能。虽然这些组件带来了有效的精确度和吸引人的FLOP计数,但增加的复杂性实际上使这些Transformer比其原生ViT(Vision Transformer)对应物更慢。在本文中,我们认为这种额外的复杂性是不必要的。通过使用强大的视觉前提任务(MAE)进行预训练,我们可以从最先进的多阶段视觉Transformer中去除所有的附加功能,而不会损失精确度。在此过程中,我们创建了Hiera,一种极其简单的分层视觉Transformer,比以前的模型更精确,同时在推断和训练过程中也更快。我们在图像和视频识别的各种任务上评估了Hiera。我们的代码和模型可以在https://github.com/facebookresearch/hiera 上找到。
这篇关于【ICML2023】Hiera: 一个无需花哨附加功能的分层视觉Transformer的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!