本文主要是介绍多模态论文学习之ALBEF(Align BEfore Fusing),希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!
ALBEF泛读
- Title
- Links
- Motivation
- How to solve it?(Contribution)
- Model
- Experiments
- Pre-training Datasets
- Downstream tasks
- Ablation Experiment
Title
《Align before Fuse: Vision and Language
Representation Learning with Momentum Distillation》
Links
Paper地址
Motivation
大多数多模态模型都是用transformer的编码器同时编码视觉的token(region-based image features)和文本的token。用了目标检测器后
这篇关于多模态论文学习之ALBEF(Align BEfore Fusing)的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!