vlmo专题

51-11 多模态论文串讲—VLMo 论文精读

VLMo: Unified Vision-Language Pre-Training with Mixture-of-Modality-Experts (NeurIPS 2022) VLMo 是一种多模态 Transformer 模型，从名字可以看得出来它是一种 Mixture-of-Modality-Experts (MoME)，即混合多模态专家。怎么理解呢？主流 VLP 模型分为两种，一种是