vilg专题

你说我画，你画我说：全球最大中文跨模态生成模型文心ERNIE-ViLG来了！

来源：机器之心本文约2300字，建议阅读9分钟该模型参数规模达到100亿，是全球最大的中文跨模态生成模型。在文字生成图像上，文心 ERNIE-ViLG 可以根据用户输入的文本，自动创作图像，生成的图像不仅符合文字描述，而且达到了非常逼真的效果。在图像到文本的生成上，文心 ERNIE-ViLG 能够理解画面，用简洁的语言描述画面的内容，还能够根据图片中的场景回答相关的问题。前不久，百度

（2021，中文，双向生成，端到端，双向稀疏注意力）ERNIE-ViLG：双向视觉语言生成的统一生成预训练

ERNIE-ViLG: Unified Generative Pre-training for Bidirectional Vision-Language Generation 公众号：EDPJ（添加 VX：CV_EDPJ 或直接进 Q 交流群：922230617 获取资料）目录 0. 摘要 1. 简介 2. 相关工作 2.1 视觉语言预训练 2.2 视觉语言生成 3. 方