vilg专题

你说我画,你画我说:全球最大中文跨模态生成模型文心ERNIE-ViLG来了!

来源:机器之心本文约2300字,建议阅读9分钟该模型参数规模达到100亿,是全球最大的中文跨模态生成模型。 在文字生成图像上,文心 ERNIE-ViLG 可以根据用户输入的文本,自动创作图像,生成的图像不仅符合文字描述,而且达到了非常逼真的效果。在图像到文本的生成上,文心 ERNIE-ViLG 能够理解画面,用简洁的语言描述画面的内容,还能够根据图片中的场景回答相关的问题。 前不久,百度

(2021,中文,双向生成,端到端,双向稀疏注意力)ERNIE-ViLG:双向视觉语言生成的统一生成预训练

ERNIE-ViLG: Unified Generative Pre-training for Bidirectional Vision-Language Generation 公众号:EDPJ(添加 VX:CV_EDPJ 或直接进 Q 交流群:922230617 获取资料) 目录 0. 摘要 1. 简介 2. 相关工作  2.1 视觉语言预训练  2.2 视觉语言生成  3. 方