ERNIE-VIL 2.0: MULTI-VIEW CONTRASTIVE LEARNING FOR IMAGE-TEXT PRE-TRAINING

本文主要是介绍ERNIE-VIL 2.0: MULTI-VIEW CONTRASTIVE LEARNING FOR IMAGE-TEXT PRE-TRAINING，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

论文：https://arxiv.org/pdf/2301.12597.pdf
代码：GitHub - PaddlePaddle/ERNIE: Official implementations for various pre-training models of ERNIE-family, covering topics of Language Understanding & Generation, Multimodal Understanding & Generation, and beyond.

引言：

正如人可以通过不同的描述或图片去认识真实世界一样，图像或文本同样存在多个不同的视角，单一的视角不能很好的构建模态之间的关系
本文提出一种多视角的多模态对比学习方法，通过构建多个视角信息去增强模态间/模态内的特征表示。
模型优势：
- 首次提出多视角跨模态对比学习方法，提升特征鲁棒性
- 引入实体标签文本序列，有效缩小图像-文本之间的语义鸿沟，简化大规模噪声数据上跨模态对齐的学习。

模型结构：

模块组成：

双塔结构
一个Image Encoder，抽取图像特征
一个Text Encoder，抽取文本特征

模块训练：

训练数据：图像文本pair对
构造了包括图像和文本在内，总共六个视角特征进行训练：
- 图像增强：对图像进行数据增强两次，如随机crop、图片抖动等
- 文本增强：对caption文本进行两次dropout，得到两个不同视角的文本表征
- 特殊文本序列：由固定prompt（如：该图片包含...）和实体标签短语组成（预训练实体检测器得到）的句子，同样进行两次dropout，得到两个不同视角的文本表征。
  - 好处：1.特殊文本序列可看作包含粗粒度信息的文本单元，用于连接caption中的细粒度语义和图像中的抽象视觉概念，从而达到简化多模态对齐的目的。2.提供很多caption中遗漏的信息。3.图像特征需要包含更多信息。