广告行业中那些趣事系列55:文本和图像领域大一统的UNIMO模型详解

本文主要是介绍广告行业中那些趣事系列55:文本和图像领域大一统的UNIMO模型详解,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

导读:本文是“数据拾光者”专栏的第五十五篇文章,这个系列将介绍在广告行业中自然语言处理和推荐系统实践。本篇主要介绍了百度在多模态学习领域的成果UNIMO模型,对多模态学习感兴趣并且希望应用到项目实践的小伙伴可能有所帮助。

欢迎转载,转载请注明出处以及链接,更多关于自然语言处理、推荐系统优质内容请关注如下频道。

知乎专栏:数据拾光者

公众号:数据拾光者

摘要:本篇主要介绍了百度在多模态学习领域的成果UNIMO模型。首先是背景介绍,针对当前主流多模态学习模型存在训练语料少和模态缺失导致模型效果下降的问题,百度提出了UNIMO统一学习模型;然后重点介绍了UNIMO模型,主要包括UNIMO如何解决训练数据稀少和模态缺失问题、UNIMO模型输入、跨模态对比学习的UNIMO、UNIMO中视觉学习和文本学习以及UNIMO模型效果;最后介绍了UNIMO开源项目工程。对多模态学习感兴趣并且希望应用到项目实践的小伙伴可能有所帮助。

下面主要按照如下思维导图进行学习分享:

63263cae76a3ceb23f977074f145ccfd.png

01

背景介绍

上一篇《广告行业中那些趣事系列54:从理论到实践学习当前超火的多模态学习模型》介绍了当前比较主流的多模态学习模型,包括VisualBERT、Unicoder-VL、VL-BERT和ViLT等,这一类模型虽然在多模态领域效果较好,但是也存在明显的缺点:一方面,训练数据只能用图像-文本对数据,而实际情况是高质量的图像-文本对数据比较少,导致模型可用的训练语料较少,限制模型的通用性和效果;另一方面,这一类模型在模态缺失的情况下效果下降非常明显。针对传统多模态学习模型存在的问题,业界希望得到一个真正意义上的多模态学习模型,可以统一学习文本和图像知识,不仅能很好的应对模态缺失的问题,而且能更好的利用图像和文本的知识超过单模模型。

02

详解UNIMO模型

2.1 初识UNIMO

UNIMO是百度2022年3月在《UNIMO: Towards Unified-Modal Understanding and Generation via Cross-Modal Contrastive Learning》论文中提出来的,核心是提出了一个统一模态预训练框架,利用海量的文本和图像数据,通过跨模态的对比学习方法将文本和图像映射到统一空间中,从而提升视觉和文本的理解能力

2.2 UNIMO解决训练数据稀少和模态缺失问题

前面说过传统的多模态学习模型使用的训练语料是文本-图像对数据,虽然高质量的文本-图像对数据非常少,但是单模的文本数据和图像数据非常多,如果可以利用海量的单模数据,将文本和图像映射到统一空间中,提升视觉和文本的理解能力,则可以大大提升多模态学习模型的效果。举例说明,对于下图中的问答任务来说,根据图像的内容来回答给定的问题,通过单模文本语料数据(比如wikipedia)额外提供的知识可以大大提升模型在问答任务中的效果。下面是问答任务使用单模文本语料辅助任务示例:

09d80adbf013bb455e9bf424f9107642.png

图1 问答任务使用单模文本语料辅助任务示例

为了使用海量文本和图像数据,同时解决模态缺失带来的模型效果下降问题,UNIMO提出了统一模态预训练框架,可以同时支持文本、图像和文本-图像对三种不同类型的数据输入,使用统一堆叠的Transformer模型,将文本和图像表示映射在统一表示空间中,下面是UNIMO统一模态预训练框架图:

3033779864ccdfb49d4866f6dc3b2d53.png

图2 UNIMO统一模态预训练框架图

2.3 UNIMO模型输入

为了将文本和图像表示映射在统一表示空间中,UNIMO模型输入主要包括三部分内容:

  • 文本输入:UNIMO文本输入和BERT类似,通过字节对编码(BPE, Byte Pair Encoder)将文本转化成token embedding,开始和结束分别添加【CLS】和【SEP】标志,得到序列{h[CLS], hw1, ..., hwn, h[SEP]};

  • 图像输入:将图片采用Faster R-CNN算法提取兴趣图像区域的特征,通过自注意力机制得到上下文相关的区域特征embedding表征序列{h[IMG], hv1, ..., hvt};

  • 文本-图像对输入:和传统多模态学习模型类似,将文本-图像对数据(V,W)分别得到文本对应的textual embed和图像对应的visual embed,然后进行拼接得到序列{[IMG], v1, ..., vt, [CLS], w1, ..., wn, [SEP]},获取文本-图像对数据的embedding如下图所示:

4fe4dee492793e7ec9a747a6551b6def.png

图3 获取文本-图像对数据的embedding

2.4 跨模态对比学习的UNIMO模型

UNIMO使用了海量的单模和多模数据解决了语料规模受限问题,同时为了更好的兼容单模和多模数据,将对比学习应用到跨模态场景中。关于对比学习的相关介绍小伙伴可以看下之前写过的一篇文章《广告行业中那些趣事系列34:风头正劲的对比学习和项目实践》。传统的基于负例的对比学习主要是通过batch内采样获取负例,这样只能学习到粗粒度的文本和图像相似特征,而UNIMO将对比学习泛化到了跨模态层面,通过文本改写和文本/图像检索来提升正负例的质量和数量,下面是UNIMO跨模态对比学习介绍:

9e9c49a22022582c00b59eb0674fafc7.png

图4 UNIMO跨模态对比学习介绍

UNIMO模型提出的跨模态对比学习(Cross-Modal Contrastive Learning,CMCL)核心思想是将含义相同的文本-图像对数据作为正例,含义不同的文本-图像对数据作为负例,通过构造相似实例和不相似实例获得一个表示学习模型,通过这个模型可以让相似的实例在投影的向量空间中尽可能的接近,不相似的实例尽可能的远离。UNIMO为了提升CMCL中的正负例的质量,主要使用了文本改写和文本/图像检索两种策略:

(1)文本改写

为了增加CMCL中正负例的质量,UNIMO将图片的描述从语句、短语和词三个粒度进行改写。从语句粒度来看,通过回译技术增加正例,将图片对应的描述翻译成多条语义一致语言表示形式略有不同的样本从而达到样本增强的目的。同时基于tfidf相似度检索算法得到字面词汇重复率高但是语义不同的样本来增加负例;从短语和词粒度来看,随机替换语句中的object、attribute、relation和对应的组合信息从而增加负例;

(2)文本/图像检索

为了进一步增加CMCL正负例的质量,UNIMO从海量的单模数据中检索相似文本或者图像,从而组成弱相关文本-图像对数据用于对比学习,通过这种方式可以增加大量的训练语料。

2.5 UNIMO中视觉学习和文本学习

UNIMO相比于传统多模态学习模型来说,不仅使用了多模数据,而且还使用了图像和文本等单模数据。对于单模数据来说,UNIMO通过检索技术获取相似图像和文本构成弱相关文本-图像对数据用于对比学习增加训练语料,同时对大量的单模数据进行视觉学习和文本学习,通过视觉学习和文本学习可以避免遗忘问题,迫使模型适应文本和图像单模数据源,提升多模态学习模型的泛化能力。

(1)视觉学习

UNIMO中的视觉学习和BERT的MLM任务一致,将多个兴趣区域的图像随机进行掩码操作,使用未被掩码的图像区域去还原被掩码的图像。

(2)文本学习

文本学习也采用和BERT的MLM任务一致,随机掩码一部分连续的token,利用上下文还原被掩码的token。不仅如此,为了更好的支持理解类和生成类任务,UNIMO文本学习的损失函数包括两部分内容,包括双向预测(Bidirectional prediction)和 序列生成(Seq2Seq Generation)两种损失函数。

UNIMO在模型训练的时候是图像、文本和图像-文本对三种数据源混合训练,也就是说一个batch内同时包含三种数据,论文中设置的混合数据比例为1:1:5。

2.6 UNIMO模型效果

UNIMO分别在单模文本理解、单模文本生成、多模理解和多模生成任务上验证模型效果,下面是在各大任务上使用的数据集:

  • 单模文本生成任务:生成式对话问答数据集CoQA、问题生成数据集SQuAD-1.1、摘要数据集CNNDM和句子压缩数据集Gigaword

  • 单模文本理解任务:情感分类数据集SST-2、自然语言推断数据集MNLI、语言可接受度分类数据集CoLA和语义相关性数据集STS-B

  • 多模理解任务:经典的视觉问答数据集VQA-2.0、视觉蕴含SNLI-VE和图文检索数据集Flickr30K

  • 多模生成任务:MS-COCO图像描述生成

在多个多模任务中,UNIMO达到了SOTA效果,下面是UNIMO在多模任务中的模型效果图:

8944637570e6fdc1a9d6aa0abc03172a.png

图5 UNIMO在多模任务中的模型效果

UNIMO不仅在多模任务中表现出色,而且在单模任务中也达到了不错的效果,下面是UNIMO在单模任务中的模型效果:

11928e2726e917511f4ed628629f3b43.png

图6 UNIMO在单模任务中的模型效果

下面通过可视化展示了UNIMO模型在文本和图像检索任务中的模型效果,可以看出UNIMO相比于baseline来说对于细节的把握和理解更加出色:

fb0ed4739c2f022a42301fa98a3c65b0.png

图6 UNIMO模型在文本和图像检索任务中的模型效果

03

UNIMO开源项目工程

UNIMO项目目前已经开源,github地址如下:

https://github.com/PaddlePaddle/Research/tree/master/NLP/UNIMO

UNIMO项目需要以下依赖:

python 3.7.4
paddlepaddle-gpu==1.8.4.post107
pyrouge==0.1.3 regex==2020.7.14

百度目前已经训练了四个版本的UNIMO预训练模型,小伙伴可以在训练好的模型上微调满足下游任务:

abff2dbc3f36153e828f22c7a3b16c8d.png

图7 百度公开的4种UNIMO预训练模型

04

总结及反思

本篇主要介绍了百度在多模态学习领域的成果UNIMO模型。首先是背景介绍,针对当前主流多模态学习模型存在训练语料少和模态缺失导致模型效果下降的问题,百度提出了UNIMO统一学习模型;然后重点介绍了UNIMO模型,主要包括UNIMO解决训练数据稀少和模态缺失问题、UNIMO模型输入、跨模态对比学习的UNIMO、UNIMO中视觉学习和文本学习以及UNIMO模型效果;最后介绍了UNIMO开源项目工程。对多模态学习感兴趣并且希望应用到项目实践的小伙伴可能有所帮助。

最新最全的文章请关注我的微信公众号或者知乎专栏:数据拾光者。

码字不易,欢迎小伙伴们点赞和分享。

这篇关于广告行业中那些趣事系列55:文本和图像领域大一统的UNIMO模型详解的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/223720

相关文章

Spring Security基于数据库验证流程详解

Spring Security 校验流程图 相关解释说明(认真看哦) AbstractAuthenticationProcessingFilter 抽象类 /*** 调用 #requiresAuthentication(HttpServletRequest, HttpServletResponse) 决定是否需要进行验证操作。* 如果需要验证,则会调用 #attemptAuthentica

Spring Security 从入门到进阶系列教程

Spring Security 入门系列 《保护 Web 应用的安全》 《Spring-Security-入门(一):登录与退出》 《Spring-Security-入门(二):基于数据库验证》 《Spring-Security-入门(三):密码加密》 《Spring-Security-入门(四):自定义-Filter》 《Spring-Security-入门(五):在 Sprin

大模型研发全揭秘:客服工单数据标注的完整攻略

在人工智能(AI)领域,数据标注是模型训练过程中至关重要的一步。无论你是新手还是有经验的从业者,掌握数据标注的技术细节和常见问题的解决方案都能为你的AI项目增添不少价值。在电信运营商的客服系统中,工单数据是客户问题和解决方案的重要记录。通过对这些工单数据进行有效标注,不仅能够帮助提升客服自动化系统的智能化水平,还能优化客户服务流程,提高客户满意度。本文将详细介绍如何在电信运营商客服工单的背景下进行

基于人工智能的图像分类系统

目录 引言项目背景环境准备 硬件要求软件安装与配置系统设计 系统架构关键技术代码示例 数据预处理模型训练模型预测应用场景结论 1. 引言 图像分类是计算机视觉中的一个重要任务,目标是自动识别图像中的对象类别。通过卷积神经网络(CNN)等深度学习技术,我们可以构建高效的图像分类系统,广泛应用于自动驾驶、医疗影像诊断、监控分析等领域。本文将介绍如何构建一个基于人工智能的图像分类系统,包括环境

Andrej Karpathy最新采访:认知核心模型10亿参数就够了,AI会打破教育不公的僵局

夕小瑶科技说 原创  作者 | 海野 AI圈子的红人,AI大神Andrej Karpathy,曾是OpenAI联合创始人之一,特斯拉AI总监。上一次的动态是官宣创办一家名为 Eureka Labs 的人工智能+教育公司 ,宣布将长期致力于AI原生教育。 近日,Andrej Karpathy接受了No Priors(投资博客)的采访,与硅谷知名投资人 Sara Guo 和 Elad G

OpenHarmony鸿蒙开发( Beta5.0)无感配网详解

1、简介 无感配网是指在设备联网过程中无需输入热点相关账号信息,即可快速实现设备配网,是一种兼顾高效性、可靠性和安全性的配网方式。 2、配网原理 2.1 通信原理 手机和智能设备之间的信息传递,利用特有的NAN协议实现。利用手机和智能设备之间的WiFi 感知订阅、发布能力,实现了数字管家应用和设备之间的发现。在完成设备间的认证和响应后,即可发送相关配网数据。同时还支持与常规Sof

Retrieval-based-Voice-Conversion-WebUI模型构建指南

一、模型介绍 Retrieval-based-Voice-Conversion-WebUI(简称 RVC)模型是一个基于 VITS(Variational Inference with adversarial learning for end-to-end Text-to-Speech)的简单易用的语音转换框架。 具有以下特点 简单易用:RVC 模型通过简单易用的网页界面,使得用户无需深入了

科研绘图系列:R语言扩展物种堆积图(Extended Stacked Barplot)

介绍 R语言的扩展物种堆积图是一种数据可视化工具,它不仅展示了物种的堆积结果,还整合了不同样本分组之间的差异性分析结果。这种图形表示方法能够直观地比较不同物种在各个分组中的显著性差异,为研究者提供了一种有效的数据解读方式。 加载R包 knitr::opts_chunk$set(warning = F, message = F)library(tidyverse)library(phyl

透彻!驯服大型语言模型(LLMs)的五种方法,及具体方法选择思路

引言 随着时间的发展,大型语言模型不再停留在演示阶段而是逐步面向生产系统的应用,随着人们期望的不断增加,目标也发生了巨大的变化。在短短的几个月的时间里,人们对大模型的认识已经从对其zero-shot能力感到惊讶,转变为考虑改进模型质量、提高模型可用性。 「大语言模型(LLMs)其实就是利用高容量的模型架构(例如Transformer)对海量的、多种多样的数据分布进行建模得到,它包含了大量的先验

图神经网络模型介绍(1)

我们将图神经网络分为基于谱域的模型和基于空域的模型,并按照发展顺序详解每个类别中的重要模型。 1.1基于谱域的图神经网络         谱域上的图卷积在图学习迈向深度学习的发展历程中起到了关键的作用。本节主要介绍三个具有代表性的谱域图神经网络:谱图卷积网络、切比雪夫网络和图卷积网络。 (1)谱图卷积网络 卷积定理:函数卷积的傅里叶变换是函数傅里叶变换的乘积,即F{f*g}