【前沿技术杂谈:多模态文档基础模型】使用多模态文档基础模型彻底改变文档 AI

本文主要是介绍【前沿技术杂谈:多模态文档基础模型】使用多模态文档基础模型彻底改变文档 AI,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

【前沿技术杂谈:多模态文档基础模型】使用多模态文档基础模型彻底改变文档 AI

    • 从文本到多模态模型:文档 AI 逐渐发展新技能。
    • 行业领先的型号
    • Document AI 的下一步:开发通用和统一框架

您是否曾经被包含不同信息(如应付账款、日期、商品数量、单价和金额)的发票所淹没?在处理重要的商业合同时,您是否担心小数点后点错误,造成无法估量的经济损失?您是否在寻找顶尖人才时阅读过大量简历?商务人士必须处理所有这些任务和各种各样的文件,包括保险单、业务报告、电子邮件和运输订单。

在数字时代,公司通常必须将所有这些文档以及各种图表和图像数字化,以简化其程序。然而,手动数字化文档是一种低效的做法,因为许多扫描文档的质量参差不齐,而网页和电子文档可能具有不同的布局。我们如何有效地提取、组织和分析这些不同文档中的信息?答案是文档人工智能技术,它将员工和公司从这种重复而乏味的工作中解放出来。

在这里插入图片描述

具有不同布局和格式的业务文档的扫描图像

文档AI主要是指利用AI技术,以丰富的排版格式从网页、数字文档或扫描文档中自动提取、分类和理解信息。它是自然语言处理(NLP)和计算机视觉(CV)交叉的重要研究领域。深度学习技术的激增极大地推动了文档人工智能的发展,在视觉信息提取和文档布局分析,以及文档视觉问答和文档图像分类等方面都有显著的性能提升。Document AI 在帮助企业节省运营成本、提高员工效率和减少人为错误方面也发挥着重要作用。

从文本到多模态模型:文档 AI 逐渐发展新技能。

Microsoft Research Asia的Document AI系列研究始于2019年。在对深度学习的深入研究中,研究人员希望从公开可用的文档中提取有用的信息,以建立一个可以支持深度学习模型预训练任务的知识库。然而,由于现实世界的文档不包含结构化数据,因此从杂乱的文档中提取结构化文本信息是研究人员必须解决的第一个问题。

为了解决这个问题,Microsoft Research Asia提出了UniLM,这是一种统一的预训练语言模型,可以读取文档并自动生成内容。UniLM模型在自然语言理解和生成任务方面取得了很好的成果。此外,研究人员还为该系统提供了通过开发跨语言预训练模型(InfoXLM)将英语NLP任务扩展到多种语言的功能。在现实世界中,文档不仅包含文本信息,还包含布局和样式信息(例如,字体、颜色和下划线)。因此,仅处理文本信息的模型无法应用于需要多模态程序的实际场景。

2019年底,Microsoft亚洲研究院推出了LayoutLM,这是一个结合了NLP和CV技术的通用预训练文档基础模型。这是第一个可以在文档级预训练的单个框架中同时学习文本和布局信息的模型。LayoutLM 对来自 IIT-CDIP Test Collection 1.0 数据集的大约 1100 万张扫描文档图像进行了预训练。它还可以通过大规模使用未标记的扫描文档图像以自我监督的方式轻松训练,在表单和收据理解以及图像分类任务方面优于其他模型。 在一个名为LayoutLMv2的更新模型中,研究人员随后将视觉信息纳入预训练过程,以提高其图像理解能力。这个新模型成功地将文档文本、布局和视觉信息统一到一个可以学习跨模态交互的端到端框架中。

在这里插入图片描述

记录Microsoft亚洲研究院的AI研究进展

此外,研究人员还开发了 LayoutXLM,这是一种基于 LayoutLMv2 的多模态预训练模型,但可以执行多语言文档理解,以满足使用各种语言的不同用户的需求。LayoutXLM 模型不仅集成了来自多语言文档的文本和视觉信息,还利用了它们的局部不变性。LayoutXLM 可以处理近 200 种语言的文档。为了准确评估预训练模型在多语言文档理解方面的性能,研究人员还创建了多语言表单理解基准数据集XFUND,该数据集涵盖七种语言(即中文、日语、西班牙语、法语、意大利语、德语和葡萄牙语)。

与包含扫描文档图像和数字生成的 PDF 文件的固定布局文档不同,许多基于标记语言的文档(如基于 HTML 的网页和基于 XML 的 Office 文档)通常是实时呈现的。出于这个原因,研究人员开发了 MarkupLM 模型来处理基于标记语言的文档的源代码,并在没有额外计算资源的情况下理解它们。实验结果表明,MarkupLM明显优于以往基于固定布局的方法,具有较强的实用性。

Microsoft Research Asia继续迭代Document AI技术,使其能够处理不同类型的数据,包括文本,布局和图像信息。今年,Microsoft Research Asia发布了LayoutLMv3,这是最新的多模态预训练模型,可以实现统一的蒙版文本和图像建模。LayoutLMv3 是第一个通过屏蔽文本和图像的预测来缓解文本和图像多模态表示学习之间的差异的模型。此外,LayoutLMv3 经过预训练以实现词块对齐,这意味着它可以通过预测单词的相应图像块是否被屏蔽来学习跨模态对齐。在模型架构方面,LayoutLMv3 不依赖预训练的 CNN 骨干来提取视觉特征。但是,它直接利用文档图像补丁,从而大大节省了参数,消除了区域注释,并避免了复杂的文档预处理。这些简单统一的架构和训练目标使 LayoutLMv3 成为通用预训练模型,适用于以文本为中心和以图像为中心的文档 AI 任务。

Microsoft Research Asia合伙人研究经理Furu Wei表示:“Layout(X)LM系列模型在我们推动基础模型的’大融合’和跨任务、语言和模态的大规模自监督预训练的基础研究中发挥着至关重要的作用。

在这里插入图片描述

LayoutLMv3 的体系结构和预训练目标

“我们看到了一种不同模式大融合的研究趋势,来自不同领域的科学家正在研究统一模型,包括NLP、CV等。LayoutLM的前两个版本专注于语言处理,而LayoutLMv3的优势在于它可以处理NLP和CV模式的任务,在计算机视觉领域取得了重大突破,“Microsoft亚洲研究院首席研究经理崔磊说。

GitHub 链接: https://github.com/microsoft/unilm

行业领先的型号

Layout(X)LM 系列模型在利用大规模未标记数据以及将文本和图像与多模态、多页面和多语言内容集成方面处于领先地位。特别是 LayoutLMv3 的通用性和优越性,使其成为文档 AI 行业研究的标杆模型。例如,Layout(X)LM 系列模型已被许多领先公司的许多 Document AI 产品采用,尤其是在机器人流程自动化 (RPA) 领域。

“Microsoft Research Asia不仅在建模创新和基准数据集方面取得了显著成果,而且还开发了许多应用程序,允许用户仅使用一个模型架构执行多项任务。学术界和工业界的许多同事都在使用 Layout(X)LM 进行有意义的科学探索并推进文档 AI,“崔磊说。

Microsoft 在该领域处于领先地位,一系列 Microsoft Research Asia 的文档 AI 模型现已用于许多与 Microsoft 相关的产品,例如 Azure 表单识别器、AI Builder 和 Microsoft Syntex。“我们很高兴能与Microsoft亚洲研究院的这些顶尖研究人员合作。文档基础模型大大提高了我们的开发和应用效率,并为文档AI的普及做出了贡献。我们期待未来在这一领域取得更多令人兴奋的进展,“Microsoft Azure AI的合作伙伴工程经理Cha Zhang说。

Document AI 的下一步:开发通用和统一框架

随着时间的推移,文档人工智能的技术进步使其在金融、医疗保健、能源、政府服务和物流等各个行业的应用,为这些行业的人们节省了大量时间,因为他们现在可以避免手动处理。例如,在金融行业,Document AI实现了财务报表分析、智能决策分析、发票和订单的自动化信息提取;在医疗保健行业,它促进了病例数字化,分析了医学文献和病例的相关性,并提出了潜在的治疗方案。

然而,Microsoft Research Asia不会固步自封,崔磊表示。其研究人员正计划在三个方面进一步推进Document AI的基础研究:增加模型规模、扩大训练数据和统一框架。“NLP 中的 GPT-3 表明,大型语言模型可以显着提高性能。当前 Document AI 模型的训练数据不到 Web 规模数据的十分之一,因此仍有改进的余地。在未来的研究中,我们将专注于扩大数据和模型的规模,以实现跨文档AI框架的统一。

这篇关于【前沿技术杂谈:多模态文档基础模型】使用多模态文档基础模型彻底改变文档 AI的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/697283

相关文章

Ilya-AI分享的他在OpenAI学习到的15个提示工程技巧

Ilya(不是本人,claude AI)在社交媒体上分享了他在OpenAI学习到的15个Prompt撰写技巧。 以下是详细的内容: 提示精确化:在编写提示时,力求表达清晰准确。清楚地阐述任务需求和概念定义至关重要。例:不用"分析文本",而用"判断这段话的情感倾向:积极、消极还是中性"。 快速迭代:善于快速连续调整提示。熟练的提示工程师能够灵活地进行多轮优化。例:从"总结文章"到"用

AI绘图怎么变现?想做点副业的小白必看!

在科技飞速发展的今天,AI绘图作为一种新兴技术,不仅改变了艺术创作的方式,也为创作者提供了多种变现途径。本文将详细探讨几种常见的AI绘图变现方式,帮助创作者更好地利用这一技术实现经济收益。 更多实操教程和AI绘画工具,可以扫描下方,免费获取 定制服务:个性化的创意商机 个性化定制 AI绘图技术能够根据用户需求生成个性化的头像、壁纸、插画等作品。例如,姓氏头像在电商平台上非常受欢迎,

大模型研发全揭秘:客服工单数据标注的完整攻略

在人工智能(AI)领域,数据标注是模型训练过程中至关重要的一步。无论你是新手还是有经验的从业者,掌握数据标注的技术细节和常见问题的解决方案都能为你的AI项目增添不少价值。在电信运营商的客服系统中,工单数据是客户问题和解决方案的重要记录。通过对这些工单数据进行有效标注,不仅能够帮助提升客服自动化系统的智能化水平,还能优化客户服务流程,提高客户满意度。本文将详细介绍如何在电信运营商客服工单的背景下进行

中文分词jieba库的使用与实景应用(一)

知识星球:https://articles.zsxq.com/id_fxvgc803qmr2.html 目录 一.定义: 精确模式(默认模式): 全模式: 搜索引擎模式: paddle 模式(基于深度学习的分词模式): 二 自定义词典 三.文本解析   调整词出现的频率 四. 关键词提取 A. 基于TF-IDF算法的关键词提取 B. 基于TextRank算法的关键词提取

使用SecondaryNameNode恢复NameNode的数据

1)需求: NameNode进程挂了并且存储的数据也丢失了,如何恢复NameNode 此种方式恢复的数据可能存在小部分数据的丢失。 2)故障模拟 (1)kill -9 NameNode进程 [lytfly@hadoop102 current]$ kill -9 19886 (2)删除NameNode存储的数据(/opt/module/hadoop-3.1.4/data/tmp/dfs/na

Hadoop数据压缩使用介绍

一、压缩原则 (1)运算密集型的Job,少用压缩 (2)IO密集型的Job,多用压缩 二、压缩算法比较 三、压缩位置选择 四、压缩参数配置 1)为了支持多种压缩/解压缩算法,Hadoop引入了编码/解码器 2)要在Hadoop中启用压缩,可以配置如下参数

Makefile简明使用教程

文章目录 规则makefile文件的基本语法:加在命令前的特殊符号:.PHONY伪目标: Makefilev1 直观写法v2 加上中间过程v3 伪目标v4 变量 make 选项-f-n-C Make 是一种流行的构建工具,常用于将源代码转换成可执行文件或者其他形式的输出文件(如库文件、文档等)。Make 可以自动化地执行编译、链接等一系列操作。 规则 makefile文件

从去中心化到智能化:Web3如何与AI共同塑造数字生态

在数字时代的演进中,Web3和人工智能(AI)正成为塑造未来互联网的两大核心力量。Web3的去中心化理念与AI的智能化技术,正相互交织,共同推动数字生态的变革。本文将探讨Web3与AI的融合如何改变数字世界,并展望这一新兴组合如何重塑我们的在线体验。 Web3的去中心化愿景 Web3代表了互联网的第三代发展,它基于去中心化的区块链技术,旨在创建一个开放、透明且用户主导的数字生态。不同于传统

AI一键生成 PPT

AI一键生成 PPT 操作步骤 作为一名打工人,是不是经常需要制作各种PPT来分享我的生活和想法。但是,你们知道,有时候灵感来了,时间却不够用了!😩直到我发现了Kimi AI——一个能够自动生成PPT的神奇助手!🌟 什么是Kimi? 一款月之暗面科技有限公司开发的AI办公工具,帮助用户快速生成高质量的演示文稿。 无论你是职场人士、学生还是教师,Kimi都能够为你的办公文

使用opencv优化图片(画面变清晰)

文章目录 需求影响照片清晰度的因素 实现降噪测试代码 锐化空间锐化Unsharp Masking频率域锐化对比测试 对比度增强常用算法对比测试 需求 对图像进行优化,使其看起来更清晰,同时保持尺寸不变,通常涉及到图像处理技术如锐化、降噪、对比度增强等 影响照片清晰度的因素 影响照片清晰度的因素有很多,主要可以从以下几个方面来分析 1. 拍摄设备 相机传感器:相机传