合合TextIn团队发布 - 文档图像多模态大模型技术发展、探索与应用

本文主要是介绍合合TextIn团队发布 - 文档图像多模态大模型技术发展、探索与应用,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

合合信息TextIn(Text Intelligence)团队在2023年12月31日参与了中国图象图形学学会青年科学家会议 - 垂直领域大模型论坛。在会议上,丁凯博士分享了文档图像大模型的思考与探索,完整阐述了多模态大模型在文档图像领域的发展与探索,并表达了对未来发展路径和应用场景潜力的看法。

目录

  • 一、合合TextIn(Text Intelligence)研究团队
    • 1.1 研究团队介绍
    • 1.2 研究方向介绍
    • 1.3 TextIn产品发布
  • 二、合合TextIn团队对GPT-4V在文档领域的表现看法
    • 2.1 很强
      • 支持多种场景的文字识别
      • 支持手写和公式识别
      • 支持表格识别
      • 支持卡证、票据识别
    • 2.2 但还不够
  • 三、合合TextIn团队在文档图像多模态大模型领域最新研究成果
    • 3.1 像素级OCR统一模型 UPOCR: Towards Unified Pixel-Level OCR Interface
    • 3.2 OCR大一统模型相关研究
  • 四、合合TextIn团队对LLM在文档领域应用的探索
    • 4.1 检索增强生成(RAG)和文档问答是LLM在文档领域最常见和最广泛的应用之一
    • 4.2 合合TextIn团队文档图像识别与分析产品发布
  • 五、文档图像多模态大模型发展未来趋势
  • 六、京东卡抽奖!

一、合合TextIn(Text Intelligence)研究团队

1.1 研究团队介绍

合合TextIn(Text Intelligence)研究团队,经过16年的专注和深耕于智能文档处理领域,已经在智能文档图像处理、文档解析与识别、版面分析与还原、文档信息抽取与理解、文档安全等全方位的智能文档处理(Intelligent Document Processing)技术上取得显著成就。这一团队不仅获得了117个国内外发明专利,还在16项顶级AI竞赛中获得了世界冠军,对智能文档领域做出了杰出贡献。他们发布的名片全能王、扫描全能王和TextIn智能文档处理云平台textin.com正为全球的用户和企业提供卓越服务。

1.2 研究方向介绍

尽管大模型技术,特别是GPT4-V Gemini等新技术的快速发展,已经极大地推动了技术界的进步,但领域内的核心问题依然存在。在智能文档处理(IDP)领域,有四个主要问题仍然是合合TextIn团队关注的重点。随着大模型技术的出现和发展,我们对技术的期望已经升级,寻求更高效、更精准的解决方案来应对这些长期存在的挑战。

file

合合TextIn团队在智能文档处理技术领域进行了广泛而深入的研究,涵盖了文档图像分析与预处理、文档解析与识别、版面分析与还原、文档信息抽取与理解、AI安全以及知识化、存储检索和管理等多个关键技术。这些技术的研究不仅彰显了团队的专业能力,而且取得了丰富的成果,极大地推动了智能文档处理领域的发展。

file

1.3 TextIn产品发布

合合TextIn团队推出了TextIn智能文档处理云平台,一个创新性的解决方案,旨在将他们的研究成果以多样化的形式提供给全球用户和企业。通过访问textin.com,用户可以体验到这个平台如何高效、智能地处理文档,从而满足各种文档管理需求。
file

二、合合TextIn团队对GPT-4V在文档领域的表现看法

2023年12月31日,合合TextIn团队丁凯博士参加中国图象图形学学会青年科学家会议 - 垂直领域大模型论坛,在论坛上充分展现了GPT-4V在文档领域的表现。

OpenAI最近发布了GPT-4V(ision),这是一个划时代的大型多模态模型(LMM),它代表了GPT-4在多模态交互方面的重大进步。GPT-4V不仅处理文本,还整合了图像和声音等多种数据类型的输入,显著提升了模型的理解和推理能力。丁凯博士在介绍中强调,与传统方法相比,GPT-4V能够进行更全面的文档和图像分析。它不依赖预定义的规则,而是通过学习大量数据来捕捉复杂的上下文关系和特征表示。这种方法在理解和处理多模态内容方面表现出优越性,能够同时处理文本和图像信息,提供更全面和准确的结果。此外,GPT-4V的架构和训练方式具有高度的灵活性和可扩展性,可根据不同任务和需求进行调整。相比之下,传统的数据处理方法往往局限于特定的算法和流程,难以适应多变的应用场景。GPT-4V的推出不仅标志着OpenAI在多模态技术领域的新突破,也为推动通用智能的发展开辟了新道路。

file

2.1 很强

GPT4-V多模态大模型大幅度提升了AI技术在文档分析与识别领域的能力边界,端到端实现了文档的识别到理解的全过程。支持端到端解决识别和理解问题,认知能力强,支持识别和理解的文档元素类型远超传统IDP算法。

丁凯博士在会议中展示了GPT-4V在智能文档处理(IDP)领域的强大表现:

支持多种场景的文字识别

file

支持手写和公式识别

file

支持表格识别

file

支持卡证、票据识别

file

2.2 但还不够

丁凯博士在会议中展示了GPT-4V在IDP领域的评测结果,表达虽然看到了其强大的能力,但是在OCR精度距离SOTA有较大差距,以及长文档依赖外部的OCR/文档解析引擎。

GPT-4V,尽管在认知领域展现潜能,却在智能文档处理任务中遭遇技术障碍。丁凯博士强调,该模型面临“幻觉现象”——不当地将文字内容与图像细节相结合,导致判断失误和内容产生偏差,特别是在处理手写中文诗歌时尤为明显。一项对GPT-4V在光学字符识别(OCR)能力的综合评估表明,尽管它能有效处理拉丁字符并适应不同分辨率的图像,但在解析多语言文本和复杂视觉场景时仍面临挑战。此外,模型运行的高成本和持续迭代的复杂性也对其广泛应用构成了阻碍。因此,专用OCR系统在这一领域仍具备关键价值。

多模态大型模型在密集文本领域的应用受限,主要由于其侧重于基于文本的语义分析,而在视觉数据解析方面能力不足。例如,面对细粒度文本处理(如细小的签名、复杂的古文字),由于受视觉感知和文字辨识能力的限制,传统的语言模型无法有效应对。为了突破这些限制,需要进一步的研究探索和技术创新。

file

三、合合TextIn团队在文档图像多模态大模型领域最新研究成果

合合信息与华南理工大学联合实验室共同研究,针对多模态大模型目前针对OCR仍无法达到SOTA的问题,提出了两个在文档图像多模态大模型上的研究成果。

3.1 像素级OCR统一模型 UPOCR: Towards Unified Pixel-Level OCR Interface

第一个研究成果是UPOCR,一种文档图像像素级多任务处理的统一模型。模型如图所示,UPOCR是一个通用的OCR模型,引入可学习的Prompt来指导基于ViT的编码器-解码器架构,统一了不同像素级OCR任务的范式、架构和训练策略。 UPOCR的通用能力在文本去除、文本分割和篡改文本检测任务上得到了广泛验证,显著优于现有的专门模型。

  • UPOCR是一个通用的OCR模型,统一了不同像素级OCR任务的范式、架构和训练策略
  • 引入可学习的任务提示来指导基于ViT的编码器-解码器架构
  • UPOCR的通用能力在文本擦除、文本分割和篡改文本检测任务上得到了广泛验证,显著优于现有的专门模型

file

这是文本擦除、分割、及篡改检测与现有子任务的SOTA方法的可视化对比图,可见方法取得了更优异的效果
file

3.2 OCR大一统模型相关研究

丁凯博士在会议中展示了另外一个研究成果,针对OCR大一统模型相关的研究范式概述,以及近期OCR大一统模型相关的研究成果

  • 将文档图像识别分析的各种任务定义为序列预测的形式
  • 文本,段落,版面分析,表格,公式等等
  • 通过不同的prompt引导模型完成不同的OCR任务
  • 支持篇章级的文档图像识别分析,输出Markdown/HTML/Text等标准格式
  • 将文档理解相关的工作交给LLM去做

file

四、合合TextIn团队对LLM在文档领域应用的探索

丁凯博士在会议分享的最后,展示了合合TextIn团队对于多模态大模型在文档领域应用的范式与应用洞见,该范式包含以下几个关键步骤:
新闻简报:

  1. 文档图像输入:技术首先处理文档的图像形式,包括扫描的纸质文件、拍照的照片,或电子文档的页面图像。

  2. 文档识别与版面分析:在此阶段,系统会识别文档中的文字、图片、表格等元素,并分析版面布局。这包括标题、段落、页眉和页脚,有助于理解文档的总体结构和内容组织。

  3. 文档切分和召回:技术将文档切分,分离不同部分的内容以便进一步处理。此外,实施召回策略来检索和提取特定元素,如标题、关键字和段落内容。

  4. 大语言模型问答应用:最后阶段,大语言模型问答用于文档中信息提取的问答任务。通过训练模型理解文档内容,实现智能理解和交互式查询,以回答用户提出的问题。

file

4.1 检索增强生成(RAG)和文档问答是LLM在文档领域最常见和最广泛的应用之一

file

4.2 合合TextIn团队文档图像识别与分析产品发布

可与LLM做上下游的衔接和应用。该产品可对文档的图片版面进行分析,输出图、表、列表、文本、水印、页眉页脚、印章、公式的位置及文字,并输出分版块内容的OCR识别结果,支持52种语言,手写、印刷体混排多种场景。访问链接:https://www.textin.com/market/detail/document

file

五、文档图像多模态大模型发展未来趋势

最新技术动态显示,以GPT4-V为代表的多模态大模型技术在文档识别与分析领域取得了显著进展,为传统的图像文档处理技术带来了重大挑战。虽然大模型技术极大地推进了该领域的发展,但仍有许多待解决的问题,需要进一步的研究和探索。这些问题包括如何更好地结合大模型的能力来优化图像文档处理。展望未来,感知与认知的结合预计将为用户带来更智能化、高效率和个性化的文档处理体验。随着技术的不断进步,这种结合在商业、教育、科研等多个领域的应用将变得越来越重要。我们期待合合信息在模式识别、深度学习、图像处理和自然语言处理等领域的深入发展,以技术创新惠及更广泛的人群。

  • GPT4-V 为代表的多模态大模型技术极大的推进了文档识别与分析领域的技术进展,也给传统的IDP技术带来了挑战
  • 大模型并没有完全解决IDP领域面临的问题,很多问题值得我们研究
  • 如何结合大模型的能力,更好的解决IDP的问题,值得我们做更多的思考和探索

六、京东卡抽奖!

填写问卷抽奖!赠送10人50元京东卡!合合TextIn团队提供给大家福利!

https://qywx.wjx.cn/vm/exOhu6f.aspx
在这里插入图片描述

这篇关于合合TextIn团队发布 - 文档图像多模态大模型技术发展、探索与应用的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/652866

相关文章

C++对象布局及多态实现探索之内存布局(整理的很多链接)

本文通过观察对象的内存布局,跟踪函数调用的汇编代码。分析了C++对象内存的布局情况,虚函数的执行方式,以及虚继承,等等 文章链接:http://dev.yesky.com/254/2191254.shtml      论C/C++函数间动态内存的传递 (2005-07-30)   当你涉及到C/C++的核心编程的时候,你会无止境地与内存管理打交道。 文章链接:http://dev.yesky

乐鑫 Matter 技术体验日|快速落地 Matter 产品,引领智能家居生态新发展

随着 Matter 协议的推广和普及,智能家居行业正迎来新的发展机遇,众多厂商纷纷投身于 Matter 产品的研发与验证。然而,开发者普遍面临技术门槛高、认证流程繁琐、生产管理复杂等诸多挑战。  乐鑫信息科技 (688018.SH) 凭借深厚的研发实力与行业洞察力,推出了全面的 Matter 解决方案,包含基于乐鑫 SoC 的 Matter 硬件平台、基于开源 ESP-Matter SDK 的一

一份LLM资源清单围观技术大佬的日常;手把手教你在美国搭建「百万卡」AI数据中心;为啥大模型做不好简单的数学计算? | ShowMeAI日报

👀日报&周刊合集 | 🎡ShowMeAI官网 | 🧡 点赞关注评论拜托啦! 1. 为啥大模型做不好简单的数学计算?从大模型高考数学成绩不及格说起 司南评测体系 OpenCompass 选取 7 个大模型 (6 个开源模型+ GPT-4o),组织参与了 2024 年高考「新课标I卷」的语文、数学、英语考试,然后由经验丰富的判卷老师评判得分。 结果如上图所

大学湖北中医药大学法医学试题及答案,分享几个实用搜题和学习工具 #微信#学习方法#职场发展

今天分享拥有拍照搜题、文字搜题、语音搜题、多重搜题等搜题模式,可以快速查找问题解析,加深对题目答案的理解。 1.快练题 这是一个网站 找题的网站海量题库,在线搜题,快速刷题~为您提供百万优质题库,直接搜索题库名称,支持多种刷题模式:顺序练习、语音听题、本地搜题、顺序阅读、模拟考试、组卷考试、赶快下载吧! 2.彩虹搜题 这是个老公众号了 支持手写输入,截图搜题,详细步骤,解题必备

持久层 技术选型如何决策?JPA,Hibernate,ibatis(mybatis)

转自:http://t.51jdy.cn/thread-259-1-1.html 持久层 是一个项目 后台 最重要的部分。他直接 决定了 数据读写的性能,业务编写的复杂度,数据结构(对象结构)等问题。 因此 架构师在考虑 使用那个持久层框架的时候 要考虑清楚。 选择的 标准: 1,项目的场景。 2,团队的技能掌握情况。 3,开发周期(开发效率)。 传统的 业务系统,通常业

大语言模型(LLMs)能够进行推理和规划吗?

大语言模型(LLMs),基本上是经过强化训练的 n-gram 模型,它们在网络规模的语言语料库(实际上,可以说是我们文明的知识库)上进行了训练,展现出了一种超乎预期的语言行为,引发了我们的广泛关注。从训练和操作的角度来看,LLMs 可以被认为是一种巨大的、非真实的记忆库,相当于为我们所有人提供了一个外部的系统 1(见图 1)。然而,它们表面上的多功能性让许多研究者好奇,这些模型是否也能在通常需要系

创新、引领、发展——SAMPE中国2024年会在京盛大开幕

绿树阴浓夏日长,在这个色彩缤纷的季节,SAMPE中国2024年会暨第十九届国际先进复合材料制品原材料、工装及工程应用展览会在中国国际展览中心(北京朝阳馆)隆重开幕。新老朋友共聚一堂,把酒话桑麻。 为期4天的国际学术会议以“先进复合材料,引领产业创新与可持续化发展”为主题,设立了34个主题分会场,其中包括了可持续化会场、国际大学生会场、中法复合材料制造技术峰会三个国际会场和女科技工作者委员会沙龙,

亮相WOT全球技术创新大会,揭秘火山引擎边缘容器技术在泛CDN场景的应用与实践

2024年6月21日-22日,51CTO“WOT全球技术创新大会2024”在北京举办。火山引擎边缘计算架构师李志明受邀参与,以“边缘容器技术在泛CDN场景的应用和实践”为主题,与多位行业资深专家,共同探讨泛CDN行业技术架构以及云原生与边缘计算的发展和展望。 火山引擎边缘计算架构师李志明表示:为更好地解决传统泛CDN类业务运行中的问题,火山引擎边缘容器团队参考行业做法,结合实践经验,打造火山

自制的浏览器主页,可以是最简单的桌面应用,可以把它当成备忘录桌面应用

自制的浏览器主页,可以是最简单的桌面应用,可以把它当成备忘录桌面应用。如果你看不懂,请留言。 完整代码: <!DOCTYPE html><html lang="zh-CN"><head><meta charset="UTF-8"><meta name="viewport" content="width=device-width, initial-scale=1.0"><ti

探索蓝牙协议的奥秘:用ESP32实现高质量蓝牙音频传输

蓝牙(Bluetooth)是一种短距离无线通信技术,广泛应用于各种电子设备之间的数据传输。自1994年由爱立信公司首次提出以来,蓝牙技术已经经历了多个版本的更新和改进。本文将详细介绍蓝牙协议,并通过一个具体的项目——使用ESP32实现蓝牙音频传输,来展示蓝牙协议的实际应用及其优点。 蓝牙协议概述 蓝牙协议栈 蓝牙协议栈是蓝牙技术的核心,定义了蓝牙设备之间如何进行通信。蓝牙协议