本文主要是介绍【深度学习】OCR,TrOCR,transformer 端对端,论文,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!
TrOCR: 基于Transformer的光学字符识别,使用预训练模型
摘要
文本识别是文档数字化领域中的一个长期存在的研究问题。现有的方法通常基于用于图像理解的CNN和用于字符级文本生成的RNN。此外,通常还需要另一个语言模型作为后处理步骤来提高整体准确性。在本文中,我们提出了一种端到端的文本识别方法,名为TrOCR,它使用预训练的图像Transformer和文本Transformer模型,充分利用Transformer架构来实现图像理解和单词片段级别的文本生成。TrOCR模型简单但有效,可以通过大规模的合成数据进行预训练,并使用人工标注的数据集进行微调。实验表明,TrOCR模型在印刷体、手写体和场景文本识别任务上优于当前的最先进模型。TrOCR模型和代码已公开发布在https://aka.ms/trocr。
1. 引言
光学字符识别 (OCR) 是将印刷、手写或印刷文本图像转换为机器编码文本的电子或机械过程,无论是来自扫描的文档、文档的照片、场景照片还是叠加在图像上的字幕文本。通常,OCR系统包含两个主要模块:文本检测模块和文本识别模块。文本检测旨在定位文本图像中的所有文本块,无论是单词级别还是文本行级别。文本检测任务通常被视为一个对象检测问题,其中可以应用常规对象检测模型
这篇关于【深度学习】OCR,TrOCR,transformer 端对端,论文的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!