【深度学习】OCR，TrOCR，transformer 端对端，论文

本文主要是介绍【深度学习】OCR，TrOCR，transformer 端对端，论文，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

TrOCR: 基于Transformer的光学字符识别，使用预训练模型

摘要

文本识别是文档数字化领域中的一个长期存在的研究问题。现有的方法通常基于用于图像理解的CNN和用于字符级文本生成的RNN。此外，通常还需要另一个语言模型作为后处理步骤来提高整体准确性。在本文中，我们提出了一种端到端的文本识别方法，名为TrOCR，它使用预训练的图像Transformer和文本Transformer模型，充分利用Transformer架构来实现图像理解和单词片段级别的文本生成。TrOCR模型简单但有效，可以通过大规模的合成数据进行预训练，并使用人工标注的数据集进行微调。实验表明，TrOCR模型在印刷体、手写体和场景文本识别任务上优于当前的最先进模型。TrOCR模型和代码已公开发布在https://aka.ms/trocr。

1. 引言

光学字符识别 (OCR) 是将印刷、手写或印刷文本图像转换为机器编码文本的电子或机械过程，无论是来自扫描的文档、文档的照片、场景照片还是叠加在图像上的字幕文本。通常，OCR系统包含两个主要模块：文本检测模块和文本识别模块。文本检测旨在定位文本图像中的所有文本块，无论是单词级别还是文本行级别。文本检测任务通常被视为一个对象检测问题，其中可以应用常规对象检测模型

这篇关于【深度学习】OCR，TrOCR，transformer 端对端，论文的文章就介绍到这儿，希望我们推荐的文章对编程师们有所帮助！