trocr专题

【深度学习】OCR,TrOCR,transformer 端对端,论文

TrOCR: 基于Transformer的光学字符识别,使用预训练模型 摘要 文本识别是文档数字化领域中的一个长期存在的研究问题。现有的方法通常基于用于图像理解的CNN和用于字符级文本生成的RNN。此外,通常还需要另一个语言模型作为后处理步骤来提高整体准确性。在本文中,我们提出了一种端到端的文本识别方法,名为TrOCR,它使用预训练的图像Transformer和文本Transformer模型,

TrOCR—基于Transformer的OCR入门

导  读     本文主要介绍TrOCR:基于Transformer的OCR入门。   背景介绍     多年来,光学字符识别 (OCR) 出现了多项创新。它对零售、医疗保健、银行和许多其他行业的影响是巨大的。尽管有着悠久的历史和多种最先进的模型,研究人员仍在不断创新。与深度学习的许多其他领域一样,OCR 也看到了变压器神经网络的重要性和影响。如今,我们拥有像TrOCR(Transforme