trocr专题

【深度学习】OCR，TrOCR，transformer 端对端，论文

TrOCR: 基于Transformer的光学字符识别，使用预训练模型摘要文本识别是文档数字化领域中的一个长期存在的研究问题。现有的方法通常基于用于图像理解的CNN和用于字符级文本生成的RNN。此外，通常还需要另一个语言模型作为后处理步骤来提高整体准确性。在本文中，我们提出了一种端到端的文本识别方法，名为TrOCR，它使用预训练的图像Transformer和文本Transformer模型，

TrOCR—基于Transformer的OCR入门

导读本文主要介绍TrOCR：基于Transformer的OCR入门。背景介绍多年来，光学字符识别 (OCR) 出现了多项创新。它对零售、医疗保健、银行和许多其他行业的影响是巨大的。尽管有着悠久的历史和多种最先进的模型，研究人员仍在不断创新。与深度学习的许多其他领域一样，OCR 也看到了变压器神经网络的重要性和影响。如今，我们拥有像TrOCR（Transforme