【深度学习】OCR，CLIP4STR论文，多模态OCR

本文主要是介绍【深度学习】OCR，CLIP4STR论文，多模态OCR，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

CLIP4STR：基于预训练视觉语言模型的简单场景文本识别基线

摘要

预训练的视觉语言模型（VLMs）已成为各种下游任务的基础模型。然而，场景文本识别（STR）方法仍然倾向于依赖仅在单一模态（视觉模态）上预训练的骨干网络，尽管VLMs具有成为强大场景文本识别器的潜力。例如，CLIP可以稳健地识别图像中的常规（水平）和非规则（旋转、曲线、模糊或被遮挡的）文本。基于这些优点，我们将CLIP转化为场景文本识别器，并介绍了CLIP4STR，这是一个基于CLIP图像和文本编码器的简单而有效的STR方法。它具有两个编码器-解码器分支：视觉分支和跨模态分支。视觉分支基于视觉特征提供初步预测，而跨模态分支通过解决视觉特征和文本语义之间的差异来优化这一预测。为了充分利用这两个分支的能力，我们设计了一个双预测与优化解码方案用于推理。我们从模型规模、预训练数据和训练数据三个方面对CLIP4STR进行了扩展，在11个STR基准上取得了最先进的性能。此外，我们提供了一个全面的实证研究，以增强对CLIP适应STR的理解。我们认为，我们的方法为未来VLMs的STR研究建立了一个简单而强大的基线。