clip4str专题

【深度学习】OCR，CLIP4STR论文，多模态OCR

CLIP4STR：基于预训练视觉语言模型的简单场景文本识别基线 CLIP4STR：基于预训练视觉语言模型的简单场景文本识别基线摘要预训练的视觉语言模型（VLMs）已成为各种下游任务的基础模型。然而，场景文本识别（STR）方法仍然倾向于依赖仅在单一模态（视觉模态）上预训练的骨干网络，尽管VLMs具有成为强大场景文本识别器的潜力。例如，CLIP可以稳健地识别图像中的常规（水平）和非规则（旋转