首页
Python
Java
前端
数据库
Linux
Chatgpt专题
开发者工具箱
clip4str专题
【深度学习】OCR,CLIP4STR论文,多模态OCR
CLIP4STR:基于预训练视觉语言模型的简单场景文本识别基线 CLIP4STR:基于预训练视觉语言模型的简单场景文本识别基线 摘要 预训练的视觉语言模型(VLMs)已成为各种下游任务的基础模型。然而,场景文本识别(STR)方法仍然倾向于依赖仅在单一模态(视觉模态)上预训练的骨干网络,尽管VLMs具有成为强大场景文本识别器的潜力。例如,CLIP可以稳健地识别图像中的常规(水平)和非规则(旋转
阅读更多...