withvisual专题

From Two to One: A New Scene Text Recognizer withVisual Language Modeling Network

原文链接:https://arxiv.org/abs/2108.09661 开源代码:https://github.com/wangyuxin87/VisionLAN 摘要 在本文中,我们抛弃了占主导地位的复杂语言模型,重新思考了场景文本识别中的语言学习过程。不同于以往将视觉和语言信息放在两个独立的结构中考虑的方法,我们提出了一种视觉语言建模网络(VisionLAN),它将视觉和语言信息作为