withvisual专题

From Two to One: A New Scene Text Recognizer withVisual Language Modeling Network

原文链接：https://arxiv.org/abs/2108.09661 开源代码：https://github.com/wangyuxin87/VisionLAN 摘要在本文中，我们抛弃了占主导地位的复杂语言模型，重新思考了场景文本识别中的语言学习过程。不同于以往将视觉和语言信息放在两个独立的结构中考虑的方法，我们提出了一种视觉语言建模网络(VisionLAN)，它将视觉和语言信息作为