本文主要是介绍【文字超分辨率】TextZoom: Scene Text Image Super-Resolution in the Wild 阅读笔记,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!
🌟Paper: Scene Text Image Super-Resolution in the Wild
🌟Code: TextZoom
📖Abstract
低分辨率文本图像经常出现在自然场景中,例如手机拍摄的文档。 识别低分辨率的文本图像具有挑战性,因为它们通常丢失了详细的内容信息,从而导致识别精度较差。一个直观的解决方案是引入超分辨率(SR)技术作为预处理手段。 但是,以前的单图像超分辨率(SISR)方法是在合成的低分辨率图像上进行训练的(例如Bicubic下采样),这种方法很简单,但是不适合真正的低分辨率文本识别。为此,本文提出了一个称为TextZoom的真实场景文本SR数据集。它包含成对的真实低分辨率和高分辨率图像,这些图像由具有不同焦距的相机捕获,它比合成数据更具真实性和挑战性。【更模糊】
SynLR是由BICUBIC下采样得到的;RealLR是通过调节相机焦距拍摄的。
文章提出了一个新的文本超分辨率网络,称为TSRN,共包含三个模块。
(1)提出了一个顺序残差块来提取文本图像的顺序信息。
(2)提出了boundary-aware损失来增强(锐化)字符边界。
(3)提出了一个中央对齐模块来缓解TextZoom中的对齐错误问题。
在TextZoom上进行的大量实验表明,与合成SR数据相比,TSRN大大提高了CRNN的识别精度,提高了13%以上,而ASTER和MORAN的识别率提高了近9.0%。 此外,在提高TextZoom中LR图像的识别精度方面,TSRN明显优于7种最新的SR方法。 例如,在ASTER和CRNN的识别精度上,它比LapSRN分别高出5%和8%。文章的结果表明,野外的低分辨率文本识别远未解决,因此需要更多的研究工作。
📖Introduction
场景文本识别是计算机视觉中一项基本且重要的任务,因为它通常是许多与文本相关的应用程序的关键步骤,包括文档检索,卡片识别,车牌识别等。
下表是TextZoom的统计信息。 测试集分为3个不同的子集:简单,中等和困难。 识别精度通过ASTER进行测试。 可以看到,LR图像的识别精度随着难度的增加而降低。 我们的主要目的是通过超分辨率提高LR图像的识别精度。
在本文中,作者提出了一个成对的场景文本SR数据集,称为TextZoom,这是第一个真实文本SR的数据集。 以前的超分辨率方法通过简单地应用退化(如双三次插值或模糊核)来生成HR图像对应的LR。 但是,真实的模糊场景文本图像在退化过程具有很大的可变性。场景文本具有任意形状,分布式照明和不同的背景,因此,其超分辨率更具挑战性。
我们的数据集具有三个主要优势。
(1)该数据集有很好的注释。 我们提供了文本图像的方向,文本内容和原始焦距。
(2)数据集包含来自不同自然场景的丰富文本,包括街景,图书馆,商店,
这篇关于【文字超分辨率】TextZoom: Scene Text Image Super-Resolution in the Wild 阅读笔记的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!