【文字超分辨率】TextZoom: Scene Text Image Super-Resolution in the Wild 阅读笔记

本文主要是介绍【文字超分辨率】TextZoom: Scene Text Image Super-Resolution in the Wild 阅读笔记,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

在这里插入图片描述
🌟Paper: Scene Text Image Super-Resolution in the Wild
🌟Code: TextZoom


📖Abstract

低分辨率文本图像经常出现在自然场景中,例如手机拍摄的文档。 识别低分辨率的文本图像具有挑战性,因为它们通常丢失了详细的内容信息,从而导致识别精度较差。一个直观的解决方案是引入超分辨率(SR)技术作为预处理手段。 但是,以前的单图像超分辨率(SISR)方法是在合成的低分辨率图像上进行训练的(例如Bicubic下采样),这种方法很简单,但是不适合真正的低分辨率文本识别。为此,本文提出了一个称为TextZoom的真实场景文本SR数据集。它包含成对的真实低分辨率和高分辨率图像,这些图像由具有不同焦距的相机捕获,它比合成数据更具真实性和挑战性。【更模糊】在这里插入图片描述


SynLR是由BICUBIC下采样得到的;RealLR是通过调节相机焦距拍摄的。
文章提出了一个新的文本超分辨率网络,称为TSRN,共包含三个模块。
(1)提出了一个顺序残差块来提取文本图像的顺序信息。
(2)提出了boundary-aware损失来增强(锐化)字符边界。
(3)提出了一个中央对齐模块来缓解TextZoom中的对齐错误问题。

在TextZoom上进行的大量实验表明,与合成SR数据相比,TSRN大大提高了CRNN的识别精度,提高了13%以上,而ASTER和MORAN的识别率提高了近9.0%。 此外,在提高TextZoom中LR图像的识别精度方面,TSRN明显优于7种最新的SR方法。 例如,在ASTER和CRNN的识别精度上,它比LapSRN分别高出5%和8%。文章的结果表明,野外的低分辨率文本识别远未解决,因此需要更多的研究工作。


📖Introduction

场景文本识别是计算机视觉中一项基本且重要的任务,因为它通常是许多与文本相关的应用程序的关键步骤,包括文档检索,卡片识别,车牌识别等。

下表是TextZoom的统计信息。 测试集分为3个不同的子集:简单,中等和困难。 识别精度通过ASTER进行测试。 可以看到,LR图像的识别精度随着难度的增加而降低。 我们的主要目的是通过超分辨率提高LR图像的识别精度。
在这里插入图片描述
在本文中,作者提出了一个成对的场景文本SR数据集,称为TextZoom,这是第一个真实文本SR的数据集。 以前的超分辨率方法通过简单地应用退化(如双三次插值或模糊核)来生成HR图像对应的LR。 但是,真实的模糊场景文本图像在退化过程具有很大的可变性。场景文本具有任意形状,分布式照明和不同的背景,因此,其超分辨率更具挑战性。

我们的数据集具有三个主要优势。
(1)该数据集有很好的注释。 我们提供了文本图像的方向,文本内容和原始焦距。
(2)数据集包含来自不同自然场景的丰富文本,包括街景,图书馆,商店,

这篇关于【文字超分辨率】TextZoom: Scene Text Image Super-Resolution in the Wild 阅读笔记的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/588321

相关文章

分辨率三兄弟LPI、DPI 和 PPI有什么区别? 搞清分辨率的那些事儿

《分辨率三兄弟LPI、DPI和PPI有什么区别?搞清分辨率的那些事儿》分辨率这个东西,真的是让人又爱又恨,为了搞清楚它,我可是翻阅了不少资料,最后发现“小7的背包”的解释最让我茅塞顿开,于是,我... 在谈到分辨率时,我们经常会遇到三个相似的缩写:PPI、DPI 和 LPI。虽然它们看起来差不多,但实际应用

JAVA智听未来一站式有声阅读平台听书系统小程序源码

智听未来,一站式有声阅读平台听书系统 🌟 开篇:遇见未来,从“智听”开始 在这个快节奏的时代,你是否渴望在忙碌的间隙,找到一片属于自己的宁静角落?是否梦想着能随时随地,沉浸在知识的海洋,或是故事的奇幻世界里?今天,就让我带你一起探索“智听未来”——这一站式有声阅读平台听书系统,它正悄悄改变着我们的阅读方式,让未来触手可及! 📚 第一站:海量资源,应有尽有 走进“智听

高效录音转文字:2024年四大工具精选!

在快节奏的工作生活中,能够快速将录音转换成文字是一项非常实用的能力。特别是在需要记录会议纪要、讲座内容或者是采访素材的时候,一款优秀的在线录音转文字工具能派上大用场。以下推荐几个好用的录音转文字工具! 365在线转文字 直达链接:https://www.pdf365.cn/ 365在线转文字是一款提供在线录音转文字服务的工具,它以其高效、便捷的特点受到用户的青睐。用户无需下载安装任何软件,只

【学习笔记】 陈强-机器学习-Python-Ch15 人工神经网络(1)sklearn

系列文章目录 监督学习:参数方法 【学习笔记】 陈强-机器学习-Python-Ch4 线性回归 【学习笔记】 陈强-机器学习-Python-Ch5 逻辑回归 【课后题练习】 陈强-机器学习-Python-Ch5 逻辑回归(SAheart.csv) 【学习笔记】 陈强-机器学习-Python-Ch6 多项逻辑回归 【学习笔记 及 课后题练习】 陈强-机器学习-Python-Ch7 判别分析 【学

系统架构师考试学习笔记第三篇——架构设计高级知识(20)通信系统架构设计理论与实践

本章知识考点:         第20课时主要学习通信系统架构设计的理论和工作中的实践。根据新版考试大纲,本课时知识点会涉及案例分析题(25分),而在历年考试中,案例题对该部分内容的考查并不多,虽在综合知识选择题目中经常考查,但分值也不高。本课时内容侧重于对知识点的记忆和理解,按照以往的出题规律,通信系统架构设计基础知识点多来源于教材内的基础网络设备、网络架构和教材外最新时事热点技术。本课时知识

论文阅读笔记: Segment Anything

文章目录 Segment Anything摘要引言任务模型数据引擎数据集负责任的人工智能 Segment Anything Model图像编码器提示编码器mask解码器解决歧义损失和训练 Segment Anything 论文地址: https://arxiv.org/abs/2304.02643 代码地址:https://github.com/facebookresear

数学建模笔记—— 非线性规划

数学建模笔记—— 非线性规划 非线性规划1. 模型原理1.1 非线性规划的标准型1.2 非线性规划求解的Matlab函数 2. 典型例题3. matlab代码求解3.1 例1 一个简单示例3.2 例2 选址问题1. 第一问 线性规划2. 第二问 非线性规划 非线性规划 非线性规划是一种求解目标函数或约束条件中有一个或几个非线性函数的最优化问题的方法。运筹学的一个重要分支。2

【C++学习笔记 20】C++中的智能指针

智能指针的功能 在上一篇笔记提到了在栈和堆上创建变量的区别,使用new关键字创建变量时,需要搭配delete关键字销毁变量。而智能指针的作用就是调用new分配内存时,不必自己去调用delete,甚至不用调用new。 智能指针实际上就是对原始指针的包装。 unique_ptr 最简单的智能指针,是一种作用域指针,意思是当指针超出该作用域时,会自动调用delete。它名为unique的原因是这个

查看提交历史 —— Git 学习笔记 11

查看提交历史 查看提交历史 不带任何选项的git log-p选项--stat 选项--pretty=oneline选项--pretty=format选项git log常用选项列表参考资料 在提交了若干更新,又或者克隆了某个项目之后,你也许想回顾下提交历史。 完成这个任务最简单而又有效的 工具是 git log 命令。 接下来的例子会用一个用于演示的 simplegit

记录每次更新到仓库 —— Git 学习笔记 10

记录每次更新到仓库 文章目录 文件的状态三个区域检查当前文件状态跟踪新文件取消跟踪(un-tracking)文件重新跟踪(re-tracking)文件暂存已修改文件忽略某些文件查看已暂存和未暂存的修改提交更新跳过暂存区删除文件移动文件参考资料 咱们接着很多天以前的 取得Git仓库 这篇文章继续说。 文件的状态 不管是通过哪种方法,现在我们已经有了一个仓库,并从这个仓