本文主要是介绍CRNN英文字符识别代码运行测试 | 论文理解 | 【OCR】,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!
CRNN英文字符识别代码运行测试 | 论文理解
- 论文理解
- 环境搭建
- 运行过程如下
- 模型准备
- 项目目录结构
- 测试图片
- 代码运行
- 论文地址
https://arxiv.org/abs/1507.05717
- 所测试代码
https://github.com/meijieru/crnn.pytorch
论文理解
摘要:
基于图像的序列识别一直是计算机视觉领域的一个长期研究课题。在本文中,我们研究了场景文本识别问题,这是基于图像的序列识别中最重要和最具挑战性的任务之一。提出了一种新的神经网络架构,将特征提取、序列建模和转录集成到一个统一的框架中。与之前的场景文本识别系统相比,所提出的架构具有四个独特的特性:
(1)与大多数现有算法的组件分别训练和调整相比,它是端到端可训练的。
(2) 它自然地处理任意长度的序列,不涉及字符分割或水平尺度归一化。
(3) 它不限于任何预定义的词典,并且在无词典和基于词典的场景文本识别任务中都取得了卓越的性能。
(4) 它生成了一个有效但更小的模型,这对于现实世界的应用场景更实用。
(5) 泛化能力强,可用于其它不同的任务
在标准基准上的实验,包括 IIIT-5K、街景文本和 ICDAR 数据集,证明了所提出的算法优于现有技术。此外,所提出的算法在基于图像的乐谱识别任务中表现良好,这显然验证了其通用性。
CRNN 网络结构图
特征序列 和 感受野的 直观理解
认识双向LSTM
原本 Network configuration summary.
环境搭建
- 参照: requirements.txt 文件
lmdb==0.97
numpy==1.17.2
Pillow==6.1.0
six==1.12.0
torch==1.2.0
torchvision==0.4.0
- 一个普通的 pytorch1.2 环境搭建操作,实测 安装 torch1.4 一样可以运行:
conda create -n torch14 python=3.6.6conda activate torch14conda install pytorch==1.4.0 torchvision==0.5.0 cudatoolkit=10.0 -c pytorchpip install opencv-pythonpip install scipypip install thop
运行过程如下
模型准备
项目目录结构
测试图片
代码运行
# 运行命令如下:
CUDA_VISIBLE_DEVICES=2 python demo.py # 输出效果如下loading pretrained model from ./data/crnn.pth
a-----v--a-i-l-a-bb-l-e--- => available
日常水文,多谢查阅
这篇关于CRNN英文字符识别代码运行测试 | 论文理解 | 【OCR】的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!