[ECCV2018][端到端文字识别]

本文主要是介绍[ECCV2018][端到端文字识别]，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

SIGAI特约作者
谢恩泽
同济计算机研三在读，face++ 研究实习生

主要研究方向为目标检测，语义分割等其中包括文字检测和识别

其它机器学习、深度学习算法的全面系统讲解可以阅读《机器学习-原理、算法与应用》，清华大学出版社，雷明著，由SIGAI公众号作者倾力打造。

前言：这篇文章是第一个做弯曲文本的端到端检测+识别。

传统的方法将文字检测和文字识别分为两个分开的部分，即输入一张图，先进行文字检测，检测出文字的位置，再进行文字识别，即对检测出的文字抠出来并送入识别网络。这样一方面比较费时间，第二没有共享检测和识别的特征。

一什么是端到端检测识别？

即只需要一个网络，输入一张图片，同时输出检测和识别的结果，相比传统先检测再识别的好处在于

(1)速度更快，因为流程更简单

(2)效果更好，由于多任务学习使得网络能提取更为鲁棒的特征，每一个任务都可以有一定程度的提高。

端到端训练文字检测和识别可以使得这两个任务都能得到提高，使得梯度能从这两个分支分别回传到主干网络，能使得定位更加精准并减少错误样本的检测。

传统做法大多数分为以下四步

(1)检测出旋转的文字框

(2)并做一个仿射变换

(3)在feature map上将文字区域抠出来

(4)用crnn或者类似sequence的方法识别。

这种方法的缺点在于文字可能检测的不够精准，这样对于识别来说就会造成一定困难，比如

这篇关于[ECCV2018][端到端文字识别]的文章就介绍到这儿，希望我们推荐的文章对编程师们有所帮助！