本文主要是介绍[ECCV2018][端到端文字识别],希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!
SIGAI特约作者
谢恩泽同济计算机研三在读,face++ 研究实习生
主要研究方向为目标检测,语义分割等其中包括文字检测和识别
其它机器学习、深度学习算法的全面系统讲解可以阅读《机器学习-原理、算法与应用》,清华大学出版社,雷明著,由SIGAI公众号作者倾力打造。
- 书的购买链接
- 书的勘误,优化,源代码资源
前言:这篇文章是第一个做弯曲文本的端到端检测+识别。
传统的方法将文字检测和文字识别分为两个分开的部分,即输入一张图,先进行文字检测,检测出文字的位置,再进行文字识别,即对检测出的文字抠出来并送入识别网络。这样一方面比较费时间,第二没有共享检测和识别的特征。
一 什么是端到端检测识别?
即只需要一个网络,输入一张图片,同时输出检测和识别的结果,相比传统先检测再识别的好处在于
(1)速度更快,因为流程更简单
(2)效果更好,由于多任务学习使得网络能提取更为鲁棒的特征,每一个任务都可以有一定程度的提高。
端到端训练文字检测和识别可以使得这两个任务都能得到提高,使得梯度能从这两个分支分别回传到主干网络,能使得定位更加精准并减少错误样本的检测。
传统做法大多数分为以下四步
(1)检测出旋转的文字框
(2)并做一个仿射变换
(3)在feature map上将文字区域抠出来
(4)用crnn或者类似sequence的方法识别。
这种方法的缺点在于文字可能检测的不够精准,这样对于识别来说就会造成一定困难,比如
这篇关于[ECCV2018][端到端文字识别]的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!