本文主要是介绍FOTS端到端OCR论文阅读,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!
3.2 文字识别部分
采用RoIRotate将文字区域输出为固定高度,不同长度的图片,并保持长宽比不变。示意图如下:
同时这里采用的是双线性插值方式实现的(有点像roi align)。
同时论文提到将特征映射填充到最大宽度,在损失函数中忽略填充部分。
此外,不像图像分类,文字识别对检测结果非常敏感,一点的检测误差就会切掉几个像素,这对识别网络是非常有害的。所以训练的时候用的是标注数据;测试时采用阈值和NMS提取出文字区域
3.4 文字识别分支
- 网络结构
采用了VGG式的堆叠方式
池化操作只在高度方向做,宽度方向没有
采用了一层有256个隐含节点的LSTM层
LSTM层和最后输出的线性层之间有dropout
采用CTC作为识别部分的loss函数
3.5 应用细节
- 用ImageNet上预训练的模型初始化
- 用Synth800k数据集训练10个epochs
- 数据增强部分
- 图像的长边resize到[640,2560]之间
- 图像随机旋转[-10,10]
- 高度随机变换比例[0.8,1.2],宽度不变
- 从原图中随机crop出640×640的区域
- 困难样本挖掘技术
- 分类:512个难的负样本+512个随机负样本+所有的正样本
- box回归:128个难的正样本+128个随机正样本
这里最关键的就是怎么判定样本的难易程度
4. 实验
反正就是结果很好,到现在2019-7-19依然很有竞争力。
这篇关于FOTS端到端OCR论文阅读的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!