FOTS端到端OCR论文阅读

本文主要是介绍FOTS端到端OCR论文阅读，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

3.2 文字识别部分

采用RoIRotate将文字区域输出为固定高度，不同长度的图片，并保持长宽比不变。示意图如下：
在这里插入图片描述
同时这里采用的是双线性插值方式实现的（有点像roi align）。
同时论文提到将特征映射填充到最大宽度，在损失函数中忽略填充部分。
此外，不像图像分类，文字识别对检测结果非常敏感，一点的检测误差就会切掉几个像素，这对识别网络是非常有害的。所以训练的时候用的是标注数据；测试时采用阈值和NMS提取出文字区域

3.4 文字识别分支

网络结构

采用了VGG式的堆叠方式
池化操作只在高度方向做，宽度方向没有
采用了一层有256个隐含节点的LSTM层
LSTM层和最后输出的线性层之间有dropout
采用CTC作为识别部分的loss函数

3.5 应用细节

用ImageNet上预训练的模型初始化
用Synth800k数据集训练10个epochs
数据增强部分
- 图像的长边resize到[640,2560]之间
- 图像随机旋转[-10,10]
- 高度随机变换比例[0.8,1.2]，宽度不变
- 从原图中随机crop出640×640的区域
困难样本挖掘技术
- 分类：512个难的负样本+512个随机负样本+所有的正样本
- box回归：128个难的正样本+128个随机正样本

这里最关键的就是怎么判定样本的难易程度