本文主要是介绍IncepText——自然场景中文本检测论文阅读,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!
文章目录
- 摘要
- 介绍
- 相关工作
- 提出的方法
- 3.1 overview
- 3.2 Inception-Text
- 3.3 deformable PSPOI Pooling
- 3.4 标签和损失函数
- 实验
摘要
介绍
文本检测的难点是有多种变化的场景:如街景,邮局,室内等,还有各种各样的前景文字和背景物体,各种光亮、模糊和方向。
文字检测算法的发展
- 传统特征方法:MSER(2010),FASText(2015)
- 基于CNN 的方法
- CTPN(2016)RRPN(2017)都是基于Faster rcnn
- EAST,DDR,直接回归的方法
本文主要采用FCIS(2016)的实例分割的思想,
创新点
- 设计了一个Inception-Text 来处理文本的多尺度
- 在每个分支的最后添加了一个deformable卷积层 来处理多方向问题
- 用deformable PSROI pooling替换了FCIS中的PSROI pooling,实验结果显示,其在分类效果上更好。
注意: 在ICDAR2015, RCTW-17 and MSRA-TD500数据集上都达到了state-of-the-art,而且没用额外的数据
相关工作
提出的方法
3.1 overview
以FCIS为基础用Inception-Text和deformable PSROI pooling做了拓展
以ResNet-50为特征提取主网络
为了检测小文本,需要考虑浅层的特征。于是resnet4和resnet5上采样2倍和resnet3相加融合,然后接inception-Text模块。
再用 deformable PSROI 替换PSROI pooling layer
测试时
利用masks和分类分数得到文本区域,然后做非极大值抑制。
针对每个未被抑制的box,通过iou>0.5找到其相似boxes,在做一起做一个融合,用分类的分数做权重。
最后用最小区域生成算法,得到文字区域 (opencv中好像有函数)
3.2 Inception-Text
主要在Inception模块上进行的修改
- 1×1 conv进行降维
- n×n conv变成n×1和1×nconv
- 每个分支加上了deformable conv
- 向Inception-ResNet V2一样,使用了1×1的shortcut层
说明deformable卷积优势
在场景文本检测中,任意文本方向是最具挑战性的问题之一,可变形卷积允许采样网格自由变形,而不是标准卷积中的规则采样网格。这种变形受到输入特征的制约,因此当输入文本旋转时,接受域就会进行调整
3.3 deformable PSPOI Pooling
PSROI池(Dai et al., 2016)是常规ROI池的一种变体,它在位置敏感的评分地图上运行,没有下面的加权层。位置敏感属性为分类和对象位置编码有用的空间信息。
没细看
3.4 标签和损失函数
四边形中的都是正样本,外的就是负样本
回归任务的目标是虚线的矩形,分割任务的目标是灰色的掩码。
哦,懂了,应该是采用的Faster rcnn two stage的方案,RPN部分分类和回归定位到虚线的矩形框,RCNN部分再是灰色的掩码和虚线的矩形框部分。瞎猜的
五个部分的loss
实验
比EAST高了很多,值得复现。
这篇关于IncepText——自然场景中文本检测论文阅读的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!