本文主要是介绍TextSnake: A Flexible Representation for Detecting Text of Arbitrary Shapes,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!
Author
旷视科技Megvii(Face++) 文本检测
Paper:TextSnake: A Flexible Representation for Detecting Text of Arbitrary Shapes, ECCV 2018
Idea
c u r v e d curved curved t e x t text text弯曲形状的文本检测。传统的方法受到描述文本表述的限制(如 F i g . 1 Fig.1 Fig.1的水平矩形框,旋转矩形框,任意四边形框),在处理弯曲文本实例时表现差强人意,因此本文提出更灵活的场景文本表示方法, T e x t S n a k e TextSnake TextSnake,可以水平、多方向、弯曲表示,以中心线为中心,有序重叠的圆盘序列组成,每个圆盘具有可变的半径 r r r和方向 θ θ θ。
Datasets
Total-Text、SCUT-CTW1500、ICDAR2015、MSRA-TD500等文本检测数据集
Attributes
- TextSnake,定义了一种弯曲文本实例表示形式
- 基于上述表示,提出了一种有效的场景文本检测的方法
- 在弯曲文本数据集(Total-Text和SCUT-CTW1500)上,提出算法达到了SOTA
Related Work
- 在深度学习之前,两种代表性的算法是 S W T SWT SWT和 M S E R MSER MSER
- 深度学习的方法出现后,分为两种:基于回归和基于分割的模型。
基于回归的文本检测方法是受到物体检测框架启发产生的,如TextBoxes,基于 F a s t e r − R C N N Faster-RCNN Faster−RCNN的 R R P N RRPN RRPN, E A S T EAST EAST和 D e e p R e g r e s s i o n Deep Regression DeepRegression。
基于分割的文本检测算法使用语义分割和 F C N FCN FCN作为参考,如 M S E R MSER MSER,文本实例分类等。但这些方法都忽略了文本的形状问题,没有考虑弯曲形状的文本处理。 - 本文参考 [ 29 ] [ 45 ] [29][45] [29][45]提出了自己的 i d e a idea idea,可以表示和识别任意形状的文本。
TextSnake Math Representation
TCL文本中线,绿色,TR文本区域,黄色。每个文本实例 t t t可表示为序列 S ( t ) = D 0 , D 1 … D i … D n S(t)={D0,D1…Di…Dn} S(t)=D0,D1…Di…Dn,第 i i i个圆盘用 D i = ( c , r , θ ) Di=(c,r, θ) Di=(c,r,θ)表示, c c c是中心点, r r r是半径, θ θ θ是圆盘中心点连线和水平的夹角。
Framework and Network
流程框架:输入一张图片,经过网络结构FCN+FPN,得到7个特征图,TR*TCL得到Masked TCL,表示在TR区域里提取的TCL,经过Disjoint Set操作得到实例分割结果,与半径角度特征使用Striding算法得到最终文本预测区域。
FCN网络结构:使用VGG16/19提取特征,使用公示1、2进行特征合并,输出层是第五个合并后得到的特征图进行上采样及两层卷基层产生的像素级预测输出层 P = [ b a t c h s i z e , 7 , h , w ] P=[batchsize,7,h,w] P=[batchsize,7,h,w],7个通道分别是 T R ∗ 2 , T C L ∗ 2 , r , c o s θ , s i n θ TR*2,TCL*2,r,cosθ,sinθ TR∗2,TCL∗2,r,cosθ,sinθ。
loss function
Training
使用TensorFlow1.3.0框架,在SynthText数据集预训练,其他数据集fine-tuned,使用Adam优化算法,lr预训练时取e-3,fine-tuned从e-3开始,每5000 iterations衰减为0.8倍。
Results
Inspirations
- 基于disks的文本表示方式非常novel,作者基于textsnake的数据结构设计了一种深度学习结构,有效解决了弯曲文本表示的问题
- Code: princewang1994/TextSnake.pytorch
- Ref: TextSnake: A Flexible Representation for Detecting Text of Arbitrary Shapes
这篇关于TextSnake: A Flexible Representation for Detecting Text of Arbitrary Shapes的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!