本文主要是介绍CVPR2017《Detecting Oriented Text in Natural Images by Linking Segments》阅读笔记,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!
前言
本文是对CVPR2017《Detecting Oriented Text in Natural Images by Linking Segments》论文的简要介绍和细节分析。该论文是华中科大白翔组的工作,主要针对自然场景下文本检测模型由char-level到word-level和line-level的检测。
关键词:SSD
、Segment
、Link
、Scene Text Detection
注:编者水平有限,如有谬误,欢迎指正。若要转载,请注明出处,谢谢。
联系方式:
邮箱:yue_zhan@yahoo.com
QQ:1156356625
Introduction
自然场景下的文本检测可以看作一种特殊的目标检测,在模型的第一步,往往需要生成能够足够覆盖单词或者句子的bounding box。但是不同于真实世界的实体,自然场景的文本角度多变、长短不一、间隔不同,普通的目标检测算法不能很好胜任。
所以在目标检测的模型基础上,作者提出了将自然场景文本分解为两个元素:分割 (segment)和连接 (link),二者联立将重复的多尺度字符框连接成单词或者句子。

模型具备以下特点:
- 分割和连接同时进行,不需要分开训练。
- 以SSD为基础模型
- 多尺度融合
- 两种连接类型:1-层内连接 2-跨层连接
模型的思想还是很符合直觉的,其难点是怎样把分割和连接的思想有效转化为模型结构,并且能在代码层面进行实现(同时避免大量造轮子)。
Segment Linking
模型框架:
一些细节:
模型bounding box的表达形式为 ( x b , y b , w b , h b , θ b ) (x_b,y_b,w_b,h_b,\theta_b) (xb,yb,wb,hb,θb),其中 w b , h b w_b,h_b wb,hb是框的中心坐标, θ b \theta_b θb是框的水平夹角(倾斜角)。分割和连接只运用在某些层的feature map上,文中共选用了6层。
segment detection
文中的分割并非是指单一的像素级的分割,而是等同回归框检测+特征层像素分割的的分割。采用了SSD框架中的的default boxes,但是feature map的每个位置上只用一个框作为简化。考虑第 l l l个特征层的尺寸为 w l × h l w_l\times h_l wl×hl,坐标 ( x , y ) (x,y) (x,y)对应的default box中心为 ( x b , y b ) (x_b,y_b) (xb,yb)
x a = w I w l ( x + 0.5 ) (1) x_a=\frac{w_I}{w_l}(x+0.5)\tag{1} xa=wlwI(x+0.5)(1) y a = w I w l ( y + 0.5 ) (2) y_a=\frac{w_I}{w_l}(y+0.5)\tag{2} ya=wl
这篇关于CVPR2017《Detecting Oriented Text in Natural Images by Linking Segments》阅读笔记的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!