ICCV2017《Deep Direct Regression for Multi-Oriented Scene Text Detection》阅读笔记

本文主要是介绍ICCV2017《Deep Direct Regression for Multi-Oriented Scene Text Detection》阅读笔记,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

前言

本文是对《Deep Direct Regression for Multi-Oriented Scene Text Detection》论文的简要介绍和细节分析,由于作者没有放出源码,所以本文没有源码解读的部分,有关的复现工作将在下篇博客介绍。
注:编者水平有限,如有谬误,欢迎指正。若要转载,请注明出处,谢谢。
联系方式:
邮箱:yue_zhan@yahoo.com
QQ:1156356625


Definition

在论文的摘要和介绍部分,作者重点对现有的目标检测网络进行了定义。这个定义是文章的核心内容,也是后续模型设计的背景。作者认为,对于现有的目标检测网络,可以分为间接回归(Indirect Regression)和直接回归(Direct Regression)两种类型。
间接回归:大多数基于CNN的目标检测模型像RCNN系列、SSD、Multi-Box等,模型的回归任务通过预测proposal和ground truth的偏置完成。
直接回归:跳过proposal部分,直接对某点输出对目标坐标或形状的预测,可以以相对该点的偏置形式输出。
基于间接回归的目标检测模型,即使是Faster-RCNN和SSD这样表现很好的网络,在多角度(Multi-oriented)文本检测任务中也表现得很差。 作者认为,主要原因有如下几点:

  • 缺少鲁棒性好的方法生成词级或者行级的proposal,大部分方法都只能生成字符级别的。
  • 所有类似anchor的结构,在文本倾斜、过长、间隔不定等场景下,都无法得到一个合适的anchor覆盖目标。
  • 自适应的anchor生成方法效率低,速度慢。

至于直接回归,本论文是首个基于此提出文本检测领域本文的模型,从实验结果看在当时该论文确实贡献很大。下图为两种回归的比较示意图:


Proposed Methodology

  • 模型结构
    在这里插入图片描述
    论文中,目标检测被分解成分类任务和回归任务,二者构成一个多任务模型。模型设计中参考了FPN的思想,对不同深度的feature map进行跨层连接,以提高模型对不同大小物体的检测效果。在模型尾端的卷积层后通过两个分支:分类和定位,得到两类任务的loss,二者加权作为模型总loss。模型细节在模型分析与代码复现部分阐述,这里只作简要说明。详情结构:
  • Classification task
    本文的模型其实并没有做文本分类部分,所谓的分类其实是指分割。分类任务的output是 S 4 × S 4 \frac{S}{4} \times \frac{S}{4} 4S×4S,可以等价为对原图的降采样。损失函数的设计为
    L c l s = 1 S 2 ∑ i ∈ L c l s m a x ( 0 , s i g n ( 0.5 − y i ∗ ) ⋅ ( y ^ i − y i ∗ ) ) 2 (1) L_{cls} =\frac{1}{S^2}\sum_{i\in{L_{cls}}}max(0,sign(0.5-y_{i}^{*})\cdot(\hat y_i-y_{i}^{*}))^2\tag{1} Lcls=

这篇关于ICCV2017《Deep Direct Regression for Multi-Oriented Scene Text Detection》阅读笔记的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1057830

相关文章

mysqld_multi在Linux服务器上运行多个MySQL实例

《mysqld_multi在Linux服务器上运行多个MySQL实例》在Linux系统上使用mysqld_multi来启动和管理多个MySQL实例是一种常见的做法,这种方式允许你在同一台机器上运行多个... 目录1. 安装mysql2. 配置文件示例配置文件3. 创建数据目录4. 启动和管理实例启动所有实例

vue解决子组件样式覆盖问题scoped deep

《vue解决子组件样式覆盖问题scopeddeep》文章主要介绍了在Vue项目中处理全局样式和局部样式的方法,包括使用scoped属性和深度选择器(/deep/)来覆盖子组件的样式,作者建议所有组件... 目录前言scoped分析deep分析使用总结所有组件必须加scoped父组件覆盖子组件使用deep前言

JAVA智听未来一站式有声阅读平台听书系统小程序源码

智听未来,一站式有声阅读平台听书系统 🌟 开篇:遇见未来,从“智听”开始 在这个快节奏的时代,你是否渴望在忙碌的间隙,找到一片属于自己的宁静角落?是否梦想着能随时随地,沉浸在知识的海洋,或是故事的奇幻世界里?今天,就让我带你一起探索“智听未来”——这一站式有声阅读平台听书系统,它正悄悄改变着我们的阅读方式,让未来触手可及! 📚 第一站:海量资源,应有尽有 走进“智听

【学习笔记】 陈强-机器学习-Python-Ch15 人工神经网络(1)sklearn

系列文章目录 监督学习:参数方法 【学习笔记】 陈强-机器学习-Python-Ch4 线性回归 【学习笔记】 陈强-机器学习-Python-Ch5 逻辑回归 【课后题练习】 陈强-机器学习-Python-Ch5 逻辑回归(SAheart.csv) 【学习笔记】 陈强-机器学习-Python-Ch6 多项逻辑回归 【学习笔记 及 课后题练习】 陈强-机器学习-Python-Ch7 判别分析 【学

系统架构师考试学习笔记第三篇——架构设计高级知识(20)通信系统架构设计理论与实践

本章知识考点:         第20课时主要学习通信系统架构设计的理论和工作中的实践。根据新版考试大纲,本课时知识点会涉及案例分析题(25分),而在历年考试中,案例题对该部分内容的考查并不多,虽在综合知识选择题目中经常考查,但分值也不高。本课时内容侧重于对知识点的记忆和理解,按照以往的出题规律,通信系统架构设计基础知识点多来源于教材内的基础网络设备、网络架构和教材外最新时事热点技术。本课时知识

2014 Multi-University Training Contest 8小记

1002 计算几何 最大的速度才可能拥有无限的面积。 最大的速度的点 求凸包, 凸包上的点( 注意不是端点 ) 才拥有无限的面积 注意 :  凸包上如果有重点则不满足。 另外最大的速度为0也不行的。 int cmp(double x){if(fabs(x) < 1e-8) return 0 ;if(x > 0) return 1 ;return -1 ;}struct poin

2014 Multi-University Training Contest 7小记

1003   数学 , 先暴力再解方程。 在b进制下是个2 , 3 位数的 大概是10000进制以上 。这部分解方程 2-10000 直接暴力 typedef long long LL ;LL n ;int ok(int b){LL m = n ;int c ;while(m){c = m % b ;if(c == 3 || c == 4 || c == 5 ||

2014 Multi-University Training Contest 6小记

1003  贪心 对于111...10....000 这样的序列,  a 为1的个数,b为0的个数,易得当 x= a / (a + b) 时 f最小。 讲串分成若干段  1..10..0   ,  1..10..0 ,  要满足x非递减 。  对于 xi > xi+1  这样的合并 即可。 const int maxn = 100008 ;struct Node{int

论文阅读笔记: Segment Anything

文章目录 Segment Anything摘要引言任务模型数据引擎数据集负责任的人工智能 Segment Anything Model图像编码器提示编码器mask解码器解决歧义损失和训练 Segment Anything 论文地址: https://arxiv.org/abs/2304.02643 代码地址:https://github.com/facebookresear

数学建模笔记—— 非线性规划

数学建模笔记—— 非线性规划 非线性规划1. 模型原理1.1 非线性规划的标准型1.2 非线性规划求解的Matlab函数 2. 典型例题3. matlab代码求解3.1 例1 一个简单示例3.2 例2 选址问题1. 第一问 线性规划2. 第二问 非线性规划 非线性规划 非线性规划是一种求解目标函数或约束条件中有一个或几个非线性函数的最优化问题的方法。运筹学的一个重要分支。2