IncepText——自然场景中文本检测论文阅读

2024-06-13 09:48

本文主要是介绍IncepText——自然场景中文本检测论文阅读,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

文章目录

  • 摘要
  • 介绍
  • 相关工作
  • 提出的方法
    • 3.1 overview
    • 3.2 Inception-Text
    • 3.3 deformable PSPOI Pooling
    • 3.4 标签和损失函数
  • 实验

摘要

介绍

文本检测的难点是有多种变化的场景:如街景,邮局,室内等,还有各种各样的前景文字和背景物体,各种光亮、模糊和方向。

文字检测算法的发展

  • 传统特征方法:MSER(2010),FASText(2015)
  • 基于CNN 的方法
    • CTPN(2016)RRPN(2017)都是基于Faster rcnn
    • EAST,DDR,直接回归的方法
      本文主要采用FCIS(2016)的实例分割的思想,

创新点

  • 设计了一个Inception-Text 来处理文本的多尺度
  • 在每个分支的最后添加了一个deformable卷积层 来处理多方向问题
  • 用deformable PSROI pooling替换了FCIS中的PSROI pooling,实验结果显示,其在分类效果上更好。

注意: 在ICDAR2015, RCTW-17 and MSRA-TD500数据集上都达到了state-of-the-art,而且没用额外的数据

相关工作

提出的方法

3.1 overview

在这里插入图片描述
以FCIS为基础用Inception-Text和deformable PSROI pooling做了拓展
以ResNet-50为特征提取主网络
为了检测小文本,需要考虑浅层的特征。于是resnet4和resnet5上采样2倍和resnet3相加融合,然后接inception-Text模块。
再用 deformable PSROI 替换PSROI pooling layer

测试时
利用masks和分类分数得到文本区域,然后做非极大值抑制。
针对每个未被抑制的box,通过iou>0.5找到其相似boxes,在做一起做一个融合,用分类的分数做权重。
最后用最小区域生成算法,得到文字区域 (opencv中好像有函数)


3.2 Inception-Text

在这里插入图片描述
主要在Inception模块上进行的修改

  • 1×1 conv进行降维
  • n×n conv变成n×1和1×nconv
  • 每个分支加上了deformable conv
  • 向Inception-ResNet V2一样,使用了1×1的shortcut层

说明deformable卷积优势
在场景文本检测中,任意文本方向是最具挑战性的问题之一,可变形卷积允许采样网格自由变形,而不是标准卷积中的规则采样网格。这种变形受到输入特征的制约,因此当输入文本旋转时,接受域就会进行调整
在这里插入图片描述


3.3 deformable PSPOI Pooling

PSROI池(Dai et al., 2016)是常规ROI池的一种变体,它在位置敏感的评分地图上运行,没有下面的加权层。位置敏感属性为分类和对象位置编码有用的空间信息。
在这里插入图片描述
没细看


3.4 标签和损失函数

在这里插入图片描述
四边形中的都是正样本,外的就是负样本
回归任务的目标是虚线的矩形,分割任务的目标是灰色的掩码。
哦,懂了,应该是采用的Faster rcnn two stage的方案,RPN部分分类和回归定位到虚线的矩形框,RCNN部分再是灰色的掩码和虚线的矩形框部分。瞎猜的

五个部分的loss
在这里插入图片描述


实验

在这里插入图片描述
比EAST高了很多,值得复现。

这篇关于IncepText——自然场景中文本检测论文阅读的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1056961

相关文章

防止Linux rm命令误操作的多场景防护方案与实践

《防止Linuxrm命令误操作的多场景防护方案与实践》在Linux系统中,rm命令是删除文件和目录的高效工具,但一旦误操作,如执行rm-rf/或rm-rf/*,极易导致系统数据灾难,本文针对不同场景... 目录引言理解 rm 命令及误操作风险rm 命令基础常见误操作案例防护方案使用 rm编程 别名及安全删除

Java实现在Word文档中添加文本水印和图片水印的操作指南

《Java实现在Word文档中添加文本水印和图片水印的操作指南》在当今数字时代,文档的自动化处理与安全防护变得尤为重要,无论是为了保护版权、推广品牌,还是为了在文档中加入特定的标识,为Word文档添加... 目录引言Spire.Doc for Java:高效Word文档处理的利器代码实战:使用Java为Wo

Python文本相似度计算的方法大全

《Python文本相似度计算的方法大全》文本相似度是指两个文本在内容、结构或语义上的相近程度,通常用0到1之间的数值表示,0表示完全不同,1表示完全相同,本文将深入解析多种文本相似度计算方法,帮助您选... 目录前言什么是文本相似度?1. Levenshtein 距离(编辑距离)核心公式实现示例2. Jac

Spring Security 前后端分离场景下的会话并发管理

《SpringSecurity前后端分离场景下的会话并发管理》本文介绍了在前后端分离架构下实现SpringSecurity会话并发管理的问题,传统Web开发中只需简单配置sessionManage... 目录背景分析传统 web 开发中的 sessionManagement 入口ConcurrentSess

Python脚本轻松实现检测麦克风功能

《Python脚本轻松实现检测麦克风功能》在进行音频处理或开发需要使用麦克风的应用程序时,确保麦克风功能正常是非常重要的,本文将介绍一个简单的Python脚本,能够帮助我们检测本地麦克风的功能,需要的... 目录轻松检测麦克风功能脚本介绍一、python环境准备二、代码解析三、使用方法四、知识扩展轻松检测麦

Python中高级文本模式匹配与查找技术指南

《Python中高级文本模式匹配与查找技术指南》文本处理是编程世界的永恒主题,而模式匹配则是文本处理的基石,本文将深度剖析PythonCookbook中的核心匹配技术,并结合实际工程案例展示其应用,希... 目录引言一、基础工具:字符串方法与序列匹配二、正则表达式:模式匹配的瑞士军刀2.1 re模块核心AP

99%的人都选错了! 路由器WiFi双频合一还是分开好的专业解析与适用场景探讨

《99%的人都选错了!路由器WiFi双频合一还是分开好的专业解析与适用场景探讨》关于双频路由器的“双频合一”与“分开使用”两种模式,用户往往存在诸多疑问,本文将从多个维度深入探讨这两种模式的优缺点,... 在如今“没有WiFi就等于与世隔绝”的时代,越来越多家庭、办公室都开始配置双频无线路由器。但你有没有注

深入解析Java NIO在高并发场景下的性能优化实践指南

《深入解析JavaNIO在高并发场景下的性能优化实践指南》随着互联网业务不断演进,对高并发、低延时网络服务的需求日益增长,本文将深入解析JavaNIO在高并发场景下的性能优化方法,希望对大家有所帮助... 目录简介一、技术背景与应用场景二、核心原理深入分析2.1 Selector多路复用2.2 Buffer

MySQL常用字符串函数示例和场景介绍

《MySQL常用字符串函数示例和场景介绍》MySQL提供了丰富的字符串函数帮助我们高效地对字符串进行处理、转换和分析,本文我将全面且深入地介绍MySQL常用的字符串函数,并结合具体示例和场景,帮你熟练... 目录一、字符串函数概述1.1 字符串函数的作用1.2 字符串函数分类二、字符串长度与统计函数2.1

Java Stream流之GroupBy的用法及应用场景

《JavaStream流之GroupBy的用法及应用场景》本教程将详细介绍如何在Java中使用Stream流的groupby方法,包括基本用法和一些常见的实际应用场景,感兴趣的朋友一起看看吧... 目录Java Stream流之GroupBy的用法1. 前言2. 基础概念什么是 GroupBy?Stream