CV-Paper-文字检测-Character Region Awareness for Text Detection

2023-11-25 11:50

本文主要是介绍CV-Paper-文字检测-Character Region Awareness for Text Detection,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

目录

  • Character Region Awareness for Text Detection 基于字符识别的文字检测
    • 1 确定哪些字符是连接的
      • 1.1 ground truth 构造
    • 2 数据标注问题-获得字符级别(Character-level)的标注
      • 2.1 人工生成数据
      • 2.2 弱监督
      • 2.3 弱监督GT的生成过程
    • 3 热图预测网络
    • 4 网络收敛过程
    • 5 网络预测性能
    • 6 引用

Character Region Awareness for Text Detection 基于字符识别的文字检测

这篇文章是利用关键点检测的思想来进行文字检测。检测单个字符,并且识别出哪些字符是组成文字的,这样就可以检测出一组组文字。

以前的一些方法都是检测word-level的bounding box,但是这样会遇到一些难点,例如文字是弯曲的,不规则的,或则是特别长的。如果是基于character-level的话就没用这些难点了,因为是检测单个字符,所以没有文字形状的规定,并且,只需要小的感受野即可以了, 但是以前的检测包围框的方法就需要很大的感受野才行。

那么,基于单个字符区域的文字检测存在两个难点

  1. 如何确定哪些字符是连接在一起组成文字的,而哪些字符是分离的;
  2. 数据标注问题,因为当前的数据集都是文字级别(word-level)的标注。

下面分别来说明解决这两个难点的方法。

1 确定哪些字符是连接的

字符检测:本文使用的网络使用了目前关键点检测中常用的网络结构,即采用预测热图的方式来进行检测关键点,那么在这里我们就可以把每个字符当做一个关键点,所以每个字符其实对应着一个热点,只要预测每个文字所对应的热点那么就可检测出每个字符。

字符连接的识别:那么,现在字符的检测方法有了,我们要怎么知道哪些字符是组成一个文字的。这里我觉得作者特别聪明,作者也使用热图的方式来表示文字的连接,如果两个字符是相连接的,那么这两个字符之间就有一个热点。很高明的做法,利用热点图来确定两个字符是不是一组的。

热点就代表着一个响应,如果图片中的某个地方有热点响应,那么表示这个地方存在我们需要的信息,热点的值的大小就代表着置信度,如果置信度越高,那么越确定。

1.1 ground truth 构造

如何构造我们的监督信息,可以看下面这幅图。
在这里插入图片描述

从上图可以看出,我们的监督信息(或者说网络的预测)有两个,一个是Region Score GT(区域分数),这个是预测字符位置的热图,另外一个是Affinity Score GT(关联分数),这个是预测两个字符是否关联的热图。

region score其实就是单个字符的包围框的一个二维高斯图,他是通过对二维正态分布的高斯图进行仿射变换得到的。
Affinity Score 通过画对角线来连接每个字符框的对角,我们可以生成两个三角形——我们将其称为上字符三角形和下字符三角形。然后,对于每个相邻的字符框对,通过将上三角形和下三角形的中心设置为框的角,生成一个关联框。然后将二维正态分布的高斯图进行仿射变换到关联框来获得对应的热图。

2 数据标注问题-获得字符级别(Character-level)的标注

如果想通过人工进行对字符进行标注,那么可想而知是非常耗时的。所以本文使用人工生成数据和弱监督结合的方式来解决这个问题。

2.1 人工生成数据

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-3YNRfRGS-1571749596163)(file:///Users/jiangzhiqiang/Documents/Gridea/post-images/1557145267677.png)]
人工生成就是将文字黏贴到一下图片上,这时候因为是自己的文字,所以我们可以有字符级别的包围框,所以我们就有了字符级别的标注。

2.2 弱监督

在这里插入图片描述

上图就是一个弱监督的网络框架,作者将人工生成的数据和我们word-level标注数据一起进行训练。红色箭头预测的是region score,然后经过字符检测的热图来得到每个字符的框,这样进一步又可以得到affinity score的热图。这样就间接获得了文字的affinity score的热图。然后将预测得到的两个score热图作为ground truth进一步监督网络的训练。

当使用弱监督训练模型时,我们被迫训练不完整的伪GT。 如果使用不准确的区域分数训练模型,则输出可能在字符区域内模糊。 为了防止这种情况,我们测量模型生成的每个伪GT的质量。 幸运的是,文本注释中有一个非常强大的提示,即单词长度。 在大多数数据集中,提供了单词的转录,并且单词的长度可用于评估伪GT的置信度。

所以我们在训练的时候要根据伪GT的置信度来计算loss,如果生成的GT和真实情况很接近,那么这个loss就是有用的,如果生成的GT都很假,我们肯定是不接受这个loss。所以loss的计算方式如下:
在这里插入图片描述

那么如何计算这个置信度呢,我们可以通过计算伪GT的字符长度和真实的GT的字符长度比较来得到:
在这里插入图片描述

L(w)表示单词的长度,右上角加c的表示预测的得到的长度,取min得到的是不大于L(w)的值,这样Sconf的值就不会是负数,并且Sconf的值是0~1之间的。

并且预测的热图在这个单词的包围框外面则权重为1,其实简单的理解就是只在word的包围框内的时候它的loss需要加权,因为word(所有的单词区域)包围框外面是没有文字的,所以只要预测出来有字符那么都是假阳。
在这里插入图片描述

2.3 弱监督GT的生成过程

在这里插入图片描述
如图所示,就是先根据word-level标注的数据,将单词切出来,然后再进行预测,得到热图以后再进行处理。

3 热图预测网络

最后热图预测的网络是一个类U-net的网络。
在这里插入图片描述

4 网络收敛过程

在这里插入图片描述

5 网络预测性能

在这里插入图片描述

6 引用

论文:Character Region Awareness for Text Detection

这篇关于CV-Paper-文字检测-Character Region Awareness for Text Detection的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/423737

相关文章

综合安防管理平台LntonAIServer视频监控汇聚抖动检测算法优势

LntonAIServer视频质量诊断功能中的抖动检测是一个专门针对视频稳定性进行分析的功能。抖动通常是指视频帧之间的不必要运动,这种运动可能是由于摄像机的移动、传输中的错误或编解码问题导致的。抖动检测对于确保视频内容的平滑性和观看体验至关重要。 优势 1. 提高图像质量 - 清晰度提升:减少抖动,提高图像的清晰度和细节表现力,使得监控画面更加真实可信。 - 细节增强:在低光条件下,抖

高效录音转文字:2024年四大工具精选!

在快节奏的工作生活中,能够快速将录音转换成文字是一项非常实用的能力。特别是在需要记录会议纪要、讲座内容或者是采访素材的时候,一款优秀的在线录音转文字工具能派上大用场。以下推荐几个好用的录音转文字工具! 365在线转文字 直达链接:https://www.pdf365.cn/ 365在线转文字是一款提供在线录音转文字服务的工具,它以其高效、便捷的特点受到用户的青睐。用户无需下载安装任何软件,只

烟火目标检测数据集 7800张 烟火检测 带标注 voc yolo

一个包含7800张带标注图像的数据集,专门用于烟火目标检测,是一个非常有价值的资源,尤其对于那些致力于公共安全、事件管理和烟花表演监控等领域的人士而言。下面是对此数据集的一个详细介绍: 数据集名称:烟火目标检测数据集 数据集规模: 图片数量:7800张类别:主要包含烟火类目标,可能还包括其他相关类别,如烟火发射装置、背景等。格式:图像文件通常为JPEG或PNG格式;标注文件可能为X

基于 YOLOv5 的积水检测系统:打造高效智能的智慧城市应用

在城市发展中,积水问题日益严重,特别是在大雨过后,积水往往会影响交通甚至威胁人们的安全。通过现代计算机视觉技术,我们能够智能化地检测和识别积水区域,减少潜在危险。本文将介绍如何使用 YOLOv5 和 PyQt5 搭建一个积水检测系统,结合深度学习和直观的图形界面,为用户提供高效的解决方案。 源码地址: PyQt5+YoloV5 实现积水检测系统 预览: 项目背景

JavaFX应用更新检测功能(在线自动更新方案)

JavaFX开发的桌面应用属于C端,一般来说需要版本检测和自动更新功能,这里记录一下一种版本检测和自动更新的方法。 1. 整体方案 JavaFX.应用版本检测、自动更新主要涉及一下步骤: 读取本地应用版本拉取远程版本并比较两个版本如果需要升级,那么拉取更新历史弹出升级控制窗口用户选择升级时,拉取升级包解压,重启应用用户选择忽略时,本地版本标志为忽略版本用户选择取消时,隐藏升级控制窗口 2.

【Python报错已解决】AttributeError: ‘list‘ object has no attribute ‘text‘

🎬 鸽芷咕:个人主页  🔥 个人专栏: 《C++干货基地》《粉丝福利》 ⛺️生活的理想,就是为了理想的生活! 文章目录 前言一、问题描述1.1 报错示例1.2 报错分析1.3 解决思路 二、解决方法2.1 方法一:检查属性名2.2 步骤二:访问列表元素的属性 三、其他解决方法四、总结 前言 在Python编程中,属性错误(At

[数据集][目标检测]血细胞检测数据集VOC+YOLO格式2757张4类别

数据集格式:Pascal VOC格式+YOLO格式(不包含分割路径的txt文件,仅仅包含jpg图片以及对应的VOC格式xml文件和yolo格式txt文件) 图片数量(jpg文件个数):2757 标注数量(xml文件个数):2757 标注数量(txt文件个数):2757 标注类别数:4 标注类别名称:["Platelets","RBC","WBC","sickle cell"] 每个类别标注的框数:

Temu官方宣导务必将所有的点位材料进行检测-RSL资质检测

关于饰品类产品合规问题宣导: 产品法规RSL要求 RSL测试是根据REACH法规及附录17的要求进行测试。REACH法规是欧洲一项重要的法规,其中包含许多对化学物质进行限制的规定和高度关注物质。 为了确保珠宝首饰的安全性,欧盟REACH法规规定,珠宝首饰上架各大电商平台前必须进行RSLReport(欧盟禁限用化学物质检测报告)资质认证,以确保产品不含对人体有害的化学物质。 RSL-铅,

YOLOv8/v10+DeepSORT多目标车辆跟踪(车辆检测/跟踪/车辆计数/测速/禁停区域/绘制进出线/绘制禁停区域/车道车辆统计)

01:YOLOv8 + DeepSort 车辆跟踪 该项目利用YOLOv8作为目标检测模型,DeepSort用于多目标跟踪。YOLOv8负责从视频帧中检测出车辆的位置,而DeepSort则负责关联这些检测结果,从而实现车辆的持续跟踪。这种组合使得系统能够在视频流中准确地识别并跟随特定车辆。 02:YOLOv8 + DeepSort 车辆跟踪 + 任意绘制进出线 在此基础上增加了用户

时间序列|change point detection

change point detection 被称为变点检测,其基本定义是在一个序列或过程中,当某个统计特性(分布类型、分布参数)在某时间点受系统性因素而非偶然因素影响发生变化,我们就称该时间点为变点。变点识别即利用统计量或统计方法或机器学习方法将该变点位置估计出来。 Change Point Detection的类型 online 指连续观察某一随机过程,监测到变点时停止检验,不运用到