PSENET——OCR文本检测论文阅读

2024-06-13 09:48

文章标签 检测阅读论文文本 ocr psenet

本文主要是介绍PSENET——OCR文本检测论文阅读，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

文章目录

摘要
1. 介绍
3. 提出的方法
- 3.1 整体框架
- 3.2 网络设计
- 3.3 渐进式尺度扩展算法
- 3.4 目标标签
- 3.5 损失函数
4. 实验

摘要

1. 介绍

PSENet的优势有：

基于分割的办法，能检测任意形状的文字
提出了一种渐进扩张算法，能有效分割位置很近的文本
每个文本实例（目标区域）有多个预测的分割实例（如何整合得到输出的？）
为了得到最后的文本区域采用了Breadth-First-Search (BFS)。从最小的预测分割实例开始扩张的。因为最小的分割实例map中文字之间的距离是比较大的，容易分割。

如图：
在这里插入图片描述

3. 提出的方法

3.1 整体框架

图：
在这里插入图片描述

采用ResNet做主干网络
将低层次的特征和高层次的分割实例特征进行融合
这些映射在F中进一步融合，以编码具有各种接受视图的信息
在用F产生n个branchs：S1,S2,—Sn，Si整个图片分割结果。S1是最小的分割结果，Sn是最大的分割结果。用递进比例尺展开算法得到最后的文字区域R

3.2 网络设计

PSENet采用特征金字塔网络为主干网络，将P2,P3,P4,P5融合成1024channel的F
在这里插入图片描述

3.3 渐进式尺度扩展算法

示意图：
在这里插入图片描述
idea来源于数据结构中的广度优先搜索算法

首先是在S1（最小的文字分割map）上可以得到能很好分割开的文本中心区域
第二步，利用S2的像素融合到S1中，来扩张S1
第三部，用S3来扩张上一步得到的结果
最后用上一步得到的结果

这里可能有像素冲突，就是1个点属于两个文字区域，采用谁先扩张就是谁的。

3.4 目标标签

在我们的实践中，通过收缩原始文本实例，可以简单而有效地执行这些基本真值标签。
示意图：
在这里插入图片描述
将原始多边形pn缩小di像素，得到缩小后的多边形pi
di的计算规则(没细看)：

3.5 损失函数

在这里插入图片描述
其中Lc和Ls分别表示完整文本实例和收缩文本实例的损失

采用dice loss作为损失函数
此外，还有许多类似于文本笔画的模式，如栅栏、格，和FOTS一样采用了OHEM（困难样本挖掘）

在这里插入图片描述
其中，D是dice loss，M是OHEM输出的掩码

Ls是收缩文本实例的损失。由于它们被完整文本实例的原始区域所包围，为了避免一定的冗余，我们忽略了分割结果Sn中非文本区域的像素。因此，Ls可以表述为

其中W就是原始的文本区域掩码
就是后面的dice loss是在最大文本掩码的基础上计算的

4. 实验

no time to write

这篇关于PSENET——OCR文本检测论文阅读的文章就介绍到这儿，希望我们推荐的文章对编程师们有所帮助！

http://www.chinasem.cn/article/1056957。 23002807@qq.com

相关文章

Java实现在Word文档中添加文本水印和图片水印的操作指南

Java实现在Word文档中添加文本水印和图片水印的操作指南

《Java实现在Word文档中添加文本水印和图片水印的操作指南》在当今数字时代,文档的自动化处理与安全防护变得尤为重要,无论是为了保护版权、推广品牌,还是为了在文档中加入特定的标识,为Word文档添加... 目录引言Spire.Doc for Java：高效Word文档处理的利器代码实战：使用Java为Wo

阅读更多...

Python文本相似度计算的方法大全

Python文本相似度计算的方法大全

《Python文本相似度计算的方法大全》文本相似度是指两个文本在内容、结构或语义上的相近程度,通常用0到1之间的数值表示,0表示完全不同,1表示完全相同,本文将深入解析多种文本相似度计算方法,帮助您选... 目录前言什么是文本相似度？1. Levenshtein 距离（编辑距离）核心公式实现示例2. Jac

阅读更多...

Python脚本轻松实现检测麦克风功能

Python脚本轻松实现检测麦克风功能

《Python脚本轻松实现检测麦克风功能》在进行音频处理或开发需要使用麦克风的应用程序时,确保麦克风功能正常是非常重要的,本文将介绍一个简单的Python脚本,能够帮助我们检测本地麦克风的功能,需要的... 目录轻松检测麦克风功能脚本介绍一、python环境准备二、代码解析三、使用方法四、知识扩展轻松检测麦

阅读更多...

Python中高级文本模式匹配与查找技术指南

Python中高级文本模式匹配与查找技术指南

《Python中高级文本模式匹配与查找技术指南》文本处理是编程世界的永恒主题,而模式匹配则是文本处理的基石,本文将深度剖析PythonCookbook中的核心匹配技术,并结合实际工程案例展示其应用,希... 目录引言一、基础工具：字符串方法与序列匹配二、正则表达式：模式匹配的瑞士军刀2.1 re模块核心AP

阅读更多...

Linux系统性能检测命令详解

Linux系统性能检测命令详解

《Linux系统性能检测命令详解》本文介绍了Linux系统常用的监控命令（如top、vmstat、iostat、htop等）及其参数功能,涵盖进程状态、内存使用、磁盘I/O、系统负载等多维度资源监控,... 目录toppsuptimevmstatIOStatiotopslabtophtopdstatnmon

阅读更多...

C++ 检测文件大小和文件传输的方法示例详解

C++ 检测文件大小和文件传输的方法示例详解

《C++检测文件大小和文件传输的方法示例详解》文章介绍了在C/C++中获取文件大小的三种方法,推荐使用stat()函数,并详细说明了如何设计一次性发送压缩包的结构体及传输流程,包含CRC校验和自动解... 目录检测文件的大小✅ 方法一：使用 stat() 函数（推荐）✅ 用法示例：✅ 方法二：使用 fsee

阅读更多...

Python中图片与PDF识别文本(OCR)的全面指南

Python中图片与PDF识别文本(OCR)的全面指南

《Python中图片与PDF识别文本(OCR)的全面指南》在数据爆炸时代,80%的企业数据以非结构化形式存在,其中PDF和图像是最主要的载体,本文将深入探索Python中OCR技术如何将这些数字纸张转... 目录一、OCR技术核心原理二、python图像识别四大工具库1. Pytesseract - 经典O

阅读更多...

OpenCV实现实时颜色检测的示例

OpenCV实现实时颜色检测的示例

《OpenCV实现实时颜色检测的示例》本文主要介绍了OpenCV实现实时颜色检测的示例,通过HSV色彩空间转换和色调范围判断实现红黄绿蓝颜色检测,包含视频捕捉、区域标记、颜色分析等功能,具有一定的参考... 目录一、引言二、系统概述三、代码解析1. 导入库2. 颜色识别函数3. 主程序循环四、HSV色彩空间

阅读更多...

苹果macOS 26 Tahoe主题功能大升级:可定制图标/高亮文本/文件夹颜色

苹果macOS 26 Tahoe主题功能大升级:可定制图标/高亮文本/文件夹颜色

《苹果macOS26Tahoe主题功能大升级:可定制图标/高亮文本/文件夹颜色》在整体系统设计方面，macOS26采用了全新的玻璃质感视觉风格，应用于Dock栏、应用图标以及桌面小部件等多个界面... 科技媒体 MACRumors 昨日（6 月 13 日）发布博文，报道称在 macOS 26 Tahoe 中

阅读更多...

Python实现精准提取 PDF中的文本,表格与图片

Python实现精准提取 PDF中的文本,表格与图片

《Python实现精准提取PDF中的文本,表格与图片》在实际的系统开发中,处理PDF文件不仅限于读取整页文本,还有提取文档中的表格数据,图片或特定区域的内容,下面我们来看看如何使用Python实... 目录安装 python 库提取 PDF 文本内容：获取整页文本与指定区域内容获取页面上的所有文本内容获取

阅读更多...