图像处理:文档图像矫正DocReal

2024-03-09 08:04

本文主要是介绍图像处理:文档图像矫正DocReal,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

文章目录

  • 前言
  • 一、介绍
  • 二、方法论
    • 1.模型结构
    • 2.损失函数
    • 3.数据合成
    • 4.数据增强
    • 5.实验结果
  • 总结


前言

文档图像矫正在图像处理领域属于相对冷门但是很有用的一个任务,这个任务的相关文章还是比较少的,DocReal是2024 WACV的最新文档矫正文章,结合了之前一些技术的亮点,还是值得一看的。

paper:DocReal
目前code暂未开源

这篇文章建议看两个文章作为背景会更容易理解:
1)paperedge:https://github.com/cvlab-stonybrook/PaperEdge
2)DDCP:图像处理:文档图像矫正DDCP


一、介绍

文档图像矫正是计算机视觉中的一项重要任务,具有许多实际应用。控制点法(如DDCP)由于其简单高效而备受关注。然而,由于背景噪声和多种变形类型,不准确的控制点预测可能导致不令人满意的性能。为了解决这些问题,提出了一种强大的文档矫正方法,即DocReal,它利用Enet有效地去除背景噪声,并使用注意力增强控制点(AECP)模块更好地捕捉局部变形。此外,通过合成具有3D变形和附加变形类型的2D图像来增强训练数据。提出的方法表现出卓越的矫正精度。

主要贡献如下
1)提出了一个稳健的文档图像矫正框架,采用 Enet 来有效地消除背景噪音并使用增强注意力控制点(AECP)模块,以更好进行精细矫正。

2)利用 Doc 3D 中的3D图像数据,在Doc3D数据集中用3D变形合成 2D 图像。 此外,我们通过添加各种噪声和随机选择的背景来增强训练数据。 还通过公式模拟了额外的四种卷曲和折叠变形,以丰富训练数据的变形类型(这部分和DDCP有点像,DDCP的数据生成也是通过公式模拟的—https://github.com/gwxie/Synthesize-Distorted-Image-and-Its-Control-Points)。

二、方法论

基于控制点的DDCP方法仍然面临很大的局限性,特别是在不同的拍摄环境、文本类型和噪声背景下在文本上准确放置控制点时。 此任务处理不当可能会导致严重的文本变形和背景残留。 为了克服这些挑战,我们从 PaperEdge 方法中汲取灵感,开发了一种新的流程,即 DocReal,它首先使用 Enet 检测文档边缘信息,去除背景噪声并提取文档主体。 然后,我们利用注意力增强控制点(AECP)网络来更好地捕获文档的局部变形,与 DDCP 方法相比,预测更准确的控制点。
请添加图片描述

1.模型结构

1)Enet
Enet 是一个全卷积的编码器-解码器架构,在编码器中使用 6 个残差块,解码器有 4 个残差块。 Enet在合成图像(3D数据)和基于真实图像的弱监督训练(和paperedge训练Enet的方式一样)

2)AECP
AECP 包括四个子模块,它们协同工作以提高局部变形的控制点预测精度。 第一个子模块(图中的绿色)使用两个卷积(k=3,s=2)提取输入图像 I ∈ R 992×992×3 的浅层特征。第二个子模块包含了4层卷积(k=3)。值得注意的是,这两个子模块都通过注意力模块(CBAM模块)得到增强,该模块利用通道注意力和空间注意力来优先考虑关键信息,例如浅层特征(包括光、阴影和纹理)和深层特征(如表格) 线、文本线和整体变形)。

第三个子模块(图中的黄色)利用空洞卷积金字塔来拓宽全局感受野。 膨胀金字塔由六层组成,最大膨胀率为18。将具有不同尺度的六层特征连接起来,然后将它们输入到1×1卷积层中以获得全局变形特征。 第四个子模块(图中的橙色)使用两层卷积网络来预测控制点P ∈ R 2×31×31。 31 × 31 网格上的每个控制点都有跨越整个文档的 (x, y) 坐标,从而形成一个强大的控制点框架,增强不同环境条件和文本类型下的可读性。

(个人感觉整个AECP网络结构就是在DDCP的网络上加了一个CBAM模块,其它部分都一样,包括空洞卷积连接部分!)

2.损失函数

损失函数和DDCP一样,详细可查看我之前的博客—图像处理:文档图像矫正DDCP


3.数据合成

有效的文档图像矫正需要具有真实和多样变形的训练数据。然而,DDCP方法的训练数据是由两个函数合成的,导致2D网格与真实世界的变形有显著差异。虽然Doc3D数据集为训练数据提供了丰富而逼真的3D变形,但它不能直接用于训练需要2D数据的控制点网络。

为了克服这个限制,提出了一种新方法,通过以下四个步骤合成具有 3D 变形的 2D 训练数据,如图所示。
1)首先从Doc3D数据集中3D图像的点云中采样31x31的控制点,并将其转换为 3D 网格。
2)其次,在 3D 坐标系中随机设置相机距离和拍摄角度,将 3D 网格中的控制点映射到 2D 控制点。
3)第三,通过将扫描图像的参考点映射到 2D 控制点并插值像素来生成具有 3D 变形的 2D 扭曲图像。
4)后,我们在扫描图像中随机添加各种噪声,例如莫尔图案、指纹、阴影等,以丰富具有随机背景的合成图像。 所提出的数据合成方法可以生成大量具有真实且多样化的 3D 变形的 2D 训练数据,这对于训练文档图像去扭曲的控制点网络至关重要。

请添加图片描述

4.数据增强

虽然 Doc3D 数据集提供了一系列变形,但它缺乏书籍类型的真正卷曲。 为了解决这个问题,论文使用公式模拟书籍的卷曲并添加额外的折叠变形来增强训练数据,从而实现更稳健的模型性能。
请添加图片描述
(a):
请添加图片描述
(b):
请添加图片描述
© & (d):
请添加图片描述

其中仅修改z轴值,0.5为原始z值,di为控制点到最近线的距离,v为控制卷曲程度的超参数

5.实验结果

请添加图片描述
请添加图片描述

总结

个人感觉DocReal结合了paperedge中Enet和DDCP中的控制点思想还是个挺有意思的想法。文章造数据的方法倒是很值得关注,文档矫正很重要的一点是数据精确性,文章造数据的方法很大程度扩充了矫正数据。

这篇关于图像处理:文档图像矫正DocReal的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/790041

相关文章

基于Java医院药品交易系统详细设计和实现(源码+LW+调试文档+讲解等)

💗博主介绍:✌全网粉丝10W+,CSDN作者、博客专家、全栈领域优质创作者,博客之星、平台优质作者、专注于Java、小程序技术领域和毕业项目实战✌💗 🌟文末获取源码+数据库🌟 感兴趣的可以先收藏起来,还有大家在毕设选题,项目以及论文编写等相关问题都可以给我留言咨询,希望帮助更多的人  Java精品实战案例《600套》 2023-2025年最值得选择的Java毕业设计选题大全:1000个热

工程文档CAD转换必备!在 Java 中将 DWG 转换为 JPG

Aspose.CAD 是一个独立的类库,以加强Java应用程序处理和渲染CAD图纸,而不需要AutoCAD或任何其他渲染工作流程。该CAD类库允许将DWG, DWT, DWF, DWFX, IFC, PLT, DGN, OBJ, STL, IGES, CFF2文件、布局和图层高质量地转换为PDF和光栅图像格式。 Aspose API支持流行文件格式处理,并允许将各类文档导出或转换为固定布局文件格

关于word文档中目录的switch

有很多的switch,下面这篇文章介绍的比较详细,可以参考:http://word.mvps.org/FAQs/Formatting/TOCSwitches.htm

HTML文档插入JS代码的几种方法

在HTML文档里嵌入客户端JavaScript代码有4中方法: 1.内联,放置在< script>和标签对之间。 2.放置在由< script>标签的src属性指定的外部文件中。 3.放置在HTML事件处理程序中,该事件处理程序由onclick或onmouseover这样的HTML属性值指定。 4.放在一个URL里,这个URL使用特殊的“javascript:”协议。 在JS编程中,主张

9 RestClient客户端操作文档

1. match_all @GetMapping("matchAll")public void matchAll() throws IOException {//1. 准备requestSearchRequest request = new SearchRequest("hotel");//2. 组织DSL参数request.source().query(QueryBuilders.matchA

如何给文档设置密码?电脑文件安全加密的详细操作步骤(10种方法)

在数字化时代,电脑文件的安全和隐私至关重要。通过给电脑的文件或者文件夹设置密码和加密,可以有效保护你的重要文件不被未经授权的人员访问,特别是公司的重要岗位,一些特殊的机密文件,投标文件,资金文件等等,更应该注重文件日常使用安全性。下面将为你介绍10种电脑文件,文件夹加密的详细操作步骤,帮助你更好地保护你的电脑文件安全。 加密方式一、Windows系统内置加密(电脑自带的文件加密) 选中需要

图像处理相关的重要期刊汇总

期刊名称 Impact factor/收录 Image and Vision Computing   (IVC) 1.474 Pattern Recognition Letters 1.303 Artificial Intelligence 3.036 Computer Aided Geometric Design 1.33 Compute

Kimichat使用案例026:AI翻译英语PDF文档的3种方法

文章目录 一、介绍二、腾讯交互翻译TranSmart https://transmart.qq.com/三、沉浸式翻译三、谷歌网页翻译 一、介绍 短的文章,直接丢进kimichat、ChatGPT里面很快就可以翻译完成,而且效果很佳。但是,很长的PDF文档整篇需要翻译,怎么办呢? 二、腾讯交互翻译TranSmart https://transmart.qq.com/ 软件

上位机图像处理和嵌入式模块部署(mcu和swd接口)

【 声明:版权所有,欢迎转载,请勿用于商业用途。 联系信箱:feixiaoxing @163.com】         最近学习mcu的时候,接触了不少调试器,这里面有daplink、st-link v2、j-link v9。虽然模块的形状可能不太一样,但是硬件的连线都差不多,都是mcu上的3.3v、clk、dio和gnd四根连线。出于好奇,今天花了点时间了解了一下debug port、sw

音视频开发基础知识(1)——图像基本概念

像素 **像素是图像的基本单元,一个个像素就组成了图像。你可以认为像素就是图像中的一个点。**在下面这张图中,你可以看到一个个方块,这些方块就是像素。 分辨率 图像(或视频)的分辨率是指图像的大小或尺寸。我们一般用像素个数来表示图像的尺寸。比如说一张1920x1080的图像,前者1920指的是该图像的宽度方向上有1920个像素点,而后者1080指的是图像的高 度方向上有1080个像素点。