读论文——(Styletext)Editing Text in the Wild

2024-02-19 17:20

本文主要是介绍读论文——(Styletext)Editing Text in the Wild,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

文章目录

    • 1.1 🙄摘要
    • 1.2 😎其他部分
      • 1.2.1 Introduction部分
      • 1.2.2 Related Word部分
      • 1.2.3 Methology
      • 1.2.4 Experiments

  • Style-Text数据合成工具是基于百度和华科合作研发的文本编辑算法《Editing Text in the Wild》https://arxiv.org/abs/1908.03047
  • 结合github的文档去读论文(因为在实际使用中发现配置参数有些需要明白其物理意义,所以还是看看论文比较好):https://github.com/PaddlePaddle/PaddleOCR/blob/release/2.0/StyleText/README_ch.md

1.1 🙄摘要

本文的研究对象是编辑自然图像中的文本,也就是在保持原图自然的背景下,用另一个词替换或者修改原图上的文本信息。

  1. 这个任务十分具有挑战性,因为这要求背景图和文本的风格都需要被保留,这样才能保证编辑后的图像看起来与原图风格无异。
  2. 此外,我们提出了一个端到端的可训练的风格保留网络(SRNet),其由三个模块组成,分别是:文本前景风格迁移模块;背景抽取模块;融合模块
  3. 文本迁移模块:将源图文本在保留风格的情况下替换为目标文本
  4. 背景抽取(背景修复)模块:擦除原来的文本,使用合适的纹理去填充被擦除的文本区域。(PS中的修复工具)
  5. 融合模块:将从前两个模块得到的信息进行组合,产生编辑好的文本图像。
  6. 据我们所知,这项工作是首次在词语级别上进行自然图像上的文本编辑。
  7. 在合成数据集和真实数据集(ICDAR 2013)上的视觉效果和定量结果都充分证实了模块化分解的重要性和必要性。
  8. 我们也进行了大量的试验来验证我们的方法在多个现实领域的实用性,比如:文本图像合成、增强现实翻译AR,信息隐藏等。

所以明确一点,相比于TextRender,StyleText不仅保留背景的风格,同时也保留文字的风格,所以不需要知道字体。。。这也导致当识别出的文字风格不清晰时,产生的图像上文字也和期望的相差甚远。
如果使用场景是:字体已知,改变背景,融合二者。而不要求模仿字体的风格,那么不建议使用StyleText。可以使用它分离出背景,再使用TextRender等进行文字图像合成

1.2 😎其他部分

1.2.1 Introduction部分

Para1. 介绍了本文所述的课题—— 场景文本编辑(scene text editing)这一领域的背景

Para2. 这一课题目前有两个挑战:①文本风格迁移,②背景纹理修复。

  1. 其中,文本风格包括许多因素:语言、字体、颜色、朝向、线宽和空间透视,很难完全捕获原图完整的文本风格并据此对目标文本进行转换。
  2. 编辑后的背景一致性也很难得到保证,特别是当文本显示在一些比较复杂的场景时,比如:菜单和街道店铺招牌等。
  3. 另外,如果目标文本比原始文本短,则需要擦除字符的超过区域,并填充适当的纹理。

在这里插入图片描述

Para3. 为了应对上述挑战,提出了一个保留风格的网络SRN(style retention network),SRNet的核心思想在于将复杂的任务分解为几个简单的、模块化的、可联合训练的子网络:文本转换模块、背景修复模块和融合模块,如上图。

  1. 文本转换模块(Text conversion module,TCM)负责将原图的文本风格转移到目标文本上去,包括字体、颜色、位置以及规模大小。
    使用了一种骨架引导的学习机制(skeleton-guided learning mechanism)
  2. 背景修复模块( Inpaint(图片去水印工具))擦除原始文字笔画的像素,并以自底向上的特征融合方式填充适当的纹理。
    遵循“U-Net”的一般架构
  3. 融合模块,自动学习如何有效融合前景信息和背景纹理信息来生成编辑后的文本图像。

Para4

  1. 介绍GAN(Generative Adversarial Networks)网络;
  2. 我们不像以前使用GAN的工作一样使用单一的encoder-decoder架构,而是把复杂问题分解成几个模块化的子网络,近期一些工作都证明网络分解策略是有效的
  3. SRNet比pix2pix效果好
  4. 相比于字符替换的方式,我们的方法是基于词水平的,更有效。
  5. 此外,我们的方法不仅可以进行同语言的替换,还可以进行跨语言的文本替换/编辑。

Para5 本文的主要贡献:①首个在词级别实现文本编辑的网络;②采用网络分解的方式,效果更好了;③在笔画骨架(字形)的引导下,尽可能保证生成字体的效果;④在多种场景文本编辑任务,如语言内文本图像编辑、增强现实翻译(跨语言)、信息隐藏(如词级别文本擦除)等方面表现出优异的性能。

1.2.2 Related Word部分

分别介绍了GAN,文本风格迁移以及文本擦除和编辑,这三个方面现有的工作,存在的问题,本文提出的框架相对于目前工作的优点。
没啥好看的,也是前面的重复,就是引用了一些可能有用的论文。

1.2.3 Methology

没多看,都是公式,只是注意到一些信息。
在这里插入图片描述
如图,每一组图片左侧是原图,右侧是生成的图像。不难发现:

  1. 我数了一遍,除了第三行的第二、三列图像中存在,原图词语长度<生成图长度,可以直接用背景纹理填充之外。其余情况都是原图词语长度=生成图对应部分词语长度。显然,是一个非常大的局限,生成图语料长度>原图长度,生成效果会不好
  2. 丢进模型的可以不仅仅是文本行高度的图像,可以是任意含有文字的图像,这点与PaddleOCR的StyleText实施不太一样,Style-Text生成的数据主要应用于OCR识别场景。基于当前PaddleOCR识别模型的设计,我们主要支持高度在32左右的风格图像。 如果输入图像尺寸相差过多,效果可能不佳。
  3. 仔细观察的话,可以看到第二行第一列的图像中,字符Z.,这里前景色(字体颜色:白色)和背景色(混有白色的黄棕色)比较接近,同时字体轮廓不是非常清晰,效果就会不太好。这点可以在下方图得到验证

在这里插入图片描述
从上到下,依次是:原图,生成图,文字,文字骨架,背景图。

1.2.4 Experiments

没有关注和其他方法比较的内容,重点关注了4.8 Failure Cases,毕竟这才是对于工业使用最重要的部分。

当文本具有非常复杂的结构或罕见的字体形状时,效果可能会很差。
如下图,左侧是原图,右侧是合成结果。可以看到,
第一组:虽然前景文字风格转换的很好,但是背景的阴影还是原图的阴影。
第二组:没有提取出复杂空间结构的文字风格(有一定的透视效果),可以看到背景提取失败,直接融合前景和背景十分生硬。
第三组:围绕文本的边界没有被转移。
我们将这些失败案例归因于训练数据中这些样本的不足,因此我们假设可以通过增加更多字体效果的训练集来缓解这些问题。

在这里插入图片描述
总结

  • 有阴影的文本,
  • 原图有透视(非水平/平面正对效果的)的,
  • 有发光效果的,
  • 字体轮廓不明晰,
  • 前景色和背景色比较接近的,
  • 都不太适合用这个模型去拟合!

这篇关于读论文——(Styletext)Editing Text in the Wild的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/725371

相关文章

AI hospital 论文Idea

一、Benchmarking Large Language Models on Communicative Medical Coaching: A Dataset and a Novel System论文地址含代码 大多数现有模型和工具主要迎合以患者为中心的服务。这项工作深入探讨了LLMs在提高医疗专业人员的沟通能力。目标是构建一个模拟实践环境,人类医生(即医学学习者)可以在其中与患者代理进行医学

论文翻译:arxiv-2024 Benchmark Data Contamination of Large Language Models: A Survey

Benchmark Data Contamination of Large Language Models: A Survey https://arxiv.org/abs/2406.04244 大规模语言模型的基准数据污染:一项综述 文章目录 大规模语言模型的基准数据污染:一项综述摘要1 引言 摘要 大规模语言模型(LLMs),如GPT-4、Claude-3和Gemini的快

论文阅读笔记: Segment Anything

文章目录 Segment Anything摘要引言任务模型数据引擎数据集负责任的人工智能 Segment Anything Model图像编码器提示编码器mask解码器解决歧义损失和训练 Segment Anything 论文地址: https://arxiv.org/abs/2304.02643 代码地址:https://github.com/facebookresear

论文翻译:ICLR-2024 PROVING TEST SET CONTAMINATION IN BLACK BOX LANGUAGE MODELS

PROVING TEST SET CONTAMINATION IN BLACK BOX LANGUAGE MODELS https://openreview.net/forum?id=KS8mIvetg2 验证测试集污染在黑盒语言模型中 文章目录 验证测试集污染在黑盒语言模型中摘要1 引言 摘要 大型语言模型是在大量互联网数据上训练的,这引发了人们的担忧和猜测,即它们可能已

OmniGlue论文详解(特征匹配)

OmniGlue论文详解(特征匹配) 摘要1. 引言2. 相关工作2.1. 广义局部特征匹配2.2. 稀疏可学习匹配2.3. 半稠密可学习匹配2.4. 与其他图像表示匹配 3. OmniGlue3.1. 模型概述3.2. OmniGlue 细节3.2.1. 特征提取3.2.2. 利用DINOv2构建图形。3.2.3. 信息传播与新的指导3.2.4. 匹配层和损失函数3.2.5. 与Super

BERT 论文逐段精读【论文精读】

BERT: 近 3 年 NLP 最火 CV: 大数据集上的训练好的 NN 模型,提升 CV 任务的性能 —— ImageNet 的 CNN 模型 NLP: BERT 简化了 NLP 任务的训练,提升了 NLP 任务的性能 BERT 如何站在巨人的肩膀上的?使用了哪些 NLP 已有的技术和思想?哪些是 BERT 的创新? 1标题 + 作者 BERT: Pre-trainin

【Python报错已解决】AttributeError: ‘list‘ object has no attribute ‘text‘

🎬 鸽芷咕:个人主页  🔥 个人专栏: 《C++干货基地》《粉丝福利》 ⛺️生活的理想,就是为了理想的生活! 文章目录 前言一、问题描述1.1 报错示例1.2 报错分析1.3 解决思路 二、解决方法2.1 方法一:检查属性名2.2 步骤二:访问列表元素的属性 三、其他解决方法四、总结 前言 在Python编程中,属性错误(At

[论文笔记]LLM.int8(): 8-bit Matrix Multiplication for Transformers at Scale

引言 今天带来第一篇量化论文LLM.int8(): 8-bit Matrix Multiplication for Transformers at Scale笔记。 为了简单,下文中以翻译的口吻记录,比如替换"作者"为"我们"。 大语言模型已被广泛采用,但推理时需要大量的GPU内存。我们开发了一种Int8矩阵乘法的过程,用于Transformer中的前馈和注意力投影层,这可以将推理所需

2024 年高教社杯全国大学生数学建模竞赛 C 题 农作物的种植策略 参考论文 无水印

持续更新中,2024年数学建模比赛思路代码论文都会发布到专栏内,只需订阅一次!  完整论文+代码+数据结果链接在文末!  订阅后可查看参考论文文件 第一问 1.1 问题重述 这个问题围绕的是华北山区的某乡村,在有限的耕地条件下,如何制定最优的农作物种植策略。乡村有 34 块露天耕地和 20 个大棚,种植条件包括粮食作物、蔬菜、水稻和食用菌。除了要考虑地块的面积、种植季节等,还要确保

论文精读-Supervised Raw Video Denoising with a Benchmark Dataset on Dynamic Scenes

论文精读-Supervised Raw Video Denoising with a Benchmark Dataset on Dynamic Scenes 优势 1、构建了一个用于监督原始视频去噪的基准数据集。为了多次捕捉瞬间,我们手动为对象s创建运动。在高ISO模式下捕获每一时刻的噪声帧,并通过对多个噪声帧进行平均得到相应的干净帧。 2、有效的原始视频去噪网络(RViDeNet),通过探