读论文——(Styletext)Editing Text in the Wild

2024-02-19 17:20

本文主要是介绍读论文——(Styletext)Editing Text in the Wild,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

文章目录

    • 1.1 🙄摘要
    • 1.2 😎其他部分
      • 1.2.1 Introduction部分
      • 1.2.2 Related Word部分
      • 1.2.3 Methology
      • 1.2.4 Experiments

  • Style-Text数据合成工具是基于百度和华科合作研发的文本编辑算法《Editing Text in the Wild》https://arxiv.org/abs/1908.03047
  • 结合github的文档去读论文(因为在实际使用中发现配置参数有些需要明白其物理意义,所以还是看看论文比较好):https://github.com/PaddlePaddle/PaddleOCR/blob/release/2.0/StyleText/README_ch.md

1.1 🙄摘要

本文的研究对象是编辑自然图像中的文本,也就是在保持原图自然的背景下,用另一个词替换或者修改原图上的文本信息。

  1. 这个任务十分具有挑战性,因为这要求背景图和文本的风格都需要被保留,这样才能保证编辑后的图像看起来与原图风格无异。
  2. 此外,我们提出了一个端到端的可训练的风格保留网络(SRNet),其由三个模块组成,分别是:文本前景风格迁移模块;背景抽取模块;融合模块
  3. 文本迁移模块:将源图文本在保留风格的情况下替换为目标文本
  4. 背景抽取(背景修复)模块:擦除原来的文本,使用合适的纹理去填充被擦除的文本区域。(PS中的修复工具)
  5. 融合模块:将从前两个模块得到的信息进行组合,产生编辑好的文本图像。
  6. 据我们所知,这项工作是首次在词语级别上进行自然图像上的文本编辑。
  7. 在合成数据集和真实数据集(ICDAR 2013)上的视觉效果和定量结果都充分证实了模块化分解的重要性和必要性。
  8. 我们也进行了大量的试验来验证我们的方法在多个现实领域的实用性,比如:文本图像合成、增强现实翻译AR,信息隐藏等。

所以明确一点,相比于TextRender,StyleText不仅保留背景的风格,同时也保留文字的风格,所以不需要知道字体。。。这也导致当识别出的文字风格不清晰时,产生的图像上文字也和期望的相差甚远。
如果使用场景是:字体已知,改变背景,融合二者。而不要求模仿字体的风格,那么不建议使用StyleText。可以使用它分离出背景,再使用TextRender等进行文字图像合成

1.2 😎其他部分

1.2.1 Introduction部分

Para1. 介绍了本文所述的课题—— 场景文本编辑(scene text editing)这一领域的背景

Para2. 这一课题目前有两个挑战:①文本风格迁移,②背景纹理修复。

  1. 其中,文本风格包括许多因素:语言、字体、颜色、朝向、线宽和空间透视,很难完全捕获原图完整的文本风格并据此对目标文本进行转换。
  2. 编辑后的背景一致性也很难得到保证,特别是当文本显示在一些比较复杂的场景时,比如:菜单和街道店铺招牌等。
  3. 另外,如果目标文本比原始文本短,则需要擦除字符的超过区域,并填充适当的纹理。

在这里插入图片描述

Para3. 为了应对上述挑战,提出了一个保留风格的网络SRN(style retention network),SRNet的核心思想在于将复杂的任务分解为几个简单的、模块化的、可联合训练的子网络:文本转换模块、背景修复模块和融合模块,如上图。

  1. 文本转换模块(Text conversion module,TCM)负责将原图的文本风格转移到目标文本上去,包括字体、颜色、位置以及规模大小。
    使用了一种骨架引导的学习机制(skeleton-guided learning mechanism)
  2. 背景修复模块( Inpaint(图片去水印工具))擦除原始文字笔画的像素,并以自底向上的特征融合方式填充适当的纹理。
    遵循“U-Net”的一般架构
  3. 融合模块,自动学习如何有效融合前景信息和背景纹理信息来生成编辑后的文本图像。

Para4

  1. 介绍GAN(Generative Adversarial Networks)网络;
  2. 我们不像以前使用GAN的工作一样使用单一的encoder-decoder架构,而是把复杂问题分解成几个模块化的子网络,近期一些工作都证明网络分解策略是有效的
  3. SRNet比pix2pix效果好
  4. 相比于字符替换的方式,我们的方法是基于词水平的,更有效。
  5. 此外,我们的方法不仅可以进行同语言的替换,还可以进行跨语言的文本替换/编辑。

Para5 本文的主要贡献:①首个在词级别实现文本编辑的网络;②采用网络分解的方式,效果更好了;③在笔画骨架(字形)的引导下,尽可能保证生成字体的效果;④在多种场景文本编辑任务,如语言内文本图像编辑、增强现实翻译(跨语言)、信息隐藏(如词级别文本擦除)等方面表现出优异的性能。

1.2.2 Related Word部分

分别介绍了GAN,文本风格迁移以及文本擦除和编辑,这三个方面现有的工作,存在的问题,本文提出的框架相对于目前工作的优点。
没啥好看的,也是前面的重复,就是引用了一些可能有用的论文。

1.2.3 Methology

没多看,都是公式,只是注意到一些信息。
在这里插入图片描述
如图,每一组图片左侧是原图,右侧是生成的图像。不难发现:

  1. 我数了一遍,除了第三行的第二、三列图像中存在,原图词语长度<生成图长度,可以直接用背景纹理填充之外。其余情况都是原图词语长度=生成图对应部分词语长度。显然,是一个非常大的局限,生成图语料长度>原图长度,生成效果会不好
  2. 丢进模型的可以不仅仅是文本行高度的图像,可以是任意含有文字的图像,这点与PaddleOCR的StyleText实施不太一样,Style-Text生成的数据主要应用于OCR识别场景。基于当前PaddleOCR识别模型的设计,我们主要支持高度在32左右的风格图像。 如果输入图像尺寸相差过多,效果可能不佳。
  3. 仔细观察的话,可以看到第二行第一列的图像中,字符Z.,这里前景色(字体颜色:白色)和背景色(混有白色的黄棕色)比较接近,同时字体轮廓不是非常清晰,效果就会不太好。这点可以在下方图得到验证

在这里插入图片描述
从上到下,依次是:原图,生成图,文字,文字骨架,背景图。

1.2.4 Experiments

没有关注和其他方法比较的内容,重点关注了4.8 Failure Cases,毕竟这才是对于工业使用最重要的部分。

当文本具有非常复杂的结构或罕见的字体形状时,效果可能会很差。
如下图,左侧是原图,右侧是合成结果。可以看到,
第一组:虽然前景文字风格转换的很好,但是背景的阴影还是原图的阴影。
第二组:没有提取出复杂空间结构的文字风格(有一定的透视效果),可以看到背景提取失败,直接融合前景和背景十分生硬。
第三组:围绕文本的边界没有被转移。
我们将这些失败案例归因于训练数据中这些样本的不足,因此我们假设可以通过增加更多字体效果的训练集来缓解这些问题。

在这里插入图片描述
总结

  • 有阴影的文本,
  • 原图有透视(非水平/平面正对效果的)的,
  • 有发光效果的,
  • 字体轮廓不明晰,
  • 前景色和背景色比较接近的,
  • 都不太适合用这个模型去拟合!

这篇关于读论文——(Styletext)Editing Text in the Wild的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/725371

相关文章

使用Sublime Text 2编辑CoffeeScript

Sublime Text 2很好很强大,咱就用它来编辑Coffee代码吧。 安装Sublime Text 2过程就略过了。   CoffeeScript作者是推荐使用TextMate编辑CoffeeScript的。但是TextMate收费,并且对中文支持不好。如果你不在意这两个问题,那么强烈推荐你使用TextMate,并关注CoffeeScript作者的TextMate

康奈尔大学之论文审稿模型Reviewer2及我司七月对其的实现(含PeerRead)

前言 自从我司于23年7月开始涉足论文审稿领域之后「截止到24年6月份,我司的七月论文审稿GPT已经迭代到了第五版,详见此文的8.1 七月论文审稿GPT(从第1版到第5版)」,在业界的影响力越来越大,所以身边朋友如发现业界有相似的工作,一般都会第一时间发给我,比如本部分要介绍的康奈尔大学的reviewer2 当然,我自己也会各种看类似工作的论文,毕竟同行之间的工作一定会互相借鉴的,我们会学他们

Sublime Text相关资料收集

前端开发工具技巧介绍——Sublime篇:http://www.imooc.com/learn/40 Package Control:https://sublime.wbond.net/ Sublime Text全程指南:http://zh.lucida.me/blog/sublime-text-complete-guide/ Emmet Documentation:http://d

把Sublime Text 2 加入右键菜单(带图标), Edit with Sublime Text

Sublime Text 2 是现在很受大家欢迎的编辑器了,不仅是在web前端,在书定简单的php、Js等代码时,也是相当的好用,再配合多种的插件和新颖的界面,更是让人欲罢不能。 在使用时,我们通过喜欢打开一个文件的时候,右击再选择打开程序,比如会用记事本、Notedpad++之类的,这时如果把Sublime Text也加入到其中毕竟会方便不少,在找了一番后,实验成功,效果如下: 实现

Sublime Text 快速折叠CSS代码到一行

快速折叠CSS代码到一行 1.使用HTML/CSS/JS Prettify或者CSScomb美化代码 2.使用Alt+F3特征选取,删除下图中所有的特征空格 3.使用Ctrl+Shift+M选取括号里的内容,再使用一次Ctrl+Shift+M将大括号也一起选中。 4.使用Ctr+J折叠代码 5.Home键 6.Backspace键

在浏览器中打开预览sublime text当前所编辑文件的方法和快捷键设置

配置在Chrome,Firefox中打开 安装 SideBarEnhancements 然后通过ctrl + k, ctrl + b打开侧边栏,在侧边栏的文件中右击,找到 open width -> edit applications 然后在这里边设置firefox打开的方式。 application : 路径要修改为自己默认安装的路径。 [     {

【论文精读】分类扩散模型:重振密度比估计(Revitalizing Density Ratio Estimation)

文章目录 一、文章概览(一)问题的提出(二)文章工作 二、理论背景(一)密度比估计DRE(二)去噪扩散模型 三、方法(一)推导分类和去噪之间的关系(二)组合训练方法(三)一步精确的似然计算 四、实验(一)使用两种损失对于实现最佳分类器的重要性(二)去噪结果、图像质量和负对数似然 论文:Classification Diffusion Models: Revitalizing

【python】python葡萄酒国家分布情况数据分析pyecharts可视化(源码+数据集+论文)【独一无二】

👉博__主👈:米码收割机 👉技__能👈:C++/Python语言 👉公众号👈:测试开发自动化【获取源码+商业合作】 👉荣__誉👈:阿里云博客专家博主、51CTO技术博主 👉专__注👈:专注主流机器人、人工智能等相关领域的开发、测试技术。 python葡萄酒国家分布情况数据分析pyecharts可视化(源码+数据集+论文)【独一无二】 目录 python葡

论文阅读--Efficient Hybrid Zoom using Camera Fusion on Mobile Phones

这是谷歌影像团队 2023 年发表在 Siggraph Asia 上的一篇文章,主要介绍的是利用多摄融合的思路进行变焦。 单反相机因为卓越的硬件性能,可以非常方便的实现光学变焦。不过目前的智能手机,受制于物理空间的限制,还不能做到像单反一样的光学变焦。目前主流的智能手机,都是采用多摄的设计,一般来说一个主摄搭配一个长焦,为了实现主摄与长焦之间的变焦,目前都是采用数字变焦的方式,数字变焦相比于光学

【LLM之KG】CoK论文阅读笔记

研究背景 大规模语言模型(LLMs)在许多自然语言处理(NLP)任务中取得了显著进展,特别是在零样本/少样本学习(In-Context Learning, ICL)方面。ICL不需要更新模型参数,只需利用几个标注示例就可以生成预测。然而,现有的ICL和链式思维(Chain-of-Thought, CoT)方法在复杂推理任务上仍存在生成的推理链常常伴随错误的问题,导致不真实和不可靠的推理结果。