给一个词就能模仿你的笔迹,Facebook这个AI强大到不敢开源代码

2024-02-02 11:18

本文主要是介绍给一个词就能模仿你的笔迹,Facebook这个AI强大到不敢开源代码,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

你在纸上写个词,AI 只要看一眼就能模仿你的笔迹,还是看起来毫无破绽的那种。

Facebook 近日公布了一项新的图像 AI——TextStyleBrush,该技术可以复制和再现图像中的文本风格。

借助该技术,你只需要输入一个词作为「标准」,AI 就能全篇模仿你的书写风格,一键执行,效果可谓惊艳。

此外,你还可以用它替换不同场景中的文字(比如海报、垃圾桶、路标等)。下图中左侧为原始场景图像,单词显示在蓝色矩形中;右侧为文本替换后的图像。

从图中可以看出,各种风格的字体 AI 几乎都能 hold 住。下图中每个图像对在左边显示输入源样式,在右边显示新内容(字符串),左右两端字体看起来风格完全相同。与源图像相比,输出的图像在外观上似乎都有些模糊,但我们可以看到,在大多数情况下,该技术似乎工作得很好。

与其他字迹模仿 AI 相比,TextStyleBrush 功能更强大,可以从更细微的角度分析文字样式,从而做到在各种角度和背景下进行字迹模仿。

下图是酱油瓶(Soya)替换为茶瓶(Tea)的实现过程:

这款强大的模仿神器正是 Facebook AI 推出的「TextStyleBrush」,只需输入一个单词,就能完美复现笔迹。这项技术的原理类似于文字处理 APP 中的样式笔刷工具,可以将文字和风格分开。

  • 论文地址:https://scontent-sjc3-1.xx.fbcdn.net/v/t39.8562-6/10000000_944085403038430_3779849959048683283_n.pdf?_nc_cat=108&ccb=1-3&_nc_sid=ae5e01&_nc_ohc=Jcq0m5jBvK8AX--fG2A&_nc_ht=scontent-sjc3-1.xx&oh=8b7e8221bba5aba6b6331c643764dec5&oe=60EF2B81

  • 数据集地址:https://github.com/facebookresearch/IMGUR5K-Handwriting-Dataset

它具有以下特点:

  • 只需要一个单词,就能复制照片中的文字风格。使用该 AI 模型,你可以编辑和替换图像中的文本。

  • 与大多数 AI 系统不同的是,TextStyleBrush 是首个自监督的 AI 模型,使用单个示例词一次性替换手写和图像中的文本。

  • 将来它会在个性化信息和字幕等领域释放新的潜力,比如在增强现实 (AR) 中实现逼真的语言翻译。

  • 通过公布这项研究所具有的能力、方法和结果,研究者希望推动对话和研究,以发现这类技术的潜在应用,如深度假文本攻击——这是人工智能领域的一大挑战。

由于 TextStyleBrush 也可能被用来制作误导性的图像,所以 Facebook 的 CTO 在个人社交网站表示,他们只发布了论文和数据集,但没有公开代码。并表示正如我们对 deepfakes 的方法一样,我们认为共享研究和数据集将有助于构建检测系统并提前预防攻击。

可以学习文本风格表征的 TextStyleBrush

用 AI 生成图像一直在以惊人的速度发展,这种生成技术能够重现历史场景,或者将照片变成梵高等绘画风格。现在,Facebook AI 已经建立了一个可以替换场景和手写文本风格的 AI,只需要一个单词作为输入。

虽然大多数 AI 系统都可以完成定义明确的、专门的任务,但构建一个足够灵活的 AI 系统,以理解现实场景中文本和手写体的细微差别,具有很大的挑战。这意味着需要了解众多的文本样式,不仅包括不同的字体和书写风格,而且也包括不同的转换,如旋转、弯曲的文字以及图像噪声等问题。

Facebook AI 提出了 TSB(TextStyleBrush)架构。该架构以自监督的方法进行训练,没有使用目标风格监督,只使用了原始风格图像。该框架可以自动地寻找图片真实风格。在训练时,它假设每个词框有真实值(出现在框中的文本);推理时,它采用单一源样式图像和新内容(字符串),并生成带有目标内容的源样式的新图像。

该生成器架构是基于 StyleGAN2 模型。然而,它有两个重要的限制:

首先,StyleGAN2 是一个无条件模型,这意味着它通过对一个随机的潜在向量进行采样来生成图像。但 TextStyleBrush 必须要生成指定文本的图像。

其次,TextStyleBrush 生成的文本图像风格不受控制。文本风格涉及全局信息(例如调色板和空间变换),以及精细的比例信息组合(例如单个笔迹的细微变化。

研究者通过内容和风格表征来调节生成器以解决上述限制。通过提取特定于层的风格信息并将其注入到生成器的每一层来处理文本风格的多尺度特性。除了以期望的风格生成目标图像外,生成器还生成表示前景像素 (文本区域) 的软蒙版图像。通过这种方式,生成器可以控制文本的低分辨率和高分辨率细节,以匹配所需的输入风格。

该研究还引入了一种新的自监督训练准则,该准则使用字体(typeface)分类器、文本识别器和对抗式鉴别器来保留源风格和目标内容。首先,研究者通过使用预训练的字体分类网络来评估生成器捕获输入文本风格的能力。另外,他们使用预训练文本识别网络来评估生成图像的内容,以反映生成器捕获目标内容的效果。总而言之,这种方法能够对训练进行有效的自监督。

实验

表 2 提供了评估不同损失函数、风格特征扩展以及训练 TSB 时 mask 的作用消融实验结果。实验结果显示,TextStyleBrush 生成的图片在 MSE(合成误差)上大幅降低,PSNR(峰值信噪比)、SSIM(结构相似性)均获得了提高。

表 3 是在三种数据集图像上测得的文本识别准确率。实验结果显示,TSB 的识别效果最好,在 IC13 上的识别准确率为 97.2%,IC15 上的识别准确率为 97.6%,TextVQA 上的识别准确率为 95.0%。

表 4 提供了生成的手写文本的定量比较,将 TSB 方法与 Davis 等人 [14] 专门为生成手写文本而设计的 SotA 方法进行了比较。FID 分数越低,生成质量越好。显然,TSB 方法优于以前的工作。

TextStyleBrush 证明了 AI 在文字上面可以比过去更加灵活、准确地识别,但这项技术仍然存在许多问题,如无法模仿金属表面的字符或彩色字符等, Facebook 希望这项研究能继续扩展,突破翻译、自主表达和 deepfake 研究之间的障碍等。

失败案例。

参考链接:

https://ai.facebook.com/blog/ai-can-now-emulate-text-style-in-images-in-one-shot-using-just-a-single-word

这篇关于给一个词就能模仿你的笔迹,Facebook这个AI强大到不敢开源代码的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/670532

相关文章

揭秘未来艺术:AI绘画工具全面介绍

📑前言 随着科技的飞速发展,人工智能(AI)已经逐渐渗透到我们生活的方方面面。在艺术创作领域,AI技术同样展现出了其独特的魅力。今天,我们就来一起探索这个神秘而引人入胜的领域,深入了解AI绘画工具的奥秘及其为艺术创作带来的革命性变革。 一、AI绘画工具的崛起 1.1 颠覆传统绘画模式 在过去,绘画是艺术家们通过手中的画笔,蘸取颜料,在画布上自由挥洒的创造性过程。然而,随着AI绘画工

一份LLM资源清单围观技术大佬的日常;手把手教你在美国搭建「百万卡」AI数据中心;为啥大模型做不好简单的数学计算? | ShowMeAI日报

👀日报&周刊合集 | 🎡ShowMeAI官网 | 🧡 点赞关注评论拜托啦! 1. 为啥大模型做不好简单的数学计算?从大模型高考数学成绩不及格说起 司南评测体系 OpenCompass 选取 7 个大模型 (6 个开源模型+ GPT-4o),组织参与了 2024 年高考「新课标I卷」的语文、数学、英语考试,然后由经验丰富的判卷老师评判得分。 结果如上图所

AI儿童绘本创作

之前分享过AI儿童绘画的项目,但是主要问题是角色一致要花费很长的时间! 今天发现了这款,非常奈斯! 只需输入故事主题、风格、模板,软件就会自动创作故事内容,自动生成插画配图,自动根据模板生成成品,测试效果如下图。 变现方式:生成儿童绘本发布到各平台,吸引宝妈群体进私域。  百度网盘 请输入提取码百度网盘为您提供文件的网络备份、同步和分享服务。空间大、速度快、安全

人工和AI大语言模型成本对比 ai语音模型

这里既有AI,又有生活大道理,无数渺小的思考填满了一生。 上一专题搭建了一套GMM-HMM系统,来识别连续0123456789的英文语音。 但若不是仅针对数字,而是所有普通词汇,可能达到十几万个词,解码过程将非常复杂,识别结果组合太多,识别结果不会理想。因此只有声学模型是完全不够的,需要引入语言模型来约束识别结果。让“今天天气很好”的概率高于“今天天汽很好”的概率,得到声学模型概率高,又符合表达

智能客服到个人助理,国内AI大模型如何改变我们的生活?

引言 随着人工智能(AI)技术的高速发展,AI大模型越来越多地出现在我们的日常生活和工作中。国内的AI大模型在过去几年里取得了显著的进展,不少独创的技术点和实际应用令人瞩目。 那么,国内的AI大模型有哪些独创的技术点?它们在实际应用中又有哪些出色表现呢?此外,普通人又该如何利用这些大模型提升工作和生活的质量和效率呢?本文将为你一一解析。 一、国内AI大模型的独创技术点 多模态学习 多

探索Elastic Search:强大的开源搜索引擎,详解及使用

🎬 鸽芷咕:个人主页  🔥 个人专栏: 《C++干货基地》《粉丝福利》 ⛺️生活的理想,就是为了理想的生活! 引入 全文搜索属于最常见的需求,开源的 Elasticsearch (以下简称 Elastic)是目前全文搜索引擎的首选,相信大家多多少少的都听说过它。它可以快速地储存、搜索和分析海量数据。就连维基百科、Stack Overflow、

【新闻】AI程序员要来了吗?阿里云官宣

内容提要 6 月 21 日,在阿里云上海 AI 峰会上,阿里云宣布推出首个AI 程序员。 据介绍,这个AI程序员具备架构师、开发工程师、测试工程师等多种岗位的技能,能一站式自主完成任务分解、代码编写、测试、问题修复、代码提交整个过程,最快分钟级即可完成应用开发,大幅提升研发效率。 近段时间以来,有关AI的实践应用突破不断,全球开发者加速研发步伐。有业内人士坦言,随着大模型性能逐渐提升,AI应

AI元宇宙

随着科技的迅猛发展,人工智能(AI)迎来了一个宇宙大爆发的时代。特别是以GPT为代表的生成式大模型的诞生和不断进步,彻底改变了人们的工作和生活方式。程序员与AI协同工作写代码已成为常态,大模型不仅提高了工作效率,还为人类带来了无限的可能性。 AI元宇宙http://ai.toolxq.com/#/如同生物进化出眼睛打开了三维世界的元宇宙之后,GPT打开了人+AI工作模式的新时代,程序员的人生被划

AI学习指南机器学习篇-朴素贝叶斯处理连续特征和离散特征

AI学习指南机器学习篇-朴素贝叶斯处理连续特征和离散特征 在机器学习领域,朴素贝叶斯是一种常用的分类算法,它的简单性和高效性使得它在实际应用中得到了广泛的应用。然而,在使用朴素贝叶斯算法进行分类时,我们通常会面临一个重要的问题,就是如何处理连续特征和离散特征。因为朴素贝叶斯算法基于特征的条件独立性假设,所以对于不同类型的特征,我们需要采取不同的处理方式。 在本篇博客中,我们将探讨如何有效地处理

AI赋能天气:微软研究院发布首个大规模大气基础模型Aurora

编者按:气候变化日益加剧,高温、洪水、干旱,频率和强度不断增加的全球极端天气给整个人类社会都带来了难以估计的影响。这给现有的天气预测模型提出了更高的要求——这些模型要更准确地预测极端天气变化,为政府、企业和公众提供更可靠的信息,以便做出及时的准备和响应。为了应对这一挑战,微软研究院开发了首个大规模大气基础模型 Aurora,其超高的预测准确率、效率及计算速度,实现了目前最先进天气预测系统性能的显著