给一个词就能模仿你的笔迹,Facebook这个AI强大到不敢开源代码

2024-02-02 11:18

本文主要是介绍给一个词就能模仿你的笔迹,Facebook这个AI强大到不敢开源代码,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

你在纸上写个词,AI 只要看一眼就能模仿你的笔迹,还是看起来毫无破绽的那种。

Facebook 近日公布了一项新的图像 AI——TextStyleBrush,该技术可以复制和再现图像中的文本风格。

借助该技术,你只需要输入一个词作为「标准」,AI 就能全篇模仿你的书写风格,一键执行,效果可谓惊艳。

此外,你还可以用它替换不同场景中的文字(比如海报、垃圾桶、路标等)。下图中左侧为原始场景图像,单词显示在蓝色矩形中;右侧为文本替换后的图像。

从图中可以看出,各种风格的字体 AI 几乎都能 hold 住。下图中每个图像对在左边显示输入源样式,在右边显示新内容(字符串),左右两端字体看起来风格完全相同。与源图像相比,输出的图像在外观上似乎都有些模糊,但我们可以看到,在大多数情况下,该技术似乎工作得很好。

与其他字迹模仿 AI 相比,TextStyleBrush 功能更强大,可以从更细微的角度分析文字样式,从而做到在各种角度和背景下进行字迹模仿。

下图是酱油瓶(Soya)替换为茶瓶(Tea)的实现过程:

这款强大的模仿神器正是 Facebook AI 推出的「TextStyleBrush」,只需输入一个单词,就能完美复现笔迹。这项技术的原理类似于文字处理 APP 中的样式笔刷工具,可以将文字和风格分开。

  • 论文地址:https://scontent-sjc3-1.xx.fbcdn.net/v/t39.8562-6/10000000_944085403038430_3779849959048683283_n.pdf?_nc_cat=108&ccb=1-3&_nc_sid=ae5e01&_nc_ohc=Jcq0m5jBvK8AX--fG2A&_nc_ht=scontent-sjc3-1.xx&oh=8b7e8221bba5aba6b6331c643764dec5&oe=60EF2B81

  • 数据集地址:https://github.com/facebookresearch/IMGUR5K-Handwriting-Dataset

它具有以下特点:

  • 只需要一个单词,就能复制照片中的文字风格。使用该 AI 模型,你可以编辑和替换图像中的文本。

  • 与大多数 AI 系统不同的是,TextStyleBrush 是首个自监督的 AI 模型,使用单个示例词一次性替换手写和图像中的文本。

  • 将来它会在个性化信息和字幕等领域释放新的潜力,比如在增强现实 (AR) 中实现逼真的语言翻译。

  • 通过公布这项研究所具有的能力、方法和结果,研究者希望推动对话和研究,以发现这类技术的潜在应用,如深度假文本攻击——这是人工智能领域的一大挑战。

由于 TextStyleBrush 也可能被用来制作误导性的图像,所以 Facebook 的 CTO 在个人社交网站表示,他们只发布了论文和数据集,但没有公开代码。并表示正如我们对 deepfakes 的方法一样,我们认为共享研究和数据集将有助于构建检测系统并提前预防攻击。

可以学习文本风格表征的 TextStyleBrush

用 AI 生成图像一直在以惊人的速度发展,这种生成技术能够重现历史场景,或者将照片变成梵高等绘画风格。现在,Facebook AI 已经建立了一个可以替换场景和手写文本风格的 AI,只需要一个单词作为输入。

虽然大多数 AI 系统都可以完成定义明确的、专门的任务,但构建一个足够灵活的 AI 系统,以理解现实场景中文本和手写体的细微差别,具有很大的挑战。这意味着需要了解众多的文本样式,不仅包括不同的字体和书写风格,而且也包括不同的转换,如旋转、弯曲的文字以及图像噪声等问题。

Facebook AI 提出了 TSB(TextStyleBrush)架构。该架构以自监督的方法进行训练,没有使用目标风格监督,只使用了原始风格图像。该框架可以自动地寻找图片真实风格。在训练时,它假设每个词框有真实值(出现在框中的文本);推理时,它采用单一源样式图像和新内容(字符串),并生成带有目标内容的源样式的新图像。

该生成器架构是基于 StyleGAN2 模型。然而,它有两个重要的限制:

首先,StyleGAN2 是一个无条件模型,这意味着它通过对一个随机的潜在向量进行采样来生成图像。但 TextStyleBrush 必须要生成指定文本的图像。

其次,TextStyleBrush 生成的文本图像风格不受控制。文本风格涉及全局信息(例如调色板和空间变换),以及精细的比例信息组合(例如单个笔迹的细微变化。

研究者通过内容和风格表征来调节生成器以解决上述限制。通过提取特定于层的风格信息并将其注入到生成器的每一层来处理文本风格的多尺度特性。除了以期望的风格生成目标图像外,生成器还生成表示前景像素 (文本区域) 的软蒙版图像。通过这种方式,生成器可以控制文本的低分辨率和高分辨率细节,以匹配所需的输入风格。

该研究还引入了一种新的自监督训练准则,该准则使用字体(typeface)分类器、文本识别器和对抗式鉴别器来保留源风格和目标内容。首先,研究者通过使用预训练的字体分类网络来评估生成器捕获输入文本风格的能力。另外,他们使用预训练文本识别网络来评估生成图像的内容,以反映生成器捕获目标内容的效果。总而言之,这种方法能够对训练进行有效的自监督。

实验

表 2 提供了评估不同损失函数、风格特征扩展以及训练 TSB 时 mask 的作用消融实验结果。实验结果显示,TextStyleBrush 生成的图片在 MSE(合成误差)上大幅降低,PSNR(峰值信噪比)、SSIM(结构相似性)均获得了提高。

表 3 是在三种数据集图像上测得的文本识别准确率。实验结果显示,TSB 的识别效果最好,在 IC13 上的识别准确率为 97.2%,IC15 上的识别准确率为 97.6%,TextVQA 上的识别准确率为 95.0%。

表 4 提供了生成的手写文本的定量比较,将 TSB 方法与 Davis 等人 [14] 专门为生成手写文本而设计的 SotA 方法进行了比较。FID 分数越低,生成质量越好。显然,TSB 方法优于以前的工作。

TextStyleBrush 证明了 AI 在文字上面可以比过去更加灵活、准确地识别,但这项技术仍然存在许多问题,如无法模仿金属表面的字符或彩色字符等, Facebook 希望这项研究能继续扩展,突破翻译、自主表达和 deepfake 研究之间的障碍等。

失败案例。

参考链接:

https://ai.facebook.com/blog/ai-can-now-emulate-text-style-in-images-in-one-shot-using-just-a-single-word

这篇关于给一个词就能模仿你的笔迹,Facebook这个AI强大到不敢开源代码的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/670532

相关文章

Ilya-AI分享的他在OpenAI学习到的15个提示工程技巧

Ilya(不是本人,claude AI)在社交媒体上分享了他在OpenAI学习到的15个Prompt撰写技巧。 以下是详细的内容: 提示精确化:在编写提示时,力求表达清晰准确。清楚地阐述任务需求和概念定义至关重要。例:不用"分析文本",而用"判断这段话的情感倾向:积极、消极还是中性"。 快速迭代:善于快速连续调整提示。熟练的提示工程师能够灵活地进行多轮优化。例:从"总结文章"到"用

AI绘图怎么变现?想做点副业的小白必看!

在科技飞速发展的今天,AI绘图作为一种新兴技术,不仅改变了艺术创作的方式,也为创作者提供了多种变现途径。本文将详细探讨几种常见的AI绘图变现方式,帮助创作者更好地利用这一技术实现经济收益。 更多实操教程和AI绘画工具,可以扫描下方,免费获取 定制服务:个性化的创意商机 个性化定制 AI绘图技术能够根据用户需求生成个性化的头像、壁纸、插画等作品。例如,姓氏头像在电商平台上非常受欢迎,

从去中心化到智能化:Web3如何与AI共同塑造数字生态

在数字时代的演进中,Web3和人工智能(AI)正成为塑造未来互联网的两大核心力量。Web3的去中心化理念与AI的智能化技术,正相互交织,共同推动数字生态的变革。本文将探讨Web3与AI的融合如何改变数字世界,并展望这一新兴组合如何重塑我们的在线体验。 Web3的去中心化愿景 Web3代表了互联网的第三代发展,它基于去中心化的区块链技术,旨在创建一个开放、透明且用户主导的数字生态。不同于传统

AI一键生成 PPT

AI一键生成 PPT 操作步骤 作为一名打工人,是不是经常需要制作各种PPT来分享我的生活和想法。但是,你们知道,有时候灵感来了,时间却不够用了!😩直到我发现了Kimi AI——一个能够自动生成PPT的神奇助手!🌟 什么是Kimi? 一款月之暗面科技有限公司开发的AI办公工具,帮助用户快速生成高质量的演示文稿。 无论你是职场人士、学生还是教师,Kimi都能够为你的办公文

Andrej Karpathy最新采访:认知核心模型10亿参数就够了,AI会打破教育不公的僵局

夕小瑶科技说 原创  作者 | 海野 AI圈子的红人,AI大神Andrej Karpathy,曾是OpenAI联合创始人之一,特斯拉AI总监。上一次的动态是官宣创办一家名为 Eureka Labs 的人工智能+教育公司 ,宣布将长期致力于AI原生教育。 近日,Andrej Karpathy接受了No Priors(投资博客)的采访,与硅谷知名投资人 Sara Guo 和 Elad G

AI hospital 论文Idea

一、Benchmarking Large Language Models on Communicative Medical Coaching: A Dataset and a Novel System论文地址含代码 大多数现有模型和工具主要迎合以患者为中心的服务。这项工作深入探讨了LLMs在提高医疗专业人员的沟通能力。目标是构建一个模拟实践环境,人类医生(即医学学习者)可以在其中与患者代理进行医学

AI行业应用(不定期更新)

ChatPDF 可以让你上传一个 PDF 文件,然后针对这个 PDF 进行小结和提问。你可以把各种各样你要研究的分析报告交给它,快速获取到想要知道的信息。https://www.chatpdf.com/

【北交大信息所AI-Max2】使用方法

BJTU信息所集群AI_MAX2使用方法 使用的前提是预约到相应的算力卡,拥有登录权限的账号密码,一般为导师组共用一个。 有浏览器、ssh工具就可以。 1.新建集群Terminal 浏览器登陆10.126.62.75 (如果是1集群把75改成66) 交互式开发 执行器选Terminal 密码随便设一个(需记住) 工作空间:私有数据、全部文件 加速器选GeForce_RTX_2080_Ti

AI Toolkit + H100 GPU,一小时内微调最新热门文生图模型 FLUX

上个月,FLUX 席卷了互联网,这并非没有原因。他们声称优于 DALLE 3、Ideogram 和 Stable Diffusion 3 等模型,而这一点已被证明是有依据的。随着越来越多的流行图像生成工具(如 Stable Diffusion Web UI Forge 和 ComyUI)开始支持这些模型,FLUX 在 Stable Diffusion 领域的扩展将会持续下去。 自 FLU

SWAP作物生长模型安装教程、数据制备、敏感性分析、气候变化影响、R模型敏感性分析与贝叶斯优化、Fortran源代码分析、气候数据降尺度与变化影响分析

查看原文>>>全流程SWAP农业模型数据制备、敏感性分析及气候变化影响实践技术应用 SWAP模型是由荷兰瓦赫宁根大学开发的先进农作物模型,它综合考虑了土壤-水分-大气以及植被间的相互作用;是一种描述作物生长过程的一种机理性作物生长模型。它不但运用Richard方程,使其能够精确的模拟土壤中水分的运动,而且耦合了WOFOST作物模型使作物的生长描述更为科学。 本文让更多的科研人员和农业工作者