给一个词就能模仿你的笔迹,Facebook这个AI强大到不敢开源代码

2024-02-02 11:18

本文主要是介绍给一个词就能模仿你的笔迹,Facebook这个AI强大到不敢开源代码,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

你在纸上写个词,AI 只要看一眼就能模仿你的笔迹,还是看起来毫无破绽的那种。

Facebook 近日公布了一项新的图像 AI——TextStyleBrush,该技术可以复制和再现图像中的文本风格。

借助该技术,你只需要输入一个词作为「标准」,AI 就能全篇模仿你的书写风格,一键执行,效果可谓惊艳。

此外,你还可以用它替换不同场景中的文字(比如海报、垃圾桶、路标等)。下图中左侧为原始场景图像,单词显示在蓝色矩形中;右侧为文本替换后的图像。

从图中可以看出,各种风格的字体 AI 几乎都能 hold 住。下图中每个图像对在左边显示输入源样式,在右边显示新内容(字符串),左右两端字体看起来风格完全相同。与源图像相比,输出的图像在外观上似乎都有些模糊,但我们可以看到,在大多数情况下,该技术似乎工作得很好。

与其他字迹模仿 AI 相比,TextStyleBrush 功能更强大,可以从更细微的角度分析文字样式,从而做到在各种角度和背景下进行字迹模仿。

下图是酱油瓶(Soya)替换为茶瓶(Tea)的实现过程:

这款强大的模仿神器正是 Facebook AI 推出的「TextStyleBrush」,只需输入一个单词,就能完美复现笔迹。这项技术的原理类似于文字处理 APP 中的样式笔刷工具,可以将文字和风格分开。

  • 论文地址:https://scontent-sjc3-1.xx.fbcdn.net/v/t39.8562-6/10000000_944085403038430_3779849959048683283_n.pdf?_nc_cat=108&ccb=1-3&_nc_sid=ae5e01&_nc_ohc=Jcq0m5jBvK8AX--fG2A&_nc_ht=scontent-sjc3-1.xx&oh=8b7e8221bba5aba6b6331c643764dec5&oe=60EF2B81

  • 数据集地址:https://github.com/facebookresearch/IMGUR5K-Handwriting-Dataset

它具有以下特点:

  • 只需要一个单词,就能复制照片中的文字风格。使用该 AI 模型,你可以编辑和替换图像中的文本。

  • 与大多数 AI 系统不同的是,TextStyleBrush 是首个自监督的 AI 模型,使用单个示例词一次性替换手写和图像中的文本。

  • 将来它会在个性化信息和字幕等领域释放新的潜力,比如在增强现实 (AR) 中实现逼真的语言翻译。

  • 通过公布这项研究所具有的能力、方法和结果,研究者希望推动对话和研究,以发现这类技术的潜在应用,如深度假文本攻击——这是人工智能领域的一大挑战。

由于 TextStyleBrush 也可能被用来制作误导性的图像,所以 Facebook 的 CTO 在个人社交网站表示,他们只发布了论文和数据集,但没有公开代码。并表示正如我们对 deepfakes 的方法一样,我们认为共享研究和数据集将有助于构建检测系统并提前预防攻击。

可以学习文本风格表征的 TextStyleBrush

用 AI 生成图像一直在以惊人的速度发展,这种生成技术能够重现历史场景,或者将照片变成梵高等绘画风格。现在,Facebook AI 已经建立了一个可以替换场景和手写文本风格的 AI,只需要一个单词作为输入。

虽然大多数 AI 系统都可以完成定义明确的、专门的任务,但构建一个足够灵活的 AI 系统,以理解现实场景中文本和手写体的细微差别,具有很大的挑战。这意味着需要了解众多的文本样式,不仅包括不同的字体和书写风格,而且也包括不同的转换,如旋转、弯曲的文字以及图像噪声等问题。

Facebook AI 提出了 TSB(TextStyleBrush)架构。该架构以自监督的方法进行训练,没有使用目标风格监督,只使用了原始风格图像。该框架可以自动地寻找图片真实风格。在训练时,它假设每个词框有真实值(出现在框中的文本);推理时,它采用单一源样式图像和新内容(字符串),并生成带有目标内容的源样式的新图像。

该生成器架构是基于 StyleGAN2 模型。然而,它有两个重要的限制:

首先,StyleGAN2 是一个无条件模型,这意味着它通过对一个随机的潜在向量进行采样来生成图像。但 TextStyleBrush 必须要生成指定文本的图像。

其次,TextStyleBrush 生成的文本图像风格不受控制。文本风格涉及全局信息(例如调色板和空间变换),以及精细的比例信息组合(例如单个笔迹的细微变化。

研究者通过内容和风格表征来调节生成器以解决上述限制。通过提取特定于层的风格信息并将其注入到生成器的每一层来处理文本风格的多尺度特性。除了以期望的风格生成目标图像外,生成器还生成表示前景像素 (文本区域) 的软蒙版图像。通过这种方式,生成器可以控制文本的低分辨率和高分辨率细节,以匹配所需的输入风格。

该研究还引入了一种新的自监督训练准则,该准则使用字体(typeface)分类器、文本识别器和对抗式鉴别器来保留源风格和目标内容。首先,研究者通过使用预训练的字体分类网络来评估生成器捕获输入文本风格的能力。另外,他们使用预训练文本识别网络来评估生成图像的内容,以反映生成器捕获目标内容的效果。总而言之,这种方法能够对训练进行有效的自监督。

实验

表 2 提供了评估不同损失函数、风格特征扩展以及训练 TSB 时 mask 的作用消融实验结果。实验结果显示,TextStyleBrush 生成的图片在 MSE(合成误差)上大幅降低,PSNR(峰值信噪比)、SSIM(结构相似性)均获得了提高。

表 3 是在三种数据集图像上测得的文本识别准确率。实验结果显示,TSB 的识别效果最好,在 IC13 上的识别准确率为 97.2%,IC15 上的识别准确率为 97.6%,TextVQA 上的识别准确率为 95.0%。

表 4 提供了生成的手写文本的定量比较,将 TSB 方法与 Davis 等人 [14] 专门为生成手写文本而设计的 SotA 方法进行了比较。FID 分数越低,生成质量越好。显然,TSB 方法优于以前的工作。

TextStyleBrush 证明了 AI 在文字上面可以比过去更加灵活、准确地识别,但这项技术仍然存在许多问题,如无法模仿金属表面的字符或彩色字符等, Facebook 希望这项研究能继续扩展,突破翻译、自主表达和 deepfake 研究之间的障碍等。

失败案例。

参考链接:

https://ai.facebook.com/blog/ai-can-now-emulate-text-style-in-images-in-one-shot-using-just-a-single-word

这篇关于给一个词就能模仿你的笔迹,Facebook这个AI强大到不敢开源代码的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/670532

相关文章

Spring AI集成DeepSeek的详细步骤

《SpringAI集成DeepSeek的详细步骤》DeepSeek作为一款卓越的国产AI模型,越来越多的公司考虑在自己的应用中集成,对于Java应用来说,我们可以借助SpringAI集成DeepSe... 目录DeepSeek 介绍Spring AI 是什么?1、环境准备2、构建项目2.1、pom依赖2.2

Deepseek R1模型本地化部署+API接口调用详细教程(释放AI生产力)

《DeepseekR1模型本地化部署+API接口调用详细教程(释放AI生产力)》本文介绍了本地部署DeepSeekR1模型和通过API调用将其集成到VSCode中的过程,作者详细步骤展示了如何下载和... 目录前言一、deepseek R1模型与chatGPT o1系列模型对比二、本地部署步骤1.安装oll

Spring AI Alibaba接入大模型时的依赖问题小结

《SpringAIAlibaba接入大模型时的依赖问题小结》文章介绍了如何在pom.xml文件中配置SpringAIAlibaba依赖,并提供了一个示例pom.xml文件,同时,建议将Maven仓... 目录(一)pom.XML文件:(二)application.yml配置文件(一)pom.xml文件:首

SpringBoot整合DeepSeek实现AI对话功能

《SpringBoot整合DeepSeek实现AI对话功能》本文介绍了如何在SpringBoot项目中整合DeepSeekAPI和本地私有化部署DeepSeekR1模型,通过SpringAI框架简化了... 目录Spring AI版本依赖整合DeepSeek API key整合本地化部署的DeepSeek

Rsnapshot怎么用? 基于Rsync的强大Linux备份工具使用指南

《Rsnapshot怎么用?基于Rsync的强大Linux备份工具使用指南》Rsnapshot不仅可以备份本地文件,还能通过SSH备份远程文件,接下来详细介绍如何安装、配置和使用Rsnaps... Rsnapshot 是一款开源的文件系统快照工具。它结合了 Rsync 和 SSH 的能力,可以帮助你在 li

PyCharm接入DeepSeek实现AI编程的操作流程

《PyCharm接入DeepSeek实现AI编程的操作流程》DeepSeek是一家专注于人工智能技术研发的公司,致力于开发高性能、低成本的AI模型,接下来,我们把DeepSeek接入到PyCharm中... 目录引言效果演示创建API key在PyCharm中下载Continue插件配置Continue引言

Ubuntu系统怎么安装Warp? 新一代AI 终端神器安装使用方法

《Ubuntu系统怎么安装Warp?新一代AI终端神器安装使用方法》Warp是一款使用Rust开发的现代化AI终端工具,该怎么再Ubuntu系统中安装使用呢?下面我们就来看看详细教程... Warp Terminal 是一款使用 Rust 开发的现代化「AI 终端」工具。最初它只支持 MACOS,但在 20

Ilya-AI分享的他在OpenAI学习到的15个提示工程技巧

Ilya(不是本人,claude AI)在社交媒体上分享了他在OpenAI学习到的15个Prompt撰写技巧。 以下是详细的内容: 提示精确化:在编写提示时,力求表达清晰准确。清楚地阐述任务需求和概念定义至关重要。例:不用"分析文本",而用"判断这段话的情感倾向:积极、消极还是中性"。 快速迭代:善于快速连续调整提示。熟练的提示工程师能够灵活地进行多轮优化。例:从"总结文章"到"用

AI绘图怎么变现?想做点副业的小白必看!

在科技飞速发展的今天,AI绘图作为一种新兴技术,不仅改变了艺术创作的方式,也为创作者提供了多种变现途径。本文将详细探讨几种常见的AI绘图变现方式,帮助创作者更好地利用这一技术实现经济收益。 更多实操教程和AI绘画工具,可以扫描下方,免费获取 定制服务:个性化的创意商机 个性化定制 AI绘图技术能够根据用户需求生成个性化的头像、壁纸、插画等作品。例如,姓氏头像在电商平台上非常受欢迎,

从去中心化到智能化:Web3如何与AI共同塑造数字生态

在数字时代的演进中,Web3和人工智能(AI)正成为塑造未来互联网的两大核心力量。Web3的去中心化理念与AI的智能化技术,正相互交织,共同推动数字生态的变革。本文将探讨Web3与AI的融合如何改变数字世界,并展望这一新兴组合如何重塑我们的在线体验。 Web3的去中心化愿景 Web3代表了互联网的第三代发展,它基于去中心化的区块链技术,旨在创建一个开放、透明且用户主导的数字生态。不同于传统