【论文简介】个性化真实人像生成方法(2024.01.15发布,即将开源)

本文主要是介绍【论文简介】个性化真实人像生成方法(2024.01.15发布,即将开源),希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

在这里插入图片描述
零样本身份保留生成方法:声称效果好于PhotoMaker(即将开源)
2401.InstantID: Zero-shot Identity-Preserving Generation in Seconds :
项目主页:https://instantid.github.io/

一、简介

本文的主要内容是介绍了一种名为InstantID的零样本身份保留生成方法,它可以在只有一个面部图像的情况下生成保留身份细节的个性化图像。
这种方法通过引入一个轻量级的适配器模块和一个身份网络来实现强大的身份控制和面部细节保留。
实验结果表明,InstantID在保持原始模型的文本编辑能力的同时,能够有效地保留身份细节,具有出色的性能和效率。

官方展示效果

在这里插入图片描述

原图1 对论文作者进行风格化图片生成

在这里插入图片描述

主要方法

模型由三部分组成,以保持高面部保真度。
首先,我们采用人脸编码器(face encoder)而不是CLIP来提取语义人脸特征,并使用可训练的投影层(a trainable projection layer)将它们投影到文本特征的空间。我们将投影特征作为人脸嵌入(face embedding)。
然后,引入一个具有解耦交叉注意(decoupled cross-attention)的轻量级自适应模块(lightweight adaptive module)来支持图像作为提示(prompts)。
最后,我们提出了IdentityNet,用额外的弱空间控制对参考图像中的复杂特征进行编码。
在 IdentityNet 中,生成过程完全由人脸嵌入(face embedding)指导,没有任何文本信息。
只有新添加的模块被更新(训练),而预训练的文本到图像模型仍然被冻结以确保灵活性。
训练后,用户可以高保真地生成任何风格的id保留图像
在这里插入图片描述

原图5 和主流方法比较效果

从左到右分别是IP-Adapter-SDXL、IPAdapter-SDXL-FaceID (*表示实验版本)、IP-Adapter-SD1.5-FaceID、IP-Adapter-SD1.5-FaceID-Plus
对比发现依赖 CLIP embeddingIP-Adapter无法实现面部保真度(facial fidelity),也会导致提示控制的退化生成样式(degradation of prompt control to generate styles)。
IP-Adapter-FaceID 引入了人脸嵌入向量(face embedding),提高了人脸保真度,但仍然无法实现高保真度。
IPAdapter-FaceID-Plus结合了人脸和CLIP embeding,可以实现良好的人脸保真度,但存在风格退化问题,导致人脸无法融入背景风格。
在这里插入图片描述

这篇关于【论文简介】个性化真实人像生成方法(2024.01.15发布,即将开源)的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/622987

相关文章

Ilya-AI分享的他在OpenAI学习到的15个提示工程技巧

Ilya(不是本人,claude AI)在社交媒体上分享了他在OpenAI学习到的15个Prompt撰写技巧。 以下是详细的内容: 提示精确化:在编写提示时,力求表达清晰准确。清楚地阐述任务需求和概念定义至关重要。例:不用"分析文本",而用"判断这段话的情感倾向:积极、消极还是中性"。 快速迭代:善于快速连续调整提示。熟练的提示工程师能够灵活地进行多轮优化。例:从"总结文章"到"用

这15个Vue指令,让你的项目开发爽到爆

1. V-Hotkey 仓库地址: github.com/Dafrok/v-ho… Demo: 戳这里 https://dafrok.github.io/v-hotkey 安装: npm install --save v-hotkey 这个指令可以给组件绑定一个或多个快捷键。你想要通过按下 Escape 键后隐藏某个组件,按住 Control 和回车键再显示它吗?小菜一碟: <template

AI一键生成 PPT

AI一键生成 PPT 操作步骤 作为一名打工人,是不是经常需要制作各种PPT来分享我的生活和想法。但是,你们知道,有时候灵感来了,时间却不够用了!😩直到我发现了Kimi AI——一个能够自动生成PPT的神奇助手!🌟 什么是Kimi? 一款月之暗面科技有限公司开发的AI办公工具,帮助用户快速生成高质量的演示文稿。 无论你是职场人士、学生还是教师,Kimi都能够为你的办公文

高效+灵活,万博智云全球发布AWS无代理跨云容灾方案!

摘要 近日,万博智云推出了基于AWS的无代理跨云容灾解决方案,并与拉丁美洲,中东,亚洲的合作伙伴面向全球开展了联合发布。这一方案以AWS应用环境为基础,将HyperBDR平台的高效、灵活和成本效益优势与无代理功能相结合,为全球企业带来实现了更便捷、经济的数据保护。 一、全球联合发布 9月2日,万博智云CEO Michael Wong在线上平台发布AWS无代理跨云容灾解决方案的阐述视频,介绍了

阿里开源语音识别SenseVoiceWindows环境部署

SenseVoice介绍 SenseVoice 专注于高精度多语言语音识别、情感辨识和音频事件检测多语言识别: 采用超过 40 万小时数据训练,支持超过 50 种语言,识别效果上优于 Whisper 模型。富文本识别:具备优秀的情感识别,能够在测试数据上达到和超过目前最佳情感识别模型的效果。支持声音事件检测能力,支持音乐、掌声、笑声、哭声、咳嗽、喷嚏等多种常见人机交互事件进行检测。高效推

【C++】_list常用方法解析及模拟实现

相信自己的力量,只要对自己始终保持信心,尽自己最大努力去完成任何事,就算事情最终结果是失败了,努力了也不留遗憾。💓💓💓 目录   ✨说在前面 🍋知识点一:什么是list? •🌰1.list的定义 •🌰2.list的基本特性 •🌰3.常用接口介绍 🍋知识点二:list常用接口 •🌰1.默认成员函数 🔥构造函数(⭐) 🔥析构函数 •🌰2.list对象

pdfmake生成pdf的使用

实际项目中有时会有根据填写的表单数据或者其他格式的数据,将数据自动填充到pdf文件中根据固定模板生成pdf文件的需求 文章目录 利用pdfmake生成pdf文件1.下载安装pdfmake第三方包2.封装生成pdf文件的共用配置3.生成pdf文件的文件模板内容4.调用方法生成pdf 利用pdfmake生成pdf文件 1.下载安装pdfmake第三方包 npm i pdfma

浅谈主机加固,六种有效的主机加固方法

在数字化时代,数据的价值不言而喻,但随之而来的安全威胁也日益严峻。从勒索病毒到内部泄露,企业的数据安全面临着前所未有的挑战。为了应对这些挑战,一种全新的主机加固解决方案应运而生。 MCK主机加固解决方案,采用先进的安全容器中间件技术,构建起一套内核级的纵深立体防护体系。这一体系突破了传统安全防护的局限,即使在管理员权限被恶意利用的情况下,也能确保服务器的安全稳定运行。 普适主机加固措施:

webm怎么转换成mp4?这几种方法超多人在用!

webm怎么转换成mp4?WebM作为一种新兴的视频编码格式,近年来逐渐进入大众视野,其背后承载着诸多优势,但同时也伴随着不容忽视的局限性,首要挑战在于其兼容性边界,尽管WebM已广泛适应于众多网站与软件平台,但在特定应用环境或老旧设备上,其兼容难题依旧凸显,为用户体验带来不便,再者,WebM格式的非普适性也体现在编辑流程上,由于它并非行业内的通用标准,编辑过程中可能会遭遇格式不兼容的障碍,导致操

poj 1258 Agri-Net(最小生成树模板代码)

感觉用这题来当模板更适合。 题意就是给你邻接矩阵求最小生成树啦。~ prim代码:效率很高。172k...0ms。 #include<stdio.h>#include<algorithm>using namespace std;const int MaxN = 101;const int INF = 0x3f3f3f3f;int g[MaxN][MaxN];int n