InstantID:一张照片,无需训练,秒级个人写真生成

2024-02-05 00:28

本文主要是介绍InstantID:一张照片,无需训练,秒级个人写真生成,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

1. 引言

InstantID是一种基于扩散模型的强大解决方案。设计的即插即用模块仅使用单个面部图像就能熟练地处理各种风格的图像个性化,同时确保高保真度。它的核心是设计了一个新颖的 IdentityNet,通过强加语义和弱空间条件,将面部和地标图像与文本提示相结合来引导图像生成。

仅给定一张参考 ID 图像,InstantID 的目标是从单个参考 ID 图像生成具有各种姿势或风格的定制图像,同时确保高保真度。它包含三个关键组成部分:

  • 捕获语义人脸信息的 ID 嵌入;
  • 具有解耦交叉注意力的轻量级适配模块,方便使用图像作为视觉提示
  • IdentityNet,通过额外的空间控制对参考面部图像的详细特征进行编码
    在这里插入图片描述

2. InstantID功能介绍

功能1:一张人脸生成任意风格的图片

在这里插入图片描述
在这里插入图片描述

功能2:可编辑性

通过文本提示词来编辑生成的图片,比如改变图像中人物的表情、背景或其他元素。也可以借助 ControlNet插件更加精准地控制图像的生成细节,实现个性化定制。
在这里插入图片描述

功能3:多重参考

允许使用多张参考图像来生成一个新图像,从而增强生成图像的丰富性和多样性。
在这里插入图片描述
对于多个参考图像,取 ID 嵌入的平均平均值作为图像提示。即使只有一张参考图像,InstantID 也能取得良好的结果。
在这里插入图片描述
InstantID 也可以灵活支持将身份属性添加到非人类角色中。

3. InstantID与同类产品比较

比较1:InstantID 与 IP-Adapter/IP-Adapter-FaceID/PhotoMaker

在这里插入图片描述
与 IP-Adapter (IPA)、IP-Adapter-FaceID 和最新的 PhotoMaker 进行比较。其中,PhotoMaker需要训练UNet的LoRA参数。可以看到,PhotoMaker和IP-Adapter-FaceID都实现了良好的保真度,但文本控制能力有明显的退化。相比之下,InstantID 实现了更好的保真度并保留了良好的文本可编辑性(面孔和样式更好地融合)。

比较2:InstantID与LORA

在这里插入图片描述
InstantID无需任何训练就可以像 LoRA 一样取得有竞争力的效果。

比较3:InstantID与InsightFace Swapper

在这里插入图片描述
在非写实风格中,InstantID在面部和背景的融合上更加灵活。

4. InstantID使用体验

下面我们在huggingface网站上面使用体验一下。
在这里插入图片描述
在最上面有操作步数说明,核心操作只需要4步。

【第一步】:个人图片的上传

对于多人图像,我们将只检测最大的脸。确保脸部不要太小,没有明显的遮挡或模糊。

比如我们这里上传一张紫霞仙子的照片。
在这里插入图片描述
【第二步】: (可选) 上传另一个人的图像作为参考姿势

如果没有上传,我们将使用第一人称图像提取地标。如果在步骤1中使用裁剪过的脸,建议上传它来提取一个新的姿势。

【第三步】:提示词的编写

提示词:A beautiful woman was sitting on the grass in the park
在这里插入图片描述
【第四步】:图片的生成

我们先选择不同的风格,然后点击"Submit"按钮,就可以生成图片了。我们这里看一下不同风格的图片效果。

风格1:WaterColor(水彩)
在这里插入图片描述
从生产图片效果来看,人物图像保持得非常统一,和原图片的相似度非常高。

相关说明
(1)如果对相似度不满意,可以适当增加controlnet_conditioning_scale (IdentityNet)和ip_adapter_scale (Adapter)的权重。
在这里插入图片描述
(2)如果生成的图像过度饱和,请减小 ip_adapter_scale的权重。如果不起作用,请减小controlnet_conditioning_scale的权重。

(3)如果文本提示词不符合预期,减小ip_adapter_scale的权重。

(4)选择一个好的基本模型是很重要的。

这篇关于InstantID:一张照片,无需训练,秒级个人写真生成的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/679251

相关文章

android 带与不带logo的二维码生成

该代码基于ZXing项目,这个网上能下载得到。 定义的控件以及属性: public static final int SCAN_CODE = 1;private ImageView iv;private EditText et;private Button qr_btn,add_logo;private Bitmap logo,bitmap,bmp; //logo图标private st

智能客服到个人助理,国内AI大模型如何改变我们的生活?

引言 随着人工智能(AI)技术的高速发展,AI大模型越来越多地出现在我们的日常生活和工作中。国内的AI大模型在过去几年里取得了显著的进展,不少独创的技术点和实际应用令人瞩目。 那么,国内的AI大模型有哪些独创的技术点?它们在实际应用中又有哪些出色表现呢?此外,普通人又该如何利用这些大模型提升工作和生活的质量和效率呢?本文将为你一一解析。 一、国内AI大模型的独创技术点 多模态学习 多

YOLO v3 训练速度慢的问题

一天一夜出了两个模型,仅仅迭代了200次   原因:编译之前没有将Makefile 文件里的GPU设置为1,编译的是CPU版本,必须训练慢   解决方案: make clean  vim Makefile make   再次训练 速度快了,5分钟迭代了500次

将一维机械振动信号构造为训练集和测试集(Python)

从如下链接中下载轴承数据集。 https://www.sciencedirect.com/science/article/pii/S2352340918314124 import numpy as npimport scipy.io as sioimport matplotlib.pyplot as pltimport statistics as statsimport pandas

FastAdmin/bootstrapTable 表格中生成的按钮设置成文字

公司有个系统后台框架用的是FastAdmin,后台表格的操作栏按钮只有图标,想要设置成文字。 查资料后发现其实很简单,主需要新增“text”属性即可,如下 buttons: [{name: 'acceptcompany',title: '复核企业',text:'复核企业',classname: 'btn btn-xs btn-primary btn-dialog',icon: 'fa fa-pe

六西格玛培训公司:解锁成功之门,让企业与个人共赴“嗨”途

在竞争激烈的21世纪,六西格玛培训公司手握一把神奇的钥匙,帮助企业及个人轻松开启成功的大门。 对企业来说: 产品质量飞跃:不再是偶尔的精品,而是每个产品都如同精雕细琢的艺术品,吸引无数顾客争相购买。 工作流程优化:六西格玛培训如同精准的剪刀,剪去冗余,让工作流程更加顺畅高效。 客户满意度飙升:深谙客户需求的六西格玛,帮助企业精准把握市场脉搏,让每位客户都感受到宾至如归的满意。 战略转型游刃有

el-upload 上传图片及回显照片和预览图片,文件流和http线上链接格式操作

<div v-for="(info, index) in zsjzqwhxqList.helicopterTourInfoList" :key="info.id" >编辑上传图片// oss返回线上地址http链接格式:<el-form-itemlabel="巡视结果照片":label-width="formLabelWidth"><el-upload:action="'http:

写一个坏越的个人天地(二)

小红书上搜了下博客,感觉好像没有让自己喜欢的。昨天刚好学了点grid布局,来试试 菜单栏直接使用el-menu 下边布局就用grid局部了,这块初步想法是轮播+你的天气和我的天气+自我介绍 天气的话,这边要先找一下有没有天气的api 我这边百度搜了个聚合的api,一天可以免费调用50次,应该是够了吧~要用代理,不然会报cors import axios from 'axios

个人博客文章目录索引(持续更新中...)

文章目录 一、Java基础二、Java相关三、MySql基础四、Mybatis基础及源码五、MybatisPlus基础六、Spring基础及源码七、Tomcat源码八、SpringMVC基础及源码   随着文章数量多起来,每次着急翻找半天,而是新申请的域名下来了,决定整理下最近几年的文章目录索引。(红色标记为常检索文章) 一、Java基础 1、Java基础(一):语言概述2、J

PHP生成csv格式Excel,秒级别实现excel导出功能

防止报超内存,兼容中文,兼容科学技术法。 爽。。。。很爽。。。。 /*** 告诉浏览器下载csv文件* @param string $filename*/public static function downloadCsv($data, $filename, $encoding = 'utf-8'){header("Content-type: text/csv");header("Conten