每日AIGC最新进展(54):中科大提出Pose引导的图像生成模型、韩国科技学院提出发型控制模型、北大提出风格生成数据集CSGO

本文主要是介绍每日AIGC最新进展(54):中科大提出Pose引导的图像生成模型、韩国科技学院提出发型控制模型、北大提出风格生成数据集CSGO,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

Diffusion Models专栏文章汇总:入门与实战

GRPose: Learning Graph Relations for Human Image Generation with Pose Priors

在过去的研究中,基于扩散模型的人工生成技术在根据特定条件合成高质量人像方面取得了显著进展。然而,尽管之前的方案引入了姿势先验,现有方法仍然在高质量图像生成和稳定的姿势对齐上存在不足。为了解决这些问题,我们提出了一种新框架——图关系姿势(GRPose),通过建立姿势先验的图拓扑结构,深度挖掘姿势部件之间的内在关联。我们的核心创新在于设计了一种渐进式图集成器(PGI),利用图卷积网络(GCNs)有效捕捉不同姿势部件之间的高阶关系。此外,我们还引入了一种新颖的姿势感知损失,旨在进一步提升生成图像与给定姿势之间的对齐质量。实验结果表明,GRPose在多个基准数据集上表现优越,相较于最新的基准模型,其姿势平均精度提高了9.98%。

我们的GRPose框架主要由三个部分组成:扩散管道、图姿势适配器和姿势感知损失。首先,利用CLIP文本编码器将文本提示转换为嵌入形式,作为生成输入。在扩散网络中,使用稳定扩散(Stable Diffusion)作为基础模型,结合了变分自编码器(VAE)进行图像的编码和解码,以及使用U-Net进行噪声估计。我们的PGI将姿势先验与潜在表示的每个空间点视为图的节点,通过K近邻搜索算法构建图结构。接着,通过图卷积网络聚合不同节点的信息,增强图中各节点间的关联性更新其特征,最终通过融合层捕捉姿势与图像潜在特征间的交互关系。随后,引入的姿势感知损失利用预训练的姿势估计网络,监测生成图像与原始图像之间的姿势差异,以最大限度降低这种差异,确保生成的人像与指定姿势的一致性。

我们在Human-Art和LAION-Human数据集上进行了广泛的定性和定量实验,以评估GRPose的性能。在Human-Art数据集上,我们的模型达到了49.50%的平均精度(AP)和70.84%的相似度平均精度(SAP),相较于ControlNet显著提升了9.98%。在LAION-Human数据集中,GRPose同样表现出色,AP提高了6.06%。通过与其他最先进的方法进行比较,我们的实验表明GRPose实现了更好的姿势对齐和图像质量。特别是在多姿势生成的测试中,GRPose显示了优越的性能,不仅维护了生成图像的清晰度,还保证了姿势的一致性。综合各项指标,GRPose在多个评价标准下均超过了现有主流方法的表现,从而突出其在姿势引导人像生成中的应用潜力。

What to Preserve and What to Transfer: Faithful, Identity-Preserving Diffusion-based Hairstyle Transfer

本研究提出了名为HairFusion的创新发型转移模型,旨在实现高保真、身份保持的发型图像处理。发型转移是一项挑战性任务,其目标是在保持人脸图像身份、衣物和背景特征的同时,将参考发型应用于输入的脸部图像。现有的办法多基于预训练的StyleGAN模型,通常难以处理真实场景中的复杂条件,例如显著的头部姿势变化和不同的焦距。HairFusion通过一种一阶段的扩散模型方法来克服这些限制,采用hair-agnostic表示作为输入,确保模型在处理多样化面孔时的有效性。同时,引入了头发对齐交叉注意力模块(Align-CA),以改进发型与面孔的对齐能力,并使用自适应发型混合技术在推理过程中保持面孔图像中的原始特征。这种方法展示了其在发型转移任务中的优秀表现,表现优于现有的插值和扩散模型方法。

HairFusion模型采用了前所未有的头发对齐交叉注意力模块(Align-CA),用于处理输入图像的hair-agnostic表示,并有效地消除原始发型信息。在处理过程中,Align-CA借助人脸轮廓编码器对输入的发型图像和目标面部图像之间的关系进行对齐,以应对面部形状和姿势的差异。通过精确提取每个图像的特征图,Align-CA将参考发型的特征作为键(K)和值(V),同时将面部图像的特征作为查询(Q),增强系统在不同头部姿势和面部形状间的适应能力。为了进一步改善图像输出的质量,研究者们设计了一种自适应发型混合技术,通过分析交叉注意力图,确定头发区域与非头发区域之间的对应关系,进而有效保留源面孔的细节和其余特征。该技术使HairFusion在转移发型的同时,尽量减少原图样本的特征丢失,从而提高生成图像的真实性。

CSGO: Content-Style Composition in Text-to-Image Generation

本研究围绕文本到图像生成中的内容风格合成(CSGO)展开,提出了一种新的方法以优化图像风格迁移过程。尽管现有的扩散模型在控制图像生成方面表现出色,但图像风格迁移仍然是一个具有挑战性的领域,主要因为多样化的风格和有限的数据集。本研究开发了一种数据构建流程,该流程能够自动生成并清理内容风格图像三元组(CSSIT),并成功构建了一个名为IMAGStyle的大规模数据集,包含210,000个图像三元组。此外,提出的CSGO模型采用了端到端训练策略,通过独立的特征注入模块,有效地分离了内容和风格特征,从而提高了图像风格迁移的质量和控制能力。研究结果显示,CSGO在多种视觉任务中均实现了卓越的性能。

为验证所提出的方法的有效性,本研究进行了大量实验,评估CSGO模型在风格控制和内容保留方面的性能。使用IMAGStyle数据集进行训练,并对比了多种最新的方法,包括StyleID、InstantStyle等。在图像驱动的风格迁移任务中,CSGO展现了最高的样式相似性得分(CSD),同时保持了较低的内容丢失评分(CAS),表明其在风格控制方面的强大能力。此外,在文本驱动样式生成和文本编辑样例合成任务中,CSGO同样表现出优越的控制特性,能更准确地遵循文本提示并生成相应风格的图像。实验结果充分验证了IMAGStyle数据集和CSGO框架在图像风格迁移中的重要作用,鼓励后续更多研究探索该领域。

这篇关于每日AIGC最新进展(54):中科大提出Pose引导的图像生成模型、韩国科技学院提出发型控制模型、北大提出风格生成数据集CSGO的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1125978

相关文章

Spring Security 基于表达式的权限控制

前言 spring security 3.0已经可以使用spring el表达式来控制授权,允许在表达式中使用复杂的布尔逻辑来控制访问的权限。 常见的表达式 Spring Security可用表达式对象的基类是SecurityExpressionRoot。 表达式描述hasRole([role])用户拥有制定的角色时返回true (Spring security默认会带有ROLE_前缀),去

大模型研发全揭秘:客服工单数据标注的完整攻略

在人工智能(AI)领域,数据标注是模型训练过程中至关重要的一步。无论你是新手还是有经验的从业者,掌握数据标注的技术细节和常见问题的解决方案都能为你的AI项目增添不少价值。在电信运营商的客服系统中,工单数据是客户问题和解决方案的重要记录。通过对这些工单数据进行有效标注,不仅能够帮助提升客服自动化系统的智能化水平,还能优化客户服务流程,提高客户满意度。本文将详细介绍如何在电信运营商客服工单的背景下进行

基于MySQL Binlog的Elasticsearch数据同步实践

一、为什么要做 随着马蜂窝的逐渐发展,我们的业务数据越来越多,单纯使用 MySQL 已经不能满足我们的数据查询需求,例如对于商品、订单等数据的多维度检索。 使用 Elasticsearch 存储业务数据可以很好的解决我们业务中的搜索需求。而数据进行异构存储后,随之而来的就是数据同步的问题。 二、现有方法及问题 对于数据同步,我们目前的解决方案是建立数据中间表。把需要检索的业务数据,统一放到一张M

关于数据埋点,你需要了解这些基本知识

产品汪每天都在和数据打交道,你知道数据来自哪里吗? 移动app端内的用户行为数据大多来自埋点,了解一些埋点知识,能和数据分析师、技术侃大山,参与到前期的数据采集,更重要是让最终的埋点数据能为我所用,否则可怜巴巴等上几个月是常有的事。   埋点类型 根据埋点方式,可以区分为: 手动埋点半自动埋点全自动埋点 秉承“任何事物都有两面性”的道理:自动程度高的,能解决通用统计,便于统一化管理,但个性化定

基于人工智能的图像分类系统

目录 引言项目背景环境准备 硬件要求软件安装与配置系统设计 系统架构关键技术代码示例 数据预处理模型训练模型预测应用场景结论 1. 引言 图像分类是计算机视觉中的一个重要任务,目标是自动识别图像中的对象类别。通过卷积神经网络(CNN)等深度学习技术,我们可以构建高效的图像分类系统,广泛应用于自动驾驶、医疗影像诊断、监控分析等领域。本文将介绍如何构建一个基于人工智能的图像分类系统,包括环境

使用SecondaryNameNode恢复NameNode的数据

1)需求: NameNode进程挂了并且存储的数据也丢失了,如何恢复NameNode 此种方式恢复的数据可能存在小部分数据的丢失。 2)故障模拟 (1)kill -9 NameNode进程 [lytfly@hadoop102 current]$ kill -9 19886 (2)删除NameNode存储的数据(/opt/module/hadoop-3.1.4/data/tmp/dfs/na

异构存储(冷热数据分离)

异构存储主要解决不同的数据,存储在不同类型的硬盘中,达到最佳性能的问题。 异构存储Shell操作 (1)查看当前有哪些存储策略可以用 [lytfly@hadoop102 hadoop-3.1.4]$ hdfs storagepolicies -listPolicies (2)为指定路径(数据存储目录)设置指定的存储策略 hdfs storagepolicies -setStoragePo

Hadoop集群数据均衡之磁盘间数据均衡

生产环境,由于硬盘空间不足,往往需要增加一块硬盘。刚加载的硬盘没有数据时,可以执行磁盘数据均衡命令。(Hadoop3.x新特性) plan后面带的节点的名字必须是已经存在的,并且是需要均衡的节点。 如果节点不存在,会报如下错误: 如果节点只有一个硬盘的话,不会创建均衡计划: (1)生成均衡计划 hdfs diskbalancer -plan hadoop102 (2)执行均衡计划 hd

AI一键生成 PPT

AI一键生成 PPT 操作步骤 作为一名打工人,是不是经常需要制作各种PPT来分享我的生活和想法。但是,你们知道,有时候灵感来了,时间却不够用了!😩直到我发现了Kimi AI——一个能够自动生成PPT的神奇助手!🌟 什么是Kimi? 一款月之暗面科技有限公司开发的AI办公工具,帮助用户快速生成高质量的演示文稿。 无论你是职场人士、学生还是教师,Kimi都能够为你的办公文

Andrej Karpathy最新采访:认知核心模型10亿参数就够了,AI会打破教育不公的僵局

夕小瑶科技说 原创  作者 | 海野 AI圈子的红人,AI大神Andrej Karpathy,曾是OpenAI联合创始人之一,特斯拉AI总监。上一次的动态是官宣创办一家名为 Eureka Labs 的人工智能+教育公司 ,宣布将长期致力于AI原生教育。 近日,Andrej Karpathy接受了No Priors(投资博客)的采访,与硅谷知名投资人 Sara Guo 和 Elad G