阿里通义最新黑科技!“通义舞王”:让静态照片翩翩起舞,探索艺术与科技的无限可能

本文主要是介绍阿里通义最新黑科技!“通义舞王”:让静态照片翩翩起舞,探索艺术与科技的无限可能,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

引子:穿越二维与三维的艺术边界

在科技日新月异的时代,艺术创作的疆界正以前所未有的速度拓展,,从AI作曲和音乐生成技术带来的跨风格音乐作品,到基于人工智能的诗歌与文学创作,艺术不再仅仅是人类个体情感与才华的体现,而成为人机交互、数据智能与创新思维相互融合的新领域。

近日,阿里云再次引领创新潮流,推出一款令人叹为观止的AI黑科技——“通义舞王”。

image.png

该功能内置于通义千问APP中,它突破了平面与立体、静止与动态之间的壁垒,能够将一张普通的照片在短时间内转化为一段神形兼备的舞蹈视频,让每一位用户都能感受到科技进步带来的魔法般的艺术体验。接下来,就带领各位一起切身体验一下吧!

从照片到舞者:体验一键唤醒沉睡的灵魂

目前,该功能只适用于手机APP端,web端暂时不支持哈。

image.png

所以请先在手机下载通义APP,下载完成后在输入框输入“通义舞王”,然后就会跳转进舞王界面了,具体操作如下:

640.gif

点击立即体验热舞,我们可以看到很多模板,这些模板包含了当前比较热门的“科目三” “DJ慢摇”等视频:

image.png

我们选到最热门的科目三栏目下面,此时会有几个已有人物模板,但是做为一个真正的ikun,我的梦想一直是希望能看到我家鸽鸽跳这支舞,所以我毫不犹豫的上传了他的照片。

对于上传的照片,其实也是有要求的,最好是一张清晰的正面单人照片,尽量避免有遮挡物或背景干扰

5791c45818c07b7e01673a5999d8c47.jpg

对于用户自己上传的照片,将其视频化需要一定的时间,根据笔者的体验平均需要10分钟15分钟之间,所以只需要耐心等待即可~此时可以保留后台去刷刷别的视频,当制作完成后会有相应提示的。

经过十几分钟的等待,鸽鸽跳舞的视频就生成好了,还能很好地保留原照片的面部表情、身材比例、服装以及背景等特征。

dba06a353b5fe29ba6b3f8bee34ed2ed.gif

“通义舞王”以其深度学习和计算机视觉的核心技术,赋予静态人物照片全新的生命力。只需上传一张照片,无论拍摄对象是谁,无论何种姿势,“通义舞王”都能够通过高精度的人脸识别及人体姿态分析算法,捕捉并模拟人物的关键动作点,进而将其与丰富多样的舞蹈模板无缝对接,生成逼真且富有表现力的舞蹈视频。

千变万化的舞蹈宇宙背后究竟是什么?

通义千问之所以能够实现生成流畅且高质量的舞蹈视频,依靠的是近期阿里巴巴XR实验室研发团队公布的一项名为“Animate Anyone”的创新算法,其核心能力是利用扩散模型从静态人物图像出发,自动生成流畅且连贯的角色动画视频。

image.png

Animate Anyone 可以将任意角色的照片转化为一系列按照所需姿势排列的动态视频内容,这一突破不仅显著提升了图像到视频合成的质量,特别是在角色动画的自然度和稳定性上,而且简化了传统动画制作流程,降低了创作门槛。

image.png

Animate Anyone使用扩散模型生成视频,同时引入了ReferenceNet来保持细节特征的一致性,Pose Guider来控制角色的动作,以及Temporal-Attention来保证视频帧之间的平滑过渡。它可以将静态的角色图像(包括真人、动漫/卡通角色等)转化为动画视频,同时保留角色的细节特征(如面部表情、服装细节等)。

  • ReferenceNet:负责编码参考图像角色的外观特征;

  • Pose Guider(姿态引导器):负责编码动作控制信号以实现可控角色运动;

  • Temporal layer(时间层):负责编码时间关系,以确保角色动作的连续性。

一些历史的姿态驱动视频生成方案,在生成的视频上容易出现视频一致性(准确度)减弱的问题。另一个核心的问题在于,之前的一些驱动方案在以人作为主题的视频生成,无法同时保证泛化性和一致性的能力。

而在该方法中,通过上述三个模块,能够将角色图片转化为受期望姿态序列控制的动画视频,同时确保外观一致性和时间稳定性。

image.png

在上面这张架构图中,我们也可以清晰的看到这三个模块之间的关系。

**ReferenceNet**

简单来说,构建了一个“完整Unet版”的Controlnet。设计了一个与去噪UNet结构相同的ReferenceNet。在每个UNet块的对应层,我们用空间注意力替换了自我注意力层,将ReferenceNet的特征与去噪UNet的特征相结合。

image.png

同时文章给出了和原生ControlNet的的取舍的原因:为什么不使用ControlNet 一般Unet+零卷积的实现方案,整体的原因是输入的控制信息,例如作为深度和边缘的canny特征控制,适合输入图像一致对齐的。但是落到现在的具体任务中,参考图像和目标图像在空间上相关但不一致(所以只能做controlNet reference-only相似生成)。因此,ControlNet不是适合直接应用。

**Pose Guider**

同样不同于COntrolNet的设计方式,为了不增加控制网络模型的复杂性,没有引入额外的插件来实现该功能。引入了一个轻量级的Pose Guider,它使用四个卷积层将姿态图像与噪声表达,将处理后的图像添加到噪声中,作为去噪UNet的输入。

image.png

时序Attention层:

受到AnimateDiff的启发。为了确保帧间的平滑过渡,在Res-Trans块中加入了时间时序Attention模块,通过时序Attention模块,来进行时空一致性的控制。时序Attention层位于Res-Trans块内,对特征图进行时间注意力操作,从而捕获帧间的相关性。时间层的输出与原始特征图通过残差连接相结合,以保留空间信息。这种设计可以实现让模型能够生成具有平滑帧间过渡的动画视频。

image.png

除此之外,该方法还采用了一种分阶段的训练策略,分为两个阶段进行训练,以实现高质量的角色动画。

第一阶段:

在第一阶段,使用单帧图像作为输入进行训练,暂时不使用时间层。这个阶段的主要目标是学习参考图像中的细节特征,并实现有效的运动控制。在这个阶段,仅训练ReferenceNet和Pose Guider。通过在单个图像上进行训练,模型能够专注于学习与参考图像相关联的细节特征,同时实现对角色运动的控制。这为后续阶段的训练奠定了基础。

第2阶段:

在第二阶段,引入时间层,并使用24帧视频序列进行训练。这个阶段的主要目标是实现帧间的平滑过渡,从而使生成的视频具有更好的时间连续性。通过在视频序列上进行训练,模型能够学习到帧间的相关性,并调整其生成过程以实现更自然的动画效果。

训练过程分为两个阶段有助于在不同阶段关注不同的目标,从而实现高质量的角色动画。在第一阶段,模型学习保留细节特征并实现运动控制;在第二阶段,模型进一步优化帧间过渡,使生成的视频更加流畅和自然。通过这种分阶段训练策略,能够在角色动画任务上取得优越的性能。

上述内容也是来自于论文中的,这里也给出相关链接,有兴趣的朋友可以直接看看。

anyone项目地址:https://humanaigc.github.io/animate-anyone/

论文地址:https://arxiv.org/pdf/2311.17117.pdf

仓库地址(目前尚未开源):https://github.com/HumanAIGC/AnimateAnyone

深度解读:科技如何重塑艺术表达?

“通义舞王”的诞生不仅刷新了我们对数字艺术的认知,也提出了关于未来艺术创作的新课题。当科技的力量逐渐渗透至传统艺术领域,会否催生出一种全新的艺术形式?人工智能能否成为艺术家们的创意伙伴,共同编织出超越现实的梦幻之舞?而作为普通用户,我们又该如何把握这种新工具,去创造属于自己的艺术故事,并在全球数字化的大背景下,分享个人独特的文化与情感表达?

对此,笔者看法如下:

首先,毫无疑问,科技能够为艺术创作注入了无限可能,极大地拓宽了艺术表现手法和媒介的范围。就以AI绘画为例,它通过深度学习技术模拟人类艺术家的创作风格与技法,能够在短时间内生成大量风格各异的艺术作品,无论是古典主义、抽象派还是超现实主义,都能被算法捕捉并重新演绎。这种新型的艺术生产方式不仅突破了物理空间和时间的限制,也使得艺术创作的门槛降低,让更多的创作者得以尝试艺术表达,从而推动艺术生态更加多元化,对于普通用户而言确实是一件大好事。

除此之外,科技确实也会催生出全新的艺术体验模式,比如今年云栖大会就有一个VR的李白展让我印象十分深刻,观众能够通过沉浸式VR/AR眼镜跨越时空面对面和李白交流,从被动接受者转变为主动参与者。这种参与性艺术实践模糊了创作者与观赏者的界限,使艺术作品的生命力得到了前所未有的延伸和深化。

然而,在科技带来的积极影响之外,我们也应审慎思考其潜在的负面问题。一方面,AI艺术创作可能会引发原创性和真实性的争议,因为机器虽能模仿各种艺术风格,但缺乏真正的人类情感内核和创意灵感,这可能导致艺术界对于“何为真正的艺术”这一基本命题产生混淆。另一方面,过度依赖科技可能会导致艺术创作陷入机械化、同质化的陷阱。若艺术仅是算法模型的结果而丧失了个体的创造力和独立思考,则艺术作品的多样性和复杂性将受到影响,甚至有可能阻碍艺术发展的内在动力。

此外,科技带来的便利性也可能改变艺术市场的格局,如版权归属问题肖像权问题、艺术品真实性判定等问题也随之浮现,这些都需要在法律制度和伦理规范层面进行深入探讨和完善。

共赴未来的艺术之旅

面对“通义舞王”所带来的颠覆性变革,我们不禁对未来充满了期待。这不仅仅是一个AI跳舞视频生成工具,更是连接现实与虚拟、个人与集体、传统与现代的一座桥梁。让我们携手踏上这段由科技驱动的艺术探索之旅,在“通义舞王”的助力下,一起见证并参与这场席卷全球的艺术革命!

这篇关于阿里通义最新黑科技!“通义舞王”:让静态照片翩翩起舞,探索艺术与科技的无限可能的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/768014

相关文章

浅谈mysql的sql_mode可能会限制你的查询

《浅谈mysql的sql_mode可能会限制你的查询》本文主要介绍了浅谈mysql的sql_mode可能会限制你的查询,这个问题主要说明的是,我们写的sql查询语句违背了聚合函数groupby的规则... 目录场景:问题描述原因分析:解决方案:第一种:修改后,只有当前生效,若是mysql服务重启,就会失效;

查看Oracle数据库中UNDO表空间的使用情况(最新推荐)

《查看Oracle数据库中UNDO表空间的使用情况(最新推荐)》Oracle数据库中查看UNDO表空间使用情况的4种方法:DBA_TABLESPACES和DBA_DATA_FILES提供基本信息,V$... 目录1. 通过 DBjavascriptA_TABLESPACES 和 DBA_DATA_FILES

Linux系统中配置静态IP地址的详细步骤

《Linux系统中配置静态IP地址的详细步骤》本文详细介绍了在Linux系统中配置静态IP地址的五个步骤,包括打开终端、编辑网络配置文件、配置IP地址、保存并重启网络服务,这对于系统管理员和新手都极具... 目录步骤一:打开终端步骤二:编辑网络配置文件步骤三:配置静态IP地址步骤四:保存并关闭文件步骤五:重

Jackson库进行JSON 序列化时遇到了无限递归(Infinite Recursion)的问题及解决方案

《Jackson库进行JSON序列化时遇到了无限递归(InfiniteRecursion)的问题及解决方案》使用Jackson库进行JSON序列化时遇到了无限递归(InfiniteRecursi... 目录解决方案‌1. 使用 @jsonIgnore 忽略一个方向的引用2. 使用 @JsonManagedR

最新Spring Security实战教程之Spring Security安全框架指南

《最新SpringSecurity实战教程之SpringSecurity安全框架指南》SpringSecurity是Spring生态系统中的核心组件,提供认证、授权和防护机制,以保护应用免受各种安... 目录前言什么是Spring Security?同类框架对比Spring Security典型应用场景传统

最新Spring Security实战教程之表单登录定制到处理逻辑的深度改造(最新推荐)

《最新SpringSecurity实战教程之表单登录定制到处理逻辑的深度改造(最新推荐)》本章节介绍了如何通过SpringSecurity实现从配置自定义登录页面、表单登录处理逻辑的配置,并简单模拟... 目录前言改造准备开始登录页改造自定义用户名密码登陆成功失败跳转问题自定义登出前后端分离适配方案结语前言

OpenManus本地部署实战亲测有效完全免费(最新推荐)

《OpenManus本地部署实战亲测有效完全免费(最新推荐)》文章介绍了如何在本地部署OpenManus大语言模型,包括环境搭建、LLM编程接口配置和测试步骤,本文给大家讲解的非常详细,感兴趣的朋友一... 目录1.概况2.环境搭建2.1安装miniconda或者anaconda2.2 LLM编程接口配置2

MyBatis-Plus中静态工具Db的多种用法及实例分析

《MyBatis-Plus中静态工具Db的多种用法及实例分析》本文将详细讲解MyBatis-Plus中静态工具Db的各种用法,并结合具体案例进行演示和说明,具有很好的参考价值,希望对大家有所帮助,如有... 目录MyBATis-Plus中静态工具Db的多种用法及实例案例背景使用静态工具Db进行数据库操作插入

Mysql中InnoDB与MyISAM索引差异详解(最新整理)

《Mysql中InnoDB与MyISAM索引差异详解(最新整理)》InnoDB和MyISAM在索引实现和特性上有差异,包括聚集索引、非聚集索引、事务支持、并发控制、覆盖索引、主键约束、外键支持和物理存... 目录1. 索引类型与数据存储方式InnoDBMyISAM2. 事务与并发控制InnoDBMyISAM

Redis 内存淘汰策略深度解析(最新推荐)

《Redis内存淘汰策略深度解析(最新推荐)》本文详细探讨了Redis的内存淘汰策略、实现原理、适用场景及最佳实践,介绍了八种内存淘汰策略,包括noeviction、LRU、LFU、TTL、Rand... 目录一、 内存淘汰策略概述二、内存淘汰策略详解2.1 ​noeviction(不淘汰)​2.2 ​LR