阿里又放大招:Emo!!

2024-03-10 02:12
文章标签 阿里 放大 emo

本文主要是介绍阿里又放大招:Emo!!,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

大家好,我是程序员牛牛,《AI超级个体: ChatGPT与AIGC实战指南》的参与人,10年Java编程程序员。

我们先来看几张图

马斯克和库克跳科目三

图片

慈禧跳舞

图片

这是前段时间很火的通义舞王生成的,只需要一张图片,就能让人物跳舞,如果你没玩过,赶紧试试!

但最近阿里又放大招了!

阿里巴巴智能计算研究所发布了一款全新的生成式AI模型EMO(Emote Portrait Alive)。EMO仅需一张人物肖像照片和音频,就可以让照片中的人物按照音频内容“张嘴”唱歌、说话,且口型基本一致,面部表情和头部姿态非常自然。

只需要一个音频+一张图片,就能让图片根据音频进行讲话或者唱歌!

前面给大家分享过Sora,里面的AI角色,我们也可以让她讲话

声音来源:Dua Lipa - Don't Start Now

蒙娜丽莎讲话

声音来源:莎士比亚的独白II 皆可:罗莎琳德“是的,一个;并且以这种方式。”

哥哥张国荣唱歌,看到这里快泪崩了

声音来源:陈奕迅 - Eason Chan - Unconditional. Covered by AI (粤语)

还有让强哥模仿法外狂徒讲课

声音来源:法外狂徒-法律考试在线课程

可以看到,上面生成的视频,具有表情丰富的面部表情和各种头部姿势,前不久的sora目前还只能支持1分钟的视频,但这个更牛逼了,可以根据输入音频的长度生成任意持续时间的视频

EMO的工作过程分为两个主要阶段:首先,利用参考网络(ReferenceNet)从参考图像和动作帧中提取特征;然后,利用预训练的音频编码器处理声音并嵌入,再结合多帧噪声和面部区域掩码来生成视频。该框架还融合了两种注意机制和时间模块,以确保视频中角色身份的一致性和动作的自然流畅。

这个过程相当于,AI先看一下照片,然后打开声音,再随着声音一张一张地画出视频中每一帧变化的图像。

图片

不过目前这个技术还没有开源,我们可以保持持续关注,期待国产AI的崛起!

最后附上EMO的原理图

图片

欢迎大家转发关注我的公众号,我将持续为大家分享编程前沿技术及日常编程技巧!

到公众号上可以查看视频文件!点击此处查看原文

这篇关于阿里又放大招:Emo!!的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/792682

相关文章

阿里开源语音识别SenseVoiceWindows环境部署

SenseVoice介绍 SenseVoice 专注于高精度多语言语音识别、情感辨识和音频事件检测多语言识别: 采用超过 40 万小时数据训练,支持超过 50 种语言,识别效果上优于 Whisper 模型。富文本识别:具备优秀的情感识别,能够在测试数据上达到和超过目前最佳情感识别模型的效果。支持声音事件检测能力,支持音乐、掌声、笑声、哭声、咳嗽、喷嚏等多种常见人机交互事件进行检测。高效推

阿里云服务器ces

允许公网通过 HTTP、HTTPS 等服务访问实例 https://help.aliyun.com/document_detail/25475.html?spm=5176.2020520101.0.0.3ca96b0b3KGTPq#allowHttp

LLM系列 | 38:解读阿里开源语音多模态模型Qwen2-Audio

引言 模型概述 模型架构 训练方法 性能评估 实战演示 总结 引言 金山挂月窥禅径,沙鸟听经恋法门。 小伙伴们好,我是微信公众号《小窗幽记机器学习》的小编:卖铁观音的小男孩,今天这篇小作文主要是介绍阿里巴巴的语音多模态大模型Qwen2-Audio。近日,阿里巴巴Qwen团队发布了最新的大规模音频-语言模型Qwen2-Audio及其技术报告。该模型在音频理解和多模态交互

超越IP-Adapter!阿里提出UniPortrait,可通过文本定制生成高保真的单人或多人图像。

阿里提出UniPortrait,能根据用户提供的文本描述,快速生成既忠实于原图又能灵活调整的个性化人像,用户甚至可以通过简单的句子来描述多个不同的人物,而不需要一一指定每个人的位置。这种设计大大简化了用户的操作,提升了个性化生成的效率和效果。 UniPortrait以统一的方式定制单 ID 和多 ID 图像,提供高保真身份保存、广泛的面部可编辑性、自由格式的文本描述,并且无需预先确定的布局。

node.js实现阿里云短信发送

效果图 实现 一、准备工作 1、官网直达网址: 阿里云 - 短信服务 2、按照首页提示依次完成相应资质认证和短信模板审核; 3、获取你的accessKeySecret和accessKeyId; 方法如下: 获取AccessKey-阿里云帮助中心 4、获取SignName(签名名称)和 TemplateCode(模板code); 二、代码实现 1、项目结构 【/c

Matlab中BaseZoom()函数实现曲线和图片的局部放大

BaseZoom工具下载链接: 链接:https://pan.baidu.com/s/1yItVSinh6vU4ImlbZW6Deg?pwd=9dyl 提取码:9dyl 下载完之后将工具包放置合适的路径下,并在matlab中“设置路径”中添加相应的路径; 注:可以先运行如下图片中的语句,看看是否报错;如果报如下错误,说明matlab未安装“Image Processing Toolbox”工

JS_阿里云oss视频上传后,如何获取视频封面

当您需要获取视频封面、提取视频关键帧图像进行视频编辑,或者提取视频中特定场景帧图像用于视频监控等时,可以将视频上传至OSS存储空间,然后通过本文所示方法进行视频截帧。 使用示例 本文示例使用的Bucket为杭州地域名为oss-console-img-demo-cn-hangzhou的Bucket,视频外网访问地址为: https://oss-console-img-demo-cn-hangzho

阿里编码规约怎么使用?

阿里编码规约是一个插件,可以检测到代码中不规范的代码。 使用步骤: 1.去下载安装插件: 2.安装插件后,重启android studio。会发现: 3.使用此插件。 打开一个java文件,点击红色框的按钮。 4.检测结果。如下图

SpringBoot整合Minio及阿里云OSS(配置文件无缝切换)

SpringBoot整合Minio及阿里云OSS 文章目录 SpringBoot整合Minio及阿里云OSS1.Minio安装测试1.Docker安装启动容器 2.创建bucket3.上传文件修改权限 2.SpringBoot整合Minio及阿里云OSS1.公共部分抽取2.Minio配置整合1.添加pom依赖2.添加配置文件3.操作接口实现 3.阿里云OSS配置整合1.pom依赖2.添加

[SaaS] 阿里妈妈-万相营造

阿里妈妈 创意中心 - 首页基于阿里妈妈营销平台,提供从图文到视频再到落地页的素材级智能化创意支持,是您营销创意数字资产累积和升值的阵地,最大化提升营销的效率和效果。https://chuangyi.taobao.com/ 1.AI图片 商品图: