阿里又放大招：Emo!!

2024-03-10 02:12

文章标签 阿里放大 emo

本文主要是介绍阿里又放大招：Emo!!，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

大家好，我是程序员牛牛，《AI超级个体: ChatGPT与AIGC实战指南》的参与人，10年Java编程程序员。

我们先来看几张图

马斯克和库克跳科目三

慈禧跳舞

这是前段时间很火的通义舞王生成的，只需要一张图片，就能让人物跳舞，如果你没玩过，赶紧试试！

但最近阿里又放大招了！

阿里巴巴智能计算研究所发布了一款全新的生成式AI模型EMO（Emote Portrait Alive）。EMO仅需一张人物肖像照片和音频，就可以让照片中的人物按照音频内容“张嘴”唱歌、说话，且口型基本一致，面部表情和头部姿态非常自然。

只需要一个音频+一张图片，就能让图片根据音频进行讲话或者唱歌！

前面给大家分享过Sora，里面的AI角色，我们也可以让她讲话

声音来源：Dua Lipa - Don't Start Now

蒙娜丽莎讲话

声音来源：莎士比亚的独白II 皆可：罗莎琳德“是的，一个；并且以这种方式。”

哥哥张国荣唱歌，看到这里快泪崩了

声音来源：陈奕迅 - Eason Chan - Unconditional. Covered by AI (粤语)

还有让强哥模仿法外狂徒讲课

声音来源：法外狂徒-法律考试在线课程

可以看到，上面生成的视频，具有表情丰富的面部表情和各种头部姿势，前不久的sora目前还只能支持1分钟的视频，但这个更牛逼了，可以根据输入音频的长度生成任意持续时间的视频。

EMO的工作过程分为两个主要阶段：首先，利用参考网络（ReferenceNet）从参考图像和动作帧中提取特征；然后，利用预训练的音频编码器处理声音并嵌入，再结合多帧噪声和面部区域掩码来生成视频。该框架还融合了两种注意机制和时间模块，以确保视频中角色身份的一致性和动作的自然流畅。

这个过程相当于，AI先看一下照片，然后打开声音，再随着声音一张一张地画出视频中每一帧变化的图像。

不过目前这个技术还没有开源，我们可以保持持续关注，期待国产AI的崛起！

最后附上EMO的原理图

欢迎大家转发关注我的公众号，我将持续为大家分享编程前沿技术及日常编程技巧！

到公众号上可以查看视频文件！点击此处查看原文

这篇关于阿里又放大招：Emo!!的文章就介绍到这儿，希望我们推荐的文章对编程师们有所帮助！