告别渣画质,视频会议带宽降90%,英伟达公开Maxine服务背后重要技术

本文主要是介绍告别渣画质,视频会议带宽降90%,英伟达公开Maxine服务背后重要技术,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

来源:机器之心

本文约2800字,建议阅读9分钟

英伟达团队发布的新论文揭露了AI视频会议服务Maxine技术。

10 月初,英伟达推出了一项 AI 视频会议服务 Maxine,使用了 AI 来提升分辨率、降低背景噪声、压缩视频、对齐人脸以及执行实时翻译和转录。最近,英伟达团队发布的新论文揭露了这背后的技术。

如果让打工人用几个关键词总结 2020 年的生活,视频会议应该是其中一个。

受疫情影响,这一年来,远程办公和视频会议正在成为新的潮流。在忍受会议枯燥的同时,很多人迷上了 AI 换脸,期望能够实现一边开会,一边摸鱼的梦想。此前机器之心也介绍过Avatarify 这样的热门项目。

只是…… 效果不一定很理想:

给出一个人的源图像,和一个人的动作视频(此处称为驱动视频 (driving video),动作视频和源图像中的人物可以一致或不一致),如何合成逼真的说话者头部视频,即将源图像中的头像与驱动视频中的动作合二为一。源图像编码目标人物的外观,驱动视频决定输出视频中的人物动作。

最近,针对这一任务,英伟达提出了一种纯神经式的渲染方法,即不使用人物头部的 3D 图模型,只使用在 one-shot 设置下训练而成的深度网络,进行说话者头部视频的渲染。

论文链接:

https://arxiv.org/pdf/2011.15126.pdf

与 3D 图模型相比,基于 2D 的方法具备多项优势:首先,避免了繁杂、昂贵的 3D 模型获取;其次,2D 方法可以更好地处理头发、胡须等的合成,而获得这些区域的详细 3D 几何形状则有一定的挑战性;最后,无需 3D 模型,2D 方法可以直接合成源图像中的配饰,包括眼镜、帽子、围巾等。

但是,现有的 2D 方法存在一些局限性。由于缺少 3D 图模型,2D 方法只能从原始视角合成说话者头部视频,无法从新的角度进行渲染。

而英伟达的方法解决了 2D 方法的固定视角问题,并实现了局部自由视角合成,你可以在原始视角的一定范围内改变说话者头部的角度。

该模型使用新型 3D 关键点表征来表示视频,3D 关键点表征的特点是将人物特定信息和动作相关信息分解开来,关键点及其分解均使用无监督学习方式得到。使用该分解,英伟达能够对人物特定表征应用 3D 变换,来模拟头部姿势的变化,如转动头部。下图 2 展示了英伟达提出的新方法:

研究者在多个说话者头部合成任务中进行了大量实验验证,包括视频重建、动作迁移和人脸重定向(face redirection),还将该方法应用于降低视频会议的带宽。通过仅发送关键点表征、在接收端重建源视频,该方法将视频会议带宽降至 H.264 商用标准所需带宽的十分之一,且不影响视觉质量。

视频重建效果

动作迁移

人脸重定向

这项研究基于前段时间英伟达开源的 Imaginaire 库,也是英伟达 Maxine 视频流平台背后的技术组成部分之一。

GAN 发明者 Ian Goodfellow 在推特上点赞并表示:Cool,博士时期的实验室伙伴曾研究预训练阶段的 ML 压缩,我记得这很难。

主要贡献

该研究的主要贡献如下:

  • 提出新型 one-shot 神经说话者头部合成方法,在基准数据集上获得了比 SOTA 方法更好的视觉质量;

  • 在没有 3D 图模型的情况下,实现了对输出视频的局部自由视角控制,即在合成过程中允许改变说话者头部的角度;

  • 将视频会议的带宽,降至 H.264 视频压缩标准所需带宽的十分之一。

英伟达新方法

英伟达提出一种纯神经合成方法,不使用 3D 图模型。该方法包含三个主要步骤:

  • 源图像特征提取;

  • 驱动视频特征提取;

  • 视频合成。

研究者使用一组网络并进行联合训练,来完成这些步骤。

其中前两个步骤参见下图 3:

图 3:源图像和驱动视频特征提取

具体而言,该研究从源图像中提取人物外观特征和 3D 典型关键点及其雅克比行列式,同时还估计人物头部姿势和表情变化引起的关键点扰动,利用它们来计算源关键点。

对于驱动视频,研究者仍旧估计其头部姿势和表情形变。通过重用来自源图像的 3D 典型关键点,来计算驱动关键点。

第三个步骤参见图 5:

图 5:视频合成

该步骤中,研究人员使用源关键点、驱动关键点及其雅克比行列式来估计 K 个 flow(w_1、w_2、w_k),这些 flow 用于扭曲源特征 f_s。然后将这些结果结合起来输入到运动场(motion field)估计网络 M,得到流分解掩码 m。将 m 和 w_k flow 进行线性组合得到合成流场 w(composited flow field),可用于扭曲 3D 源特征。最后,生成器 G 将扭曲后的特征转换为输出图像 y。

而该方法还包括一个主要环节:用无监督方式学习一组 3D 关键点及其分解。研究人员将这些关键点分解成两部分:一部分建模人脸表情,一部分建模人物的几何特征。二者与目标人物头部姿势相结合,就可以生成图像特定的关键点,然后利用它们学习两个图像之间的映射函数。

在第一个步骤中,从源图像得到的关键点是图像特定的,且包含人物特征、姿势和表情信息。关键点计算流程参见下图 4:

训练细节

下图展示了该模型中网络的实现细节,以及模型构造块详情:

 图 12:模型中各个组件的具体架构

图 13:模型构造块

实验

说话者头部图像合成

这部分涉及两个任务:相同人物的图像合成和不同人物的动作迁移。

首先是源图像和驱动图像中人物身份一致的情况。研究者对比了五种人脸合成方法,量化评估结果参见下表 1。可以看出,该研究提出的方法在两个数据集的所有指标上的表现均优于其他方法。

在图 6 和图 7 中,研究者分别展示了不同方法的定性比较结果,该研究提出的方法能够更加真实地再现动作变化。

接下来,研究者在源图像和驱动图像中人物不同的情况下,进行方法对比,结果如表 2 所示。该研究提出的方法取得了最低的 FID 分数。

 图 8 展示了不同方法间的对比结果,可以看出英伟达方法生成的结果更为真实,且保留了原有的人物特征。

人脸重定向

研究人员对 pixel2style2pixel (pSp)、Rotate-and-Render (RaR) 和该研究提出方法进行了量化对比,结果参见下表 3:

三种方法的示例对比结果如图 9 所示。

可以看出,pSp 模型虽然能够将人脸前置,但会丢失人物的身份特征。RaR 采用了 3D 人脸模型,因此生成结果的视觉效果更具吸引力,但在人脸区域以外的地方存在问题。此外,这两种方法都存在时间稳定性问题。对比之下,该研究提出的方法实现了不错的人脸前置效果。

在视频会议中的应用

该模型能够利用紧凑表征对驱动图像中的动作进行蒸馏,这有助于降低视频会议应用的带宽。视频会议流程可以看做接收者看到发送者面部的动态版本。

图 10 展示了使用该研究提出的神经说话者头部模型搭建的视频会议系统。

图 10:视频压缩框架

在发送端,驱动图像编码器提出关键点扰动δ_d,k 和头部姿势 R_d 和 t_d,然后使用熵编码器进行压缩并传送至接收端。接收端对信息进行解压缩,并将其与源图像 s 结合生成输入 d 的重建结果 y。

论文作者表示,目前该方法在压缩方面的优势仅限于说话者头部视频,至于一般的视频压缩,还未能达到如此理想的效果。

目前,英伟达已经开放了在线演示网址:

http://nvidia-research-mingyuliu.com/face_redirection

关于更多的论文细节,可参考下方视频:

编辑:王菁

校对:汪雨晴

这篇关于告别渣画质,视频会议带宽降90%,英伟达公开Maxine服务背后重要技术的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/901272

相关文章

【专题】2024飞行汽车技术全景报告合集PDF分享(附原数据表)

原文链接: https://tecdat.cn/?p=37628 6月16日,小鹏汇天旅航者X2在北京大兴国际机场临空经济区完成首飞,这也是小鹏汇天的产品在京津冀地区进行的首次飞行。小鹏汇天方面还表示,公司准备量产,并计划今年四季度开启预售小鹏汇天分体式飞行汽车,探索分体式飞行汽车城际通勤。阅读原文,获取专题报告合集全文,解锁文末271份飞行汽车相关行业研究报告。 据悉,业内人士对飞行汽车行业

【区块链 + 人才服务】可信教育区块链治理系统 | FISCO BCOS应用案例

伴随着区块链技术的不断完善,其在教育信息化中的应用也在持续发展。利用区块链数据共识、不可篡改的特性, 将与教育相关的数据要素在区块链上进行存证确权,在确保数据可信的前提下,促进教育的公平、透明、开放,为教育教学质量提升赋能,实现教育数据的安全共享、高等教育体系的智慧治理。 可信教育区块链治理系统的顶层治理架构由教育部、高校、企业、学生等多方角色共同参与建设、维护,支撑教育资源共享、教学质量评估、

金融业开源技术 术语

金融业开源技术  术语 1  范围 本文件界定了金融业开源技术的常用术语。 本文件适用于金融业中涉及开源技术的相关标准及规范性文件制定和信息沟通等活动。

【区块链 + 人才服务】区块链集成开发平台 | FISCO BCOS应用案例

随着区块链技术的快速发展,越来越多的企业开始将其应用于实际业务中。然而,区块链技术的专业性使得其集成开发成为一项挑战。针对此,广东中创智慧科技有限公司基于国产开源联盟链 FISCO BCOS 推出了区块链集成开发平台。该平台基于区块链技术,提供一套全面的区块链开发工具和开发环境,支持开发者快速开发和部署区块链应用。此外,该平台还可以提供一套全面的区块链开发教程和文档,帮助开发者快速上手区块链开发。

AI(文生语音)-TTS 技术线路探索学习:从拼接式参数化方法到Tacotron端到端输出

AI(文生语音)-TTS 技术线路探索学习:从拼接式参数化方法到Tacotron端到端输出 在数字化时代,文本到语音(Text-to-Speech, TTS)技术已成为人机交互的关键桥梁,无论是为视障人士提供辅助阅读,还是为智能助手注入声音的灵魂,TTS 技术都扮演着至关重要的角色。从最初的拼接式方法到参数化技术,再到现今的深度学习解决方案,TTS 技术经历了一段长足的进步。这篇文章将带您穿越时

系统架构设计师: 信息安全技术

简简单单 Online zuozuo: 简简单单 Online zuozuo 简简单单 Online zuozuo 简简单单 Online zuozuo 简简单单 Online zuozuo :本心、输入输出、结果 简简单单 Online zuozuo : 文章目录 系统架构设计师: 信息安全技术前言信息安全的基本要素:信息安全的范围:安全措施的目标:访问控制技术要素:访问控制包括:等保

前端技术(七)——less 教程

一、less简介 1. less是什么? less是一种动态样式语言,属于css预处理器的范畴,它扩展了CSS语言,增加了变量、Mixin、函数等特性,使CSS 更易维护和扩展LESS 既可以在 客户端 上运行 ,也可以借助Node.js在服务端运行。 less的中文官网:https://lesscss.cn/ 2. less编译工具 koala 官网 http://koala-app.

速盾:直播 cdn 服务器带宽?

在当今数字化时代,直播已经成为了一种非常流行的娱乐和商业活动形式。为了确保直播的流畅性和高质量,直播平台通常会使用 CDN(Content Delivery Network,内容分发网络)服务器来分发直播流。而 CDN 服务器的带宽则是影响直播质量的一个重要因素。下面我们就来探讨一下速盾视角下的直播 CDN 服务器带宽问题。 一、直播对带宽的需求 高清视频流 直播通常需要传输高清视频

Spring的设计⽬标——《Spring技术内幕》

读《Spring技术内幕》第二版,计文柯著。 如果我们要简要地描述Spring的设计⽬标,可以这么说,Spring为开发者提供的是⼀个⼀站式的轻量级应⽤开发框架(平台)。 作为平台,Spring抽象了我们在 许多应⽤开发中遇到的共性问题;同时,作为⼀个轻量级的应⽤开发框架,Spring和传统的J2EE开发相⽐,有其⾃⾝的特点。 通过这些⾃⾝的特点,Spring充分体现了它的设计理念:在

基于SpringBoot的宠物服务系统+uniapp小程序+LW参考示例

系列文章目录 1.基于SSM的洗衣房管理系统+原生微信小程序+LW参考示例 2.基于SpringBoot的宠物摄影网站管理系统+LW参考示例 3.基于SpringBoot+Vue的企业人事管理系统+LW参考示例 4.基于SSM的高校实验室管理系统+LW参考示例 5.基于SpringBoot的二手数码回收系统+原生微信小程序+LW参考示例 6.基于SSM的民宿预订管理系统+LW参考示例 7.基于