深度解析:打造基于大型模型的实时互动3D数字人

2024-09-04 14:44

本文主要是介绍深度解析:打造基于大型模型的实时互动3D数字人,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

简单地说,数字人就是在数字世界的“人”。当前语境下我们谈到的数字人通常指的是借助AI技术驱动的虚拟世界人物,具备与真实人类相似甚至接近的外形、感知、交互与行为能力。

AI技术在智能数字人的应用中举足轻重,特别是随着大模型能力的涌现,一个完整的数字人系统是一个融合多种AI能力、形象设计、建模、高性能渲染引擎等多种计算机技术的综合体

本文将一起来认识一个完整的交互式数字人系统的结构、原理与相关工具。并借助开源的数字人项目Fay,演示一个简单的基于LLM的实时对话的3D数字人。

  • **你也能懂:数字人是如何工作的?
    **

  • 创造躯体:3D数字人建模与开发

  • 赋予智慧:构建数字人的控制器

  • 数字人系统的优化挑战

PART 01

你也能懂:数字人是如何工作的

一个完整的交互式数字人系统的整体架构可以用下图来表示:

即使对于一个非专业技术人员,这个系统原理也并不难理解:

语音输入与识别这是数字人能“听”的基础。这部分借助于自动语音识别(ASR)技术来完成,将语音输入首先转化为自然语言的文本。通常可以借助在线云服务来完成,或者部署本地ASR模型来实现。

AI交互处理:**这是交互型数字人的“大脑”功能。**在大语言模型(LLM)出现以后,其给数字人赋予了真正的智慧与灵魂。借助LLM,理解自然语言的输入,并推理生成需要响应的内容。

**语音合成:****这是数字人能“说”的基础。**在获得文本的响应内容后,为了让数字人能够用语音“说话”,需要借助语音合成(TTS)的AI模型来把文本转化为音频流。在这个阶段,为了让数字人更像“人”,会涉及到合成音色的选择,甚至采用真人语音来训练合成模型(还记得AI孙燕姿吗?)。

**数字人驱动:****这一步就是用合成的音频流等数据来驱动已经创建好的前端数字人,让数字人边“说”边“动“,**包括声音、动作、表情。根据数字人的不同类型,这可能需要借助不同的引擎或者AI模型。比如:

  • 如果你使用大名鼎鼎的MetaHuman建模高细节的3D数字人,则需要借助Unreal虚幻引擎来驱动;

  • 如果你希望用简单的照片来做2D数字人,则可以借助一些语音驱动图片生成视频的模型来实现,比如SadTalker;

  • 如果你希望基于自己的真人视频训练出模型,来实现从语音合成真人视频,那么可以借助RAD-NeRF这样的训练框架;

**数字人:这是终端呈现出的虚拟数字人形象与动画视频,可以是3D或者2D。**比如一个3D高保真的数字人最常见的是借助Metahuman做建模,然后通过Unreal引擎导入模型进行渲染与运行。

显然,一个完整的交互式数字人系统需要有效地集成不同的模型、引擎与工具,才能最终呈现完美的效果。

让我们首先来简单了解前端3D数字人的创建过程。

创造躯体:3D数字人建模与开发

我们经常提到的一些任务机器人,一般只是一个能够自动工作的计算机程序。但数字人的特点是需要一个具体的虚拟人物形象,并且这个形象能够像“人”一样能说会动。因此,对于数字人项目来说,首当其冲的是需要准备这样的虚拟人物。这其中最逼真、应用场景最广泛,而且也是最复杂的,是3D高保真高解析度数字人,创建这样的虚拟人你需要完成形象设计、建模、动画制作,以及定义在虚拟场景中的行为逻辑(类似游戏场景)。

这里我们用著名的游戏引擎Unreal Engine系列工具来认识3D数字人的制作过程:

  • **头部模型。**如果你需要使用自己独特的头部模型,可以借助于三维建模工具来创建自己的头部模型并导出。

  • **形象建模。**通过MetaHuman Creator进行数字人本体的建模设计,你可以导入自己的头部模型,也可以选择内置的形象,然后可以对数字人的各种面容、表情、姿态等进行细节调整与制作。(类似游戏里的“捏脸”)

  • **动画与行为逻辑设计。**启动Unreal引擎的设计环境,导入已经制作的MetaHuman数字人模型,进行数字人动画、交互行为逻辑等设计,你甚至可以借助iPhone手机捕捉你自己的真人面部表情并将其用于数字人。

这个步骤是数字人设计的核心。借助UE提供的一种可视化编辑环境与脚本语言,你无需太多编程知识,就可以创建数字人的行为逻辑,比如控制角色在场景里的动作等。当然,作为交互式数字人最重要的环节也需要在这里进行定义:如何接受音频流、情绪数据等信息来驱动数字人说话、唇形甚至动作。

借助iPhone实现面部表情捕捉并用于数字人:

本图片来自Unreal官方网站

可视化的设计数字人的交互行为逻辑:

  • **数字人打包运行。**在完成上述工作以后,可以将整个数字人工程通过打包成一个可执行的应用程序运行,这样你就能看到一个正在运行的,包含丰富细节的3D数字人。

现在,我们直接下载Fay开源项目中已经完成的一个UE5数字人工程用于测试:

1. 安装Unreal引擎环境

进入https://www.unrealengine.com/官网,下载EpicGames Launcher安装包,并注册账号;下载完成后,根据提示自行安装即可。

运行已经安装的程序,安装Unreal引擎版本,建议安装5.0.3。此处安装包较大,注意留足够的空间。

2. 在Unreal商城中安装以下插件

  • Json Blueprint

  • Blueprint WebSockets

  • MetaHuman SDK

  • MetaHuman Plugin

  • Runtime Audio Importer

3. 选择下载Fay开源项目中的一个数字人工程(github搜索fay-ue5),这里我们选择一个UE5版本的数字人。

4. **运行数字人。**下载完成后解压,双击fay_ue5.uproject文件会自动使用UE环境打开项目,点击运行按钮,即可以看到运行中的数字人:

5. 【可选】**数字人工程查看与编辑。**借助环境中的编辑器,可以看到数字人的相关行为逻辑,比如是如何借助websocket接收语音流并驱动数字人“说话”。如果你有兴趣驱动自己设计的数字人,可以参考此处的程序设计。

当然,此刻运行的数字人是无法互动的,原因是她目前只有“躯体”,还缺乏真正的智慧告诉她怎么与你互动,这也就是后端的数字人控制器。

PART 03

赋予智慧:构建数字人的控制器

我们把前面的基本原理图稍稍细化下,这里的黄色部分就构成了数字人的控制器:

控制器作为数字人的大脑中枢,承担着借助各种AI技术来与真实人类完成最终交互所需的关键能力,并将输出通过数字人的语音、动作、表情进行呈现,从而完成整个交互闭环。

这里简单介绍每个模块构建的基础技术及可能选择:

【语音识别模块】

语音识别模块通过监听设备语音输入设备(麦克风),采集语音流,并借助ASR模型与接口实时转换为文本内容,用于后续交互处理模块。ASR接口的实现可以借助现成的API或者模型:

  • 云端ASR API:讯飞、阿里云、百度、腾讯、OpenAI

  • 本地ASR模型:百度的PaddleSpeech、ASRT、SpeechBrain、FunASR等,在本地部署A启动后,通过API本地访问即可

  • 本地音频的采集处理可以借助Python的PyAudio库

【AI交互处理模块】

这是控制器的核心模块。在LLM出现以后,很容易想到借助其强大的自然语言理解与生成能力来做出更加自然的数字人响应,只需要简单的将语音识别出来的文本内容组装到Prompt,并调用大模型的API接口输出即可。

当然,对于企业客户来说,直接的LLM响应可能无法满足企业的实际需求,因此,借助RAG(检索增强生成)给LLM补充企业私有知识,以生成更个性化与企业相关的响应内容是一种常见的方案。

这个模块中常见的技术选择有:

  • 云端LLM:文心一言、讯飞、阿里通义千问、OpenAI等

  • 本地LLM:开源ChatGLM、通义千问开源版、Llama2中文版等

  • RAG应用:可以自行通过LangChain/LlamaIndex开发框架定制、或者借助FastGPT这样的RAG低代码平台直接构建,方便管理

  • 另外一个有用的技巧是,在对接LLM时,可以借助类似One-API这样的工具搭建LLM模型池:在前端统一API接口,在后端对接多个大模型,从而可以支持随时灵活切换模型,而无需调整接口。

【语音合成模块】

AI响应生成以后的文本交给TTS模块,进行语音合成音频后用于后续驱动数字人的语音输出。为了让生成的语音更加自然与拟人,此处通常会涉及到两个额外的选项:

  • 不同的声音风格选择(大部分的商业TTS服务都支持),有的TTS服务或开源模型还会支持上传个人音频,以训练个性化的声音输出

  • 情绪识别。部分商业TTS服务(如微软Azure TTS)会直接支持带情绪识别的TTS;有的则需要你调用额外的情绪识别API生成情绪数据

这个模块中常见的技术选择有:

  • 云端TTS服务:百度、阿里、微软等主流云服务商都提供TTS API服务

  • 本地TTS服务:推荐微软的免费开源tts库edge-tts库

  • 文字情绪分析:推荐借助python的一个中文情感分析库Cemotion来实现,也可以借助讯飞的在线API

【数字人通信】

这个模块用来把合成的音频流、情绪数据、甚至唇形数据传递给前端的数字人,用来驱动数字人的语音与动作输出。

在本文演示的Fay开源项目中,这部分由前端数字人项目中UE的WebSocket插件与后端控制器通过WebSocket通道来完成:将TTS模块生成的音频/情绪等数据发送给数字人,数字人使用收到的数据来合成动画视频,最后播放音视频给交互者。

现在,我们来下载 Fay开源项目控制器代码进行测试(这里采用最常见的助理版本,通常用来构建一问一答型的交互数字人):

  1. 下载Fay开源项目源代码(助理版)

  2. 安装依赖pip install -r requirements.txt(建议使用conda虚拟环境)

  3. **执行python main.py启动控制器。**此时可以看到一个UI界面,提供了简单的直接文字对话测试的功能和一些设置,比如TTS声音的选择。

    如果此时已启动前端UE数字人,就可以看到“数字人已连接”的提示(下图红框中):

4. **开启麦克风:**启动控制器的麦克风音频采集,这样,数字人就能够听到你的声音,并给予回复:

在控制器的后台,你可以完整的看到处理过程与日志:

PART 04

数字人系统的优化挑战

上文我们使用一个开源的数字人项目Fay(再次感谢Fay项目的贡献者)来拆解并学习了一个完整的3D交互数字人的架构,并做了简单测试。但是请注意,这里只是一个演示基本工作流程的数字人,而在真实的企业应用中,根据数字人的应用场景,还有大量的需要个性化设计、优化与完善的环节,包括:

  • 个性化的数字人形象设计与建模

  • 数字人在复杂场景中的行为逻辑优化(比如直播)

  • **端到端流程的稳定性与性能优化。**这也是很多数字人系统面临的最大挑战。由于数字人运行流程涉及到多个较复杂的处理节点与AI模型,这也导致故障点的增多与更多的响应延迟,这对其中各环节的技术选择与工程化调优提出了很多的挑战。比如:

  • 各类AI模型的选择与测试,云端OR本地,商业OR开源

  • ASR与TTS的稳定性、准确性与响应速度

  • 如何兼顾大语言模型输出的完整与简洁性(语音不宜做过长的响应)

  • 大语言模型输出的幻觉问题、多轮对话问题

  • RAG应用额外的Retriver以及更大的上下文理解带来的性能延迟

  • 如何做出多模态的响应,比如介绍产品时能结合产品图片

这些都是在实际数字人工程中可能会面临的挑战,我们也期待有更多优秀的数字人开源项目与工程平台的出现。

在这里插入图片描述

大模型&AI产品经理如何学习

求大家的点赞和收藏,我花2万买的大模型学习资料免费共享给你们,来看看有哪些东西。

1.学习路线图

在这里插入图片描述

第一阶段: 从大模型系统设计入手,讲解大模型的主要方法;

第二阶段: 在通过大模型提示词工程从Prompts角度入手更好发挥模型的作用;

第三阶段: 大模型平台应用开发借助阿里云PAI平台构建电商领域虚拟试衣系统;

第四阶段: 大模型知识库应用开发以LangChain框架为例,构建物流行业咨询智能问答系统;

第五阶段: 大模型微调开发借助以大健康、新零售、新媒体领域构建适合当前领域大模型;

第六阶段: 以SD多模态大模型为主,搭建了文生图小程序案例;

第七阶段: 以大模型平台应用与开发为主,通过星火大模型,文心大模型等成熟大模型构建大模型行业应用。

2.视频教程

网上虽然也有很多的学习资源,但基本上都残缺不全的,这是我自己整理的大模型视频教程,上面路线图的每一个知识点,我都有配套的视频讲解。

在这里插入图片描述

在这里插入图片描述

(都打包成一块的了,不能一一展开,总共300多集)

因篇幅有限,仅展示部分资料,需要点击下方图片前往获取

3.技术文档和电子书

这里主要整理了大模型相关PDF书籍、行业报告、文档,有几百本,都是目前行业最新的。
在这里插入图片描述

4.LLM面试题和面经合集

这里主要整理了行业目前最新的大模型面试题和各种大厂offer面经合集。
在这里插入图片描述

👉学会后的收获:👈
• 基于大模型全栈工程实现(前端、后端、产品经理、设计、数据分析等),通过这门课可获得不同能力;

• 能够利用大模型解决相关实际项目需求: 大数据时代,越来越多的企业和机构需要处理海量数据,利用大模型技术可以更好地处理这些数据,提高数据分析和决策的准确性。因此,掌握大模型应用开发技能,可以让程序员更好地应对实际项目需求;

• 基于大模型和企业数据AI应用开发,实现大模型理论、掌握GPU算力、硬件、LangChain开发框架和项目实战技能, 学会Fine-tuning垂直训练大模型(数据准备、数据蒸馏、大模型部署)一站式掌握;

• 能够完成时下热门大模型垂直领域模型训练能力,提高程序员的编码能力: 大模型应用开发需要掌握机器学习算法、深度学习框架等技术,这些技术的掌握可以提高程序员的编码能力和分析能力,让程序员更加熟练地编写高质量的代码。
在这里插入图片描述

1.AI大模型学习路线图
2.100套AI大模型商业化落地方案
3.100集大模型视频教程
4.200本大模型PDF书籍
5.LLM面试题合集
6.AI产品经理资源合集

👉获取方式:
😝有需要的小伙伴,可以保存图片到wx扫描二v码免费领取【保证100%免费】🆓

在这里插入图片描述

这篇关于深度解析:打造基于大型模型的实时互动3D数字人的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1136266

相关文章

网页解析 lxml 库--实战

lxml库使用流程 lxml 是 Python 的第三方解析库,完全使用 Python 语言编写,它对 XPath表达式提供了良好的支 持,因此能够了高效地解析 HTML/XML 文档。本节讲解如何通过 lxml 库解析 HTML 文档。 pip install lxml lxm| 库提供了一个 etree 模块,该模块专门用来解析 HTML/XML 文档,下面来介绍一下 lxml 库

大模型研发全揭秘:客服工单数据标注的完整攻略

在人工智能(AI)领域,数据标注是模型训练过程中至关重要的一步。无论你是新手还是有经验的从业者,掌握数据标注的技术细节和常见问题的解决方案都能为你的AI项目增添不少价值。在电信运营商的客服系统中,工单数据是客户问题和解决方案的重要记录。通过对这些工单数据进行有效标注,不仅能够帮助提升客服自动化系统的智能化水平,还能优化客户服务流程,提高客户满意度。本文将详细介绍如何在电信运营商客服工单的背景下进行

无人叉车3d激光slam多房间建图定位异常处理方案-墙体画线地图切分方案

墙体画线地图切分方案 针对问题:墙体两侧特征混淆误匹配,导致建图和定位偏差,表现为过门跳变、外月台走歪等 ·解决思路:预期的根治方案IGICP需要较长时间完成上线,先使用切分地图的工程化方案,即墙体两侧切分为不同地图,在某一侧只使用该侧地图进行定位 方案思路 切分原理:切分地图基于关键帧位置,而非点云。 理论基础:光照是直线的,一帧点云必定只能照射到墙的一侧,无法同时照到两侧实践考虑:关

从去中心化到智能化:Web3如何与AI共同塑造数字生态

在数字时代的演进中,Web3和人工智能(AI)正成为塑造未来互联网的两大核心力量。Web3的去中心化理念与AI的智能化技术,正相互交织,共同推动数字生态的变革。本文将探讨Web3与AI的融合如何改变数字世界,并展望这一新兴组合如何重塑我们的在线体验。 Web3的去中心化愿景 Web3代表了互联网的第三代发展,它基于去中心化的区块链技术,旨在创建一个开放、透明且用户主导的数字生态。不同于传统

Andrej Karpathy最新采访:认知核心模型10亿参数就够了,AI会打破教育不公的僵局

夕小瑶科技说 原创  作者 | 海野 AI圈子的红人,AI大神Andrej Karpathy,曾是OpenAI联合创始人之一,特斯拉AI总监。上一次的动态是官宣创办一家名为 Eureka Labs 的人工智能+教育公司 ,宣布将长期致力于AI原生教育。 近日,Andrej Karpathy接受了No Priors(投资博客)的采访,与硅谷知名投资人 Sara Guo 和 Elad G

【C++】_list常用方法解析及模拟实现

相信自己的力量,只要对自己始终保持信心,尽自己最大努力去完成任何事,就算事情最终结果是失败了,努力了也不留遗憾。💓💓💓 目录   ✨说在前面 🍋知识点一:什么是list? •🌰1.list的定义 •🌰2.list的基本特性 •🌰3.常用接口介绍 🍋知识点二:list常用接口 •🌰1.默认成员函数 🔥构造函数(⭐) 🔥析构函数 •🌰2.list对象

usaco 1.2 Name That Number(数字字母转化)

巧妙的利用code[b[0]-'A'] 将字符ABC...Z转换为数字 需要注意的是重新开一个数组 c [ ] 存储字符串 应人为的在末尾附上 ‘ \ 0 ’ 详见代码: /*ID: who jayLANG: C++TASK: namenum*/#include<stdio.h>#include<string.h>int main(){FILE *fin = fopen (

C#实战|大乐透选号器[6]:实现实时显示已选择的红蓝球数量

哈喽,你好啊,我是雷工。 关于大乐透选号器在前面已经记录了5篇笔记,这是第6篇; 接下来实现实时显示当前选中红球数量,蓝球数量; 以下为练习笔记。 01 效果演示 当选择和取消选择红球或蓝球时,在对应的位置显示实时已选择的红球、蓝球的数量; 02 标签名称 分别设置Label标签名称为:lblRedCount、lblBlueCount

Retrieval-based-Voice-Conversion-WebUI模型构建指南

一、模型介绍 Retrieval-based-Voice-Conversion-WebUI(简称 RVC)模型是一个基于 VITS(Variational Inference with adversarial learning for end-to-end Text-to-Speech)的简单易用的语音转换框架。 具有以下特点 简单易用:RVC 模型通过简单易用的网页界面,使得用户无需深入了

透彻!驯服大型语言模型(LLMs)的五种方法,及具体方法选择思路

引言 随着时间的发展,大型语言模型不再停留在演示阶段而是逐步面向生产系统的应用,随着人们期望的不断增加,目标也发生了巨大的变化。在短短的几个月的时间里,人们对大模型的认识已经从对其zero-shot能力感到惊讶,转变为考虑改进模型质量、提高模型可用性。 「大语言模型(LLMs)其实就是利用高容量的模型架构(例如Transformer)对海量的、多种多样的数据分布进行建模得到,它包含了大量的先验