本文主要是介绍9月4日工作汇报ppt,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!
首先是,数字人的产业应用,然后,是和换脸技术相关的。最后,汇报一下实验的情况。
在应用上,数字人可以分为两类:
一类是像虚拟主播那种以提供服务为产出定位的服务型数字人,
另一类是强调数字人本身身份的身份型数字人。
下面具体看一下例子:首先是服务型数字人。国内外因建模技术的差异,数字人提供的服务也是不大相同的。
国内的服务型数字人主要用于 替代真人提供服务,比如图中代替手语播报员播报新闻的数字人, 大部分数字人还可以进行简单交互问答。比如,带货的虚拟主播可以以固定的话术欢迎进入直播间的消费者,并在消费者提及价格、存货、产品详情等意图时,根据事实情况进行回应。
那国外呢:在建模方面具有技术优势,他们的数字人在外观及行动方面,对真人的还原度有明显优势。可以满足单身/老龄化等人群对关怀陪伴的需求。
比如上次开会提到的女网红用AI分身和1000多位男性谈恋爱。他的成功在于让每一位和她的聊天的男性,都有一种手机另一端就是这位网红本人的感觉。因此,哪怕聊天的费用些许昂贵的,一分钟一美元,也有很多粉丝愿意付费。他上线第一周收入就突破10万美元。
【区别】这个实用性和关怀型并没有明显的划分,只是产出定位的细微差别。
实用性:一对多——使用者明显知道他是同时服务多个人的
关怀型:给用户一对一的使用体验感。比如网红ai聊天就像是一个真人在手机的另一端和自己聊天。想聊诗词歌赋就聊诗词歌赋,想谈人生哲理就谈人生哲理。而不是像带货主播,无论你是单纯的问价格还是带有情绪地说价格高,他只会根据关键词“价格”进行统一的回复。
身份型虚拟数字人更强调其本身的身份。
一类是像虚拟IP,虚拟偶像这类,比如前两张图片中的数字人,一个是女网红、一个是美妆品牌的代言人。是根据用户需求,设计出来的全新形象。
还有基于漫画、游戏中已有人设,设计出的数字人。
这类数字人在现实世界中,都是具有独立人设的,有名字,有兴趣爱好,有工作。
还有一类,在虚拟世界,比如元宇宙,我们自己的虚拟形象,这些数字人就是虚拟世界中的我们。
大致总结到这里。
下面是有关的换脸技术, 它和之前的wav2lip都属于deepfake中的一部分。
deepfake是制造虚假视频的技术,是通过对真实视频的深度学习,训练人工智能模型,生成与真实视频相似度极高的虚假视频,
应用有换脸、替换视频中人物说话的内容等。
具体任务包括重现、替换、编辑以及合成。这次主要介绍重现和替换。
源身份和目标身份:拿上次说的真人驱动型数字人来说。穿上动捕设备的真人就是源身份,他驱动的数字人就是目标身份。真人做出动作来驱动数字人表演。
重现是指使用源身份s驱动目标身份t,使t做的行为和s一样。
简单说,通过重现生成的图片,目标身份t的五官还是自己的,即身份没有改变。但五官的行为由源身份s来驱动。
论文中写道,重现可以是凝视重现(指眼睛的方向),嘴部重现(也就是配音),表达式重现(通常是嘴部和姿势的变化),姿势重新(头部位置)。【其实,这些重现都有重合的部分】
举一个嘴部重现的例子,使用第一张图中人物嘴部的状态驱动第二张图片中人物的嘴型,让t的嘴型从张开到闭合。得到的图片中人物外观还是自己的,但是嘴型变了。
替换,是指把一个人的身份替换成另外一个人,身份改变是指外观变了。
比如第一个,迁移:把s的脸复制到t上。但五官的行为还是s的。
交换:是把s的五官复制到t上,再由t来驱动这些五官变化。这个交换指的就是换脸技术了。(现在解释的还不太清楚,胡博找了一个相关的项目让我试一下,运行成功之后,我再结合具体例子解释一下)
下面实验部分,上次展示,选的素材不太好,这次换了一些,发现了一些问题:
1.第一个实验结果是比较好的:因为音频语速慢,嘴型清楚;视频本身像素不高,合成后模糊程度几乎看不出来。
2.第二和第三个可以做一个对比:当人物的嘴巴占屏幕比较大时,明显可以看到视频降质。上网查了一下,好像可以通过引入了GFP-GAN模型提升面部画质。所以这周想先试一下这个方法,看能不能优化成。
汇报结束.
这篇关于9月4日工作汇报ppt的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!