秒杀Deepfake!微软北大提出AI换脸工具FaceShifter和假脸检测工具Face X-Ray

本文主要是介绍秒杀Deepfake!微软北大提出AI换脸工具FaceShifter和假脸检测工具Face X-Ray,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

【导读】人脸识别的“利矛与坚盾”同时出炉!微软亚洲研究院和北京大学最近联合发表2篇重量级学术论文,提出了FaceShifter和FaceX-Ray——前者是一种高保真、能够感知遮挡的AI“换脸工具”,后者则是针对伪造人脸图像的通用检测工具,在取得业界领先的性能的同时,所需数据量也少得多。

最先进的AI和机器学习算法不仅可以生成栩栩如生的位置和物体的图像,还擅长将人脸头像从一个人换成另一个人的。另一方面,研究人员也在不断开发能够检测deepfake假图像的识别工具。这场在机器学习图像识别领域的“矛与盾”之争愈演愈烈。

最近,微软研究院和北京大学的研究团队就同时造出了一对“利矛”和“坚盾”,他们发表的两篇论文分别提出了FaceShifter和Face X-Ray——前者是一种高保真度、可识别遮挡的换脸工具,后者则是能够检测伪造人脸图像的工具。

研究人员表示,与多个现行基线方法相比,这两种方法都能在不牺牲性能的情况下取得业界领先的结果,而且所需的数据比以前的方法少得多。

利矛:高保真度换脸工具FaceShifter

这个新工具采用两层框架结构。过去换脸应用的主要困难在于提取面部特征,然后将两张图的特征和属性组合在一张图中,最近基于GAN的工作取得了明显进步,但仍然在合成高精度、真实图像结果上面临挑战。

研究人员提出了一个新的两部分架构,称为FaceShifter,可以实现高精度和遮挡条件下的换脸。第一部分通过充分,自适应对目标属性进行挖掘和集成,生成高清换脸图片。使用新的属性编码器,提取多级目标的人脸属性,利用自适应注意力非正规化(AAD)层的新生成器整合人脸合成图片的特征和属性。

架构的第二部分主要解决面部遮挡问题,这部分包括一个新的启发式错误确认细化网络(HEAR-Net)。训练后,可以以自监督的方式恢复图像的异常区域,无需任何手动注释。在新面部图像上进行的大量实验表明,与其他方法相比,本文模型生成的换脸图片结果不仅在感观上更真实、更具吸引力,而且还保留了原图像更多的特征。

 

第一阶段的AEI-Net结构。AEI-Net由身份编码器,多级属性编码器和AAD生成器组成。AAD生成器使用在AAD层上构建的级联AAD ResBlk,可在多个功能级别中集成图像特征和属性的信息

第二阶段的HEAR-Net和生成效果

与FaceSwap、Nirkin、FaceForensics ++、DeepFake、IPGAN 等模型生成效果的比较。我们的模型更好地保留了源图像的脸部形状,也更忠实于目标属性(照明,图像分辨率)

与现有其他换脸模型的性能效果对比

坚盾:面部假图像检测工具Face X-ray

 

典型的换脸合成方法包括三个阶段:1)检测面部区域;2)合成期望的目标面部 3)将目标面部融合到原始图像中。现有的对面部合成图像检测通常面向第二阶段,并基于数据集训练有监督的每帧二进制分类器。这种方法可以测试数据集上实现近乎完美的检测精度,如果遇见训练时没见过的假图像,性能会出现明显下降。

与现有方法不同的是,Face X-Ray不需要事先知道操作方法或人工监督,而是生成灰度图像,显示给定的输入图像是否可以分解为来自不同来源的两个图像的混合。研究人员声称,这种方法是可行的,因为大多数方法在将已改变的面部混合到现有背景图像的过程中,有一个步骤是相同的。每个图像都会从硬件(如传感器和镜头)或软件(如压缩和合成算法)中引入的自己独特的标记,并且这些标记在整个图像中趋向于类似呈现。

Face X-Ray不需要依赖于与特定人脸操作技术相关的伪影知识,并且支持它的算法可以在不使用任何方法生成假图像的情况下进行训练。

在一系列实验中,研究人员在Face Forensics++(一个包含1000多个用四种最先进的面部操作方法操作的原始剪辑的大型视频语料库)和另一个包含由真实图像构建的混合图像的训练数据集上训练了Face X-Ray。他们评估了FaceX-Ray使用四个数据集进行概括的能力:

上述FaceForensics++语料库的一个子集;Google发布的数千个视觉deepfake视频集合,deepfake检测挑战赛的图像;以及Celeb-DF,一个包含408个真实视频和795个合成视频且视觉伪影减少的语料库。

研究结果表明,Face X-Ray 能有效地识别出未被发现的假图像,并能可靠地预测混合区域。研究人员指出,这个方法依赖于一个混合步骤,因此可能不适用于完全合成图像,可能被对抗性样本骗过。不过,这确实是迈向通用化面部伪造图像检测工具的有希望的一步。

作者介绍

这两篇文章的作者来自微软亚洲研究院(MSRA)视觉计算团队,团队成员大部分毕业于中科大、北大等国内名校,也都有过在MSRA的实习经历,多人获得Fellowship奖。下面以网上公开信息为基础,介绍一下这两篇文章的作者。

李凌志

 

北京大学硕士研究生,北京交通大学工商管理学士。过去一年在MSRA视觉计算团队研究实习生。研究兴趣是计算机视觉、机器学习和深度学习。对生成模型和Deepfake检测领域特别感兴趣。

鲍建敏

MSRA视觉计算团队研究员。此前于2014年和2019年获中国科学技术大学理学学士、博士学位,师从罗杰波教授和李厚强教授。研究兴趣是计算机视觉,机器学习。对人脸检测,识别,合成以及GAN领域特别感兴趣。

Zhang Ting

MSRA视觉计算团队高级研究员。在2017年7月加入MSRA之前,分别于2012年和2017年获中国科学技术大学学士、博士学位。2013年至2017年在MSRA实习,并于2015年获得了MSRA Fellowship奖。目前研究兴趣集中在计算机视觉的深度学习上。

杨昊

2017年末加入MSRA视觉计算团队。此前在清华大学软件学院获学士、博士学位。研究兴趣包括但不限于对面孔,肖像和3D图像的理解和合成。

陈栋

2015年7月加入MSRA视觉计算团队。此前分别于2010年和2015年获中国科学技术大学学士、博士学位。2010年至2015年在MSRA实习,并于2013年获得MSRA Fellowship奖。

Wen Fang

MSRA视觉计算团队首席研究员。

郭百宁

微软亚洲研究院常务副院长,负责图形图像领域的研究工作。郭博士拥有美国康乃尔大学硕士和博士学位,北京大学学士学位。他还是电气电子工程师学会会士(IEEE Fellow)和美国计算机协会会士(ACM Fellow)。研究兴趣包括计算机图形学、计算机可视化、自然用户界面以及统计学习。在纹理映射建模、实时渲染以及几何模型等领域取得的研究成果尤为突出。

参考链接:

https://venturebeat.com/2020/01/06/microsoft-researchers-propose-face-swapping-ai-and-face-forgery-detector/

论文链接:

https://arxiv.org/pdf/1912.13457.pdf

https://arxiv.org/pdf/1912.13458.pdf

 

这篇关于秒杀Deepfake!微软北大提出AI换脸工具FaceShifter和假脸检测工具Face X-Ray的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/403251

相关文章

Ilya-AI分享的他在OpenAI学习到的15个提示工程技巧

Ilya(不是本人,claude AI)在社交媒体上分享了他在OpenAI学习到的15个Prompt撰写技巧。 以下是详细的内容: 提示精确化:在编写提示时,力求表达清晰准确。清楚地阐述任务需求和概念定义至关重要。例:不用"分析文本",而用"判断这段话的情感倾向:积极、消极还是中性"。 快速迭代:善于快速连续调整提示。熟练的提示工程师能够灵活地进行多轮优化。例:从"总结文章"到"用

AI绘图怎么变现?想做点副业的小白必看!

在科技飞速发展的今天,AI绘图作为一种新兴技术,不仅改变了艺术创作的方式,也为创作者提供了多种变现途径。本文将详细探讨几种常见的AI绘图变现方式,帮助创作者更好地利用这一技术实现经济收益。 更多实操教程和AI绘画工具,可以扫描下方,免费获取 定制服务:个性化的创意商机 个性化定制 AI绘图技术能够根据用户需求生成个性化的头像、壁纸、插画等作品。例如,姓氏头像在电商平台上非常受欢迎,

从去中心化到智能化:Web3如何与AI共同塑造数字生态

在数字时代的演进中,Web3和人工智能(AI)正成为塑造未来互联网的两大核心力量。Web3的去中心化理念与AI的智能化技术,正相互交织,共同推动数字生态的变革。本文将探讨Web3与AI的融合如何改变数字世界,并展望这一新兴组合如何重塑我们的在线体验。 Web3的去中心化愿景 Web3代表了互联网的第三代发展,它基于去中心化的区块链技术,旨在创建一个开放、透明且用户主导的数字生态。不同于传统

AI一键生成 PPT

AI一键生成 PPT 操作步骤 作为一名打工人,是不是经常需要制作各种PPT来分享我的生活和想法。但是,你们知道,有时候灵感来了,时间却不够用了!😩直到我发现了Kimi AI——一个能够自动生成PPT的神奇助手!🌟 什么是Kimi? 一款月之暗面科技有限公司开发的AI办公工具,帮助用户快速生成高质量的演示文稿。 无论你是职场人士、学生还是教师,Kimi都能够为你的办公文

Andrej Karpathy最新采访:认知核心模型10亿参数就够了,AI会打破教育不公的僵局

夕小瑶科技说 原创  作者 | 海野 AI圈子的红人,AI大神Andrej Karpathy,曾是OpenAI联合创始人之一,特斯拉AI总监。上一次的动态是官宣创办一家名为 Eureka Labs 的人工智能+教育公司 ,宣布将长期致力于AI原生教育。 近日,Andrej Karpathy接受了No Priors(投资博客)的采访,与硅谷知名投资人 Sara Guo 和 Elad G

高效录音转文字:2024年四大工具精选!

在快节奏的工作生活中,能够快速将录音转换成文字是一项非常实用的能力。特别是在需要记录会议纪要、讲座内容或者是采访素材的时候,一款优秀的在线录音转文字工具能派上大用场。以下推荐几个好用的录音转文字工具! 365在线转文字 直达链接:https://www.pdf365.cn/ 365在线转文字是一款提供在线录音转文字服务的工具,它以其高效、便捷的特点受到用户的青睐。用户无需下载安装任何软件,只

4B参数秒杀GPT-3.5:MiniCPM 3.0惊艳登场!

​ 面壁智能 在 AI 的世界里,总有那么几个时刻让人惊叹不已。面壁智能推出的 MiniCPM 3.0,这个仅有4B参数的"小钢炮",正在以惊人的实力挑战着 GPT-3.5 这个曾经的AI巨人。 MiniCPM 3.0 MiniCPM 3.0 MiniCPM 3.0 目前的主要功能有: 长上下文功能:原生支持 32k 上下文长度,性能完美。我们引入了

AI hospital 论文Idea

一、Benchmarking Large Language Models on Communicative Medical Coaching: A Dataset and a Novel System论文地址含代码 大多数现有模型和工具主要迎合以患者为中心的服务。这项工作深入探讨了LLMs在提高医疗专业人员的沟通能力。目标是构建一个模拟实践环境,人类医生(即医学学习者)可以在其中与患者代理进行医学

AI行业应用(不定期更新)

ChatPDF 可以让你上传一个 PDF 文件,然后针对这个 PDF 进行小结和提问。你可以把各种各样你要研究的分析报告交给它,快速获取到想要知道的信息。https://www.chatpdf.com/

【北交大信息所AI-Max2】使用方法

BJTU信息所集群AI_MAX2使用方法 使用的前提是预约到相应的算力卡,拥有登录权限的账号密码,一般为导师组共用一个。 有浏览器、ssh工具就可以。 1.新建集群Terminal 浏览器登陆10.126.62.75 (如果是1集群把75改成66) 交互式开发 执行器选Terminal 密码随便设一个(需记住) 工作空间:私有数据、全部文件 加速器选GeForce_RTX_2080_Ti