朱俊彦团队最新论文:用GAN监督学习给猫狗加表情!真的很丝滑!

本文主要是介绍朱俊彦团队最新论文:用GAN监督学习给猫狗加表情!真的很丝滑!,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

点击下方卡片,关注“CVer”公众号

AI/CV重磅干货,第一时间送达

丰色 发自 凹非寺
来源:量子位(QbitAI)

GAN又被开发出一项“不正经”用途。

给猫狗加表情:

72a97422dead2eae3c20006fe28e5642.gif

0cd3c71f5b279b70a3bf46afcb38a668.gif

给马斯克加胡子:

19adc0535f5555fb72b5a096b40f7ffa.gif

不管视频中的脑袋怎么左晃右晃,这些表情都能始终如一地贴合面部,且每一帧都表现得非常丝滑。

这就是朱俊彦等人的最新研究成果:

一种利用GAN监督学习实现的密集视觉对齐(Visual alignment)方法。

该方法的性能显著优于目前的自监督算法,在多个数据集上的性能都与SOTA算法相当,有的甚至还实现了两倍超越。

c78fb35ea9ba18e87daa33a3b7bf2a45.png

用GAN监督学习实现密集视觉对齐

视觉对齐是计算机视觉中光流、3D匹配、医学成像、跟踪和增强现实等应用的一个关键要素。

直白地说,比如在人脸识别中,就是不管一张脸是倒着立着还是歪着,任何角度都可以精确识别出哪块是眼睛哪块是鼻子。

而开创性的无监督视觉对齐方法Congealing,在MNIST digits这种简单的二值图像(binary images)上表现得出奇好,在处理大多数具有显著外观和姿势变化的数据集上就差了点。

为了解决这个问题,该团队提出了这个叫做GANgealing的新视觉对齐方法。

它是一种GAN监督算法,同时也受到Congealing的启发。

Congealing模型的框架如下:

f882ee13d8cb6e097239bfa673f5fcca.png

首先,在未对齐的数据上训练生成器G。

然后在生成器G的潜空间中通过学习模式c,来创建一个合成数据集以进行后续对齐。

接着使用该数据集训练空间变换网络T(STN,Spatial Transformer Networks),最后在预测和目标图像中使用感知损失将未对齐的图像映射到相应的对齐图像。

该算法的关键是利用GAN的潜空间(在未对齐的数据上训练)为STN自动生成成对的训练数据。

并且在这个GAN监督学习框架中,STN和目标图像实现联合学习模式,STN专门使用GAN图像进行训练,并在测试时推广到真实图像。

实际效果如何?

实验发现,GANgealing在八个数据集(自行车、狗、猫、汽车、马、电视等)上都能准确找出图片之间的密集对应关系。

2b32dc1ccb7904b7c1095032a1ec937b.png

其中,每个数据集的第一行表示未对齐的图像和数据集的平均图像(每行最右那张),第二行为转换后的对齐效果,第三行则显示图像之间的密集对应关系。

图像编辑应用中,GANgealing可以只在平均图像(下图最左)进行示范,就能在数据集中的其他图像上实现同样的效果——不管这些图像的角度和姿势变换有多大。

比如第一行为给小猫加蝙蝠侠眼镜,最后一行为给汽车车身贴上黑色图案。

a7840f33d75f1c4a2c6fc2197d75c876.png

视频编辑中,GANgealing在每一帧上的效果都相当丝滑,尤其是和监督光流算法(比如如RAFT)对比,差距非常明显

4b4cf9ecd8a46f2f73811b0fe04e8de7.gif

因此作者也表示,GANgealing可以用在混合现实应用中。

而在定量实验中,GANgealing在非常精确的阈值(<2像素误差容限)条件下优于现有的监督方法,在有的数据集上甚至表现出很大的优势。

489b03edf9828481edad1b81fb7eadea.png

再在具有挑战的SPair-71K数据集上将GANgealing与几种自监督SOTA方法进行性能评估。

比的则是PCK-Transfer值(PCK,percentage of keypoints),它衡量的是关键点从源图像转换到目标图像的百分比。

结果发现,GANgealing在3个类别上的表现都明显优于目前的方法,尤其是在自行车和猫图集上实现了对自监督方法CNNgeo和A2Net的两倍超越。

f713f7a357c2be09a885ad6c472f87b6.png

当然,GANgealing在数据集图片与示例差太多时表现得就不太好,比如面对下面这种侧脸的猫以及张开翅膀的小鸟。

2869608f2b24e4033c5ec140debe5a08.png

作者介绍

GANgealing的作者们分别来自UC伯克利、CMU、Adobe以及MIT。

bac5d74c92a9549b2e83b17e458111db.png

一作为UC伯克利三年级的博士生Bill Peebles,研究方向为无监督学习,重点是图像和视频的深度生成模型。

目前在CMU担任助理教授的青年大牛朱俊彦也在其中。

通讯作者为Adobe Research的高级首席科学家Eli Shechtman,他发表了100多篇论文,曾获得ECCV 2002最佳论文奖、WACV 2018最佳论文奖、FG 2020最佳论文亚军以及ICCV 2017的时间检验奖等荣誉。

论文地址:
https://arxiv.org/abs/2112.05143

代码:
https://github.com/wpeebles/gangealing

项目主页:

https://www.wpeebles.com/gangealing

ICCV和CVPR 2021论文和代码下载后台回复:CVPR2021,即可下载CVPR 2021论文和代码开源的论文合集后台回复:ICCV2021,即可下载ICCV 2021论文和代码开源的论文合集后台回复:Transformer综述,即可下载最新的3篇Transformer综述PDF
CVer-Transformer交流群成立
扫码添加CVer助手,可申请加入CVer-Transformer 微信交流群,方向已涵盖:目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿&交流、PyTorch和TensorFlow等群。
一定要备注:研究方向+地点+学校/公司+昵称(如Transformer+上海+上交+卡卡),根据格式备注,可更快被通过且邀请进群▲长按加小助手微信,进交流群
▲点击上方卡片,关注CVer公众号

整理不易,请点赞和在看29263cf297931cfc632e9fcd3c18373f.gif

这篇关于朱俊彦团队最新论文:用GAN监督学习给猫狗加表情!真的很丝滑!的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/203611

相关文章

HarmonyOS学习(七)——UI(五)常用布局总结

自适应布局 1.1、线性布局(LinearLayout) 通过线性容器Row和Column实现线性布局。Column容器内的子组件按照垂直方向排列,Row组件中的子组件按照水平方向排列。 属性说明space通过space参数设置主轴上子组件的间距,达到各子组件在排列上的等间距效果alignItems设置子组件在交叉轴上的对齐方式,且在各类尺寸屏幕上表现一致,其中交叉轴为垂直时,取值为Vert

Ilya-AI分享的他在OpenAI学习到的15个提示工程技巧

Ilya(不是本人,claude AI)在社交媒体上分享了他在OpenAI学习到的15个Prompt撰写技巧。 以下是详细的内容: 提示精确化:在编写提示时,力求表达清晰准确。清楚地阐述任务需求和概念定义至关重要。例:不用"分析文本",而用"判断这段话的情感倾向:积极、消极还是中性"。 快速迭代:善于快速连续调整提示。熟练的提示工程师能够灵活地进行多轮优化。例:从"总结文章"到"用

【前端学习】AntV G6-08 深入图形与图形分组、自定义节点、节点动画(下)

【课程链接】 AntV G6:深入图形与图形分组、自定义节点、节点动画(下)_哔哩哔哩_bilibili 本章十吾老师讲解了一个复杂的自定义节点中,应该怎样去计算和绘制图形,如何给一个图形制作不间断的动画,以及在鼠标事件之后产生动画。(有点难,需要好好理解) <!DOCTYPE html><html><head><meta charset="UTF-8"><title>06

学习hash总结

2014/1/29/   最近刚开始学hash,名字很陌生,但是hash的思想却很熟悉,以前早就做过此类的题,但是不知道这就是hash思想而已,说白了hash就是一个映射,往往灵活利用数组的下标来实现算法,hash的作用:1、判重;2、统计次数;

Andrej Karpathy最新采访:认知核心模型10亿参数就够了,AI会打破教育不公的僵局

夕小瑶科技说 原创  作者 | 海野 AI圈子的红人,AI大神Andrej Karpathy,曾是OpenAI联合创始人之一,特斯拉AI总监。上一次的动态是官宣创办一家名为 Eureka Labs 的人工智能+教育公司 ,宣布将长期致力于AI原生教育。 近日,Andrej Karpathy接受了No Priors(投资博客)的采访,与硅谷知名投资人 Sara Guo 和 Elad G

零基础学习Redis(10) -- zset类型命令使用

zset是有序集合,内部除了存储元素外,还会存储一个score,存储在zset中的元素会按照score的大小升序排列,不同元素的score可以重复,score相同的元素会按照元素的字典序排列。 1. zset常用命令 1.1 zadd  zadd key [NX | XX] [GT | LT]   [CH] [INCR] score member [score member ...]

【机器学习】高斯过程的基本概念和应用领域以及在python中的实例

引言 高斯过程(Gaussian Process,简称GP)是一种概率模型,用于描述一组随机变量的联合概率分布,其中任何一个有限维度的子集都具有高斯分布 文章目录 引言一、高斯过程1.1 基本定义1.1.1 随机过程1.1.2 高斯分布 1.2 高斯过程的特性1.2.1 联合高斯性1.2.2 均值函数1.2.3 协方差函数(或核函数) 1.3 核函数1.4 高斯过程回归(Gauss

秋招最新大模型算法面试,熬夜都要肝完它

💥大家在面试大模型LLM这个板块的时候,不知道面试完会不会复盘、总结,做笔记的习惯,这份大模型算法岗面试八股笔记也帮助不少人拿到过offer ✨对于面试大模型算法工程师会有一定的帮助,都附有完整答案,熬夜也要看完,祝大家一臂之力 这份《大模型算法工程师面试题》已经上传CSDN,还有完整版的大模型 AI 学习资料,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费

AI hospital 论文Idea

一、Benchmarking Large Language Models on Communicative Medical Coaching: A Dataset and a Novel System论文地址含代码 大多数现有模型和工具主要迎合以患者为中心的服务。这项工作深入探讨了LLMs在提高医疗专业人员的沟通能力。目标是构建一个模拟实践环境,人类医生(即医学学习者)可以在其中与患者代理进行医学

【学习笔记】 陈强-机器学习-Python-Ch15 人工神经网络(1)sklearn

系列文章目录 监督学习:参数方法 【学习笔记】 陈强-机器学习-Python-Ch4 线性回归 【学习笔记】 陈强-机器学习-Python-Ch5 逻辑回归 【课后题练习】 陈强-机器学习-Python-Ch5 逻辑回归(SAheart.csv) 【学习笔记】 陈强-机器学习-Python-Ch6 多项逻辑回归 【学习笔记 及 课后题练习】 陈强-机器学习-Python-Ch7 判别分析 【学