朱俊彦团队GAN:视觉对齐的编辑,给左晃右晃的猫狗加表情,丝滑又贴合!

本文主要是介绍朱俊彦团队GAN:视觉对齐的编辑,给左晃右晃的猫狗加表情,丝滑又贴合!,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

64b643316847d0688a8bdc2bf61f979a.png 戳我,查看GAN的系列专辑~!

等你着陆!【GAN生成对抗网络】知识星球!

丰色 发自 凹非寺  量子位 报道 | 公众号 QbitAI

GAN又被开发出一项“不正经”用途。

给猫狗加表情:

1277f4cad937d9bf21841429b986a13a.gif

7d6b3c164fcc2844fd99c81fcc62eb31.gif

给马斯克加胡子:

b8134cc23b1a2d59b4e2c3267f6e18e0.gif

不管视频中的脑袋怎么左晃右晃,这些表情都能始终如一地贴合面部,且每一帧都表现得非常丝滑。

这就是朱俊彦等人的最新研究成果:

一种利用GAN监督学习实现的密集视觉对齐(Visual alignment)方法。

该方法的性能显著优于目前的自监督算法,在多个数据集上的性能都与SOTA算法相当,有的甚至还实现了两倍超越。

6f94464171c675bf0e81efc4e8b3059e.png

用GAN监督学习实现密集视觉对齐

视觉对齐是计算机视觉中光流、3D匹配、医学成像、跟踪和增强现实等应用的一个关键要素。

直白地说,比如在人脸识别中,就是不管一张脸是倒着立着还是歪着,任何角度都可以精确识别出哪块是眼睛哪块是鼻子。

而开创性的无监督视觉对齐方法Congealing,在MNIST digits这种简单的二值图像(binary images)上表现得出奇好,在处理大多数具有显著外观和姿势变化的数据集上就差了点。

为了解决这个问题,该团队提出了这个叫做GANgealing的新视觉对齐方法。

它是一种GAN监督算法,同时也受到Congealing的启发。

Congealing模型的框架如下:

3c93460f27145abc6d5ccc526aaa9d31.png

首先,在未对齐的数据上训练生成器G。

然后在生成器G的潜空间中通过学习模式c,来创建一个合成数据集以进行后续对齐。

接着使用该数据集训练空间变换网络T(STN,Spatial Transformer Networks),最后在预测和目标图像中使用感知损失将未对齐的图像映射到相应的对齐图像。

该算法的关键是利用GAN的潜空间(在未对齐的数据上训练)为STN自动生成成对的训练数据。

并且在这个GAN监督学习框架中,STN和目标图像实现联合学习模式,STN专门使用GAN图像进行训练,并在测试时推广到真实图像。

实际效果如何?

实验发现,GANgealing在八个数据集(自行车、狗、猫、汽车、马、电视等)上都能准确找出图片之间的密集对应关系。

ebba9e116a9f620a0699beea6b635779.png

其中,每个数据集的第一行表示未对齐的图像和数据集的平均图像(每行最右那张),第二行为转换后的对齐效果,第三行则显示图像之间的密集对应关系。

图像编辑应用中,GANgealing可以只在平均图像(下图最左)进行示范,就能在数据集中的其他图像上实现同样的效果——不管这些图像的角度和姿势变换有多大。

比如第一行为给小猫加蝙蝠侠眼镜,最后一行为给汽车车身贴上黑色图案。

12947acbfba935bded03c2db0f961fe2.png

视频编辑中,GANgealing在每一帧上的效果都相当丝滑,尤其是和监督光流算法(比如如RAFT)对比,差距非常明显

a78b8bdab702d7c71b08eb3b8407ba03.gif

因此作者也表示,GANgealing可以用在混合现实应用中。

而在定量实验中,GANgealing在非常精确的阈值(<2像素误差容限)条件下优于现有的监督方法,在有的数据集上甚至表现出很大的优势。

2de70b63a7908fc5273be7ade5b5dc22.png

再在具有挑战的SPair-71K数据集上将GANgealing与几种自监督SOTA方法进行性能评估。

比的则是PCK-Transfer值(PCK,percentage of keypoints),它衡量的是关键点从源图像转换到目标图像的百分比。

结果发现,GANgealing在3个类别上的表现都明显优于目前的方法,尤其是在自行车和猫图集上实现了对自监督方法CNNgeo和A2Net的两倍超越。

11ca551fc79a605e09ad5ff88ec88bd9.png

当然,GANgealing在数据集图片与示例差太多时表现得就不太好,比如面对下面这种侧脸的猫以及张开翅膀的小鸟。

606f74a06451129167b5682a082f64c5.png

作者介绍

GANgealing的作者们分别来自UC伯克利、CMU、Adobe以及MIT。

755985b69fe5c132701afcb63801597b.png

一作为UC伯克利三年级的博士生Bill Peebles,研究方向为无监督学习,重点是图像和视频的深度生成模型。

目前在CMU担任助理教授的青年大牛朱俊彦也在其中。

通讯作者为Adobe Research的高级首席科学家Eli Shechtman,他发表了100多篇论文,曾获得ECCV 2002最佳论文奖、WACV 2018最佳论文奖、FG 2020最佳论文亚军以及ICCV 2017的时间检验奖等荣誉。

论文地址:
https://arxiv.org/abs/2112.05143

代码:
https://github.com/wpeebles/gangealing

项目主页:

https://www.wpeebles.com/gangealing

本文系网易新闻•网易号特色内容激励计划签约账号【量子位】原创内容,未经账号授权,禁止随意转载。

猜您喜欢:

超110篇!CVPR 2021最全GAN论文汇总梳理!

超100篇!CVPR 2020最全GAN论文梳理汇总!

拆解组新的GAN:解耦表征MixNMatch

StarGAN第2版:多域多样性图像生成

附下载 | 《可解释的机器学习》中文版

附下载 |《TensorFlow 2.0 深度学习算法实战》

附下载 |《计算机视觉中的数学方法》分享

《基于深度学习的表面缺陷检测方法综述》

《零样本图像分类综述: 十年进展》

《基于深度神经网络的少样本学习综述》

6be1768b0d40a9eb8675bc09cda3a4ca.png

这篇关于朱俊彦团队GAN:视觉对齐的编辑,给左晃右晃的猫狗加表情,丝滑又贴合!的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/203610

相关文章

PDF 软件如何帮助您编辑、转换和保护文件。

如何找到最好的 PDF 编辑器。 无论您是在为您的企业寻找更高效的 PDF 解决方案,还是尝试组织和编辑主文档,PDF 编辑器都可以在一个地方提供您需要的所有工具。市面上有很多 PDF 编辑器 — 在决定哪个最适合您时,请考虑这些因素。 1. 确定您的 PDF 文档软件需求。 不同的 PDF 文档软件程序可以具有不同的功能,因此在决定哪个是最适合您的 PDF 软件之前,请花点时间评估您的

计算机视觉工程师所需的基本技能

一、编程技能 熟练掌握编程语言 Python:在计算机视觉领域广泛应用,有丰富的库如 OpenCV、TensorFlow、PyTorch 等,方便进行算法实现和模型开发。 C++:运行效率高,适用于对性能要求严格的计算机视觉应用。 数据结构与算法 掌握常见的数据结构(如数组、链表、栈、队列、树、图等)和算法(如排序、搜索、动态规划等),能够优化代码性能,提高算法效率。 二、数学基础

Science Robotics 首尔国立大学研究团队推出BBEX外骨骼,实现多维力量支持!

重复性举起物体可能会对脊柱和背部肌肉造成损伤,由此引发的腰椎损伤是工业环境等工作场所中一个普遍且令人关注的问题。为了减轻这类伤害,有研究人员已经研发出在举起任务中为工人提供辅助的背部支撑装置。然而,现有的这类装置通常无法在非对称性的举重过程中提供多维度的力量支持。此外,针对整个人体脊柱的设备安全性验证也一直是一个缺失的环节。 据探索前沿科技边界,传递前沿科技成果的X-robot投稿,来自首尔国立

《计算机视觉工程师养成计划》 ·数字图像处理·数字图像处理特征·概述~

1 定义         从哲学角度看:特征是从事物当中抽象出来用于区别其他类别事物的属性集合,图像特征则是从图像中抽取出来用于区别其他类别图像的属性集合。         从获取方式看:图像特征是通过对图像进行测量或借助算法计算得到的一组表达特性集合的向量。 2 认识         有些特征是视觉直观感受到的自然特征,例如亮度、边缘轮廓、纹理、色彩等。         有些特征需要通

【python计算机视觉编程——7.图像搜索】

python计算机视觉编程——7.图像搜索 7.图像搜索7.1 基于内容的图像检索(CBIR)从文本挖掘中获取灵感——矢量空间模型(BOW表示模型)7.2 视觉单词**思想****特征提取**: 创建词汇7.3 图像索引7.3.1 建立数据库7.3.2 添加图像 7.4 在数据库中搜索图像7.4.1 利用索引获取获选图像7.4.2 用一幅图像进行查询7.4.3 确定对比基准并绘制结果 7.

参会邀请 | 第二届机器视觉、图像处理与影像技术国际会议(MVIPIT 2024)

第二届机器视觉、图像处理与影像技术国际会议(MVIPIT 2024)将于2024年9月13日-15日在中国张家口召开。 MVIPIT 2024聚焦机器视觉、图像处理与影像技术,旨在为专家、学者和研究人员提供一个国际平台,分享研究成果,讨论问题和挑战,探索前沿技术。诚邀高校、科研院所、企业等有关方面的专家学者参加会议。 9月13日(周五):签到日 9月14日(周六):会议日 9月15日(周日

【python计算机视觉编程——8.图像内容分类】

python计算机视觉编程——8.图像内容分类 8.图像内容分类8.1 K邻近分类法(KNN)8.1.1 一个简单的二维示例8.1.2 用稠密SIFT作为图像特征8.1.3 图像分类:手势识别 8.2贝叶斯分类器用PCA降维 8.3 支持向量机8.3.2 再论手势识别 8.4 光学字符识别8.4.2 选取特征8.4.3 多类支持向量机8.4.4 提取单元格并识别字符8.4.5 图像校正

超级 密码加密 解密 源码,支持表情,符号,数字,字母,加密

超级 密码加密 解密 源码,支持表情,符号,数字,字母,加密 可以将表情,动物,水果,表情,手势,猫语,兽语,狗语,爱语,符号,数字,字母,加密和解密 可以将文字、字母、数字、代码、标点符号等内容转换成新的文字形式,通过简单的文字以不同的排列顺序来表达不同的内容 源码截图: https://www.httple.net/152649.html

Python计算机视觉编程 第十章

目录 一、OpenCv基础知识 1.读取和写入图像 2.颜色空间 3.显示图像和结果 二、处理视频 1.输入视频 2.将视频读取到NumPy数组中 三、跟踪 1.光流 2.Lucas-Kanade算法 一、OpenCv基础知识 OpenCV 自带读取、写入图像函数以及矩阵操作和数学库。 1.读取和写入图像 import cv2# 读取图像im = c

jqgrid设置单元格可编辑

1 在单元格的属性列设置为editable。 2 点击编辑按钮的时候,触发某一行设置为edit的状态。 jQuery("#rowed4").jqGrid({url:'server.php?q=2',datatype: "json",colNames:['Inv No','Date', 'Client', 'Amount','Tax','Total','Notes'],colModel