Deep Identity-aware Transfer of Facial Attributes

2024-06-20 22:08

本文主要是介绍Deep Identity-aware Transfer of Facial Attributes,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

网络分为两部分,第一部分为face transform network,得到生成图像,该网络还包括一个判别网络用于判别输入图像的真假,以及一个VGG-Face Netowork,用于判别输入图像的性别,即identity loss.

利用face transform network得到的生成图像比较模糊,因此将生成图像输入一个enhancement network,得到增强图像.

网络结构如下:

这里写图片描述

face transform network

参数如下:

face transform network由3个卷积层,5个residual block(每个residual block包含2个卷积层),再加上2个反卷积,一个卷积层得到,具体参数如下.

这里写图片描述

Identity loss

Identity loss用于生成图像与输入图像身份为相同,即为同一个人.由于不能使生成图像与输入图像像素完全相同,因此采用VGG网络提取生成图像,输入图像的特征,并计算他们的特征平方,

这里写图片描述
l 表VGG第l层的输出.利用一个卷中 wl 组合各个层的平方误差,得到Identity loss,

这里写图片描述

Attribute loss

Attribute loss是为了使生成图像与目标图像尽量相似,即满足同一分布,将生成图像输入判别网络,Attribute loss为:

这里写图片描述

判别网络参数为:

这里写图片描述

Perceptual regularization

引入Perceptual regularization项是用来去除生成图像的噪声,保持边缘的同时,图像尽量平滑.

对于含噪图像 g(n)=x+n , n 表示噪声,训练一个去噪网络,将噪声n从图像g中分离处理,得到清晰图像 x .去噪网络为一个包含2个卷积层,卷积核为3×3的网络,损失函数为:

这里写图片描述

得到去噪网络后,便可以构造Perceptual regularization损失函数:

这里写图片描述

整体的目标函数为:

这里写图片描述

Face enhancement networks

identity and attribute losses都定义为高层的特征表示,使得GAN的训练难以收敛,这些可能导致无法生成高质量的图像.因此,本文引入enhancement network对生成图像进行增强处理,以得到更加清晰的图像.

给定 attribute mask m,我们希望对于没有改变的区域,图像与输入图像尽量相似,对于改变的图像区域,我们希望增强图像尽量与生成图像相似,既有损失函数:

这里写图片描述

对于global attribute,首先利用高斯滤波得到模糊图像,再对模糊图像进行增强:

这里写图片描述

DIAT with Adaptive Perceptual Identity Loss

adaptive perceptual identity loss

这里写图片描述

这里写图片描述

DIAT-A

将adaptive perceptual identity loss加入DAN得到损失函数:

这里写图片描述

这篇关于Deep Identity-aware Transfer of Facial Attributes的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1079384

相关文章

Deep Ocr

1.圈出内容,文本那里要有内容.然后你保存,并'导出数据集'. 2.找出deep_ocr_recognition_training_workflow.hdev 文件.修改“DatasetFilename := 'Test.hdict'” 310行 write_deep_ocr (DeepOcrHandle, BestModelDeepOCRFilename) 3.推理test.hdev

Spring源码学习--Aware相关接口(beanNameAware接口/BeanFactoryAware接口/ApplicationContextAware接口)

可以先这样理解在Spring中以Aware结尾的接口的功能 看到Spring源码中接口以Aware结尾的接口(XXXAware)在Spring中表示对XXX可以感知,通俗点解释就是:如果在某个类里面想要使用spring的一些东西,就可以通过实现XXXAware接口告诉Spring,Spring看到后就会给你送过来,而接收的方式是通过实现接口唯一方法set-XXX.比如:有一个类想要使用当前

后起之秀 | MySQL Binlog增量同步工具go-mysql-transfer实现详解

点击上方蓝色字体,选择“设为星标” 回复”资源“获取更多资源 一、 概述 工作需要研究了下阿里开源的MySQL Binlog增量订阅消费组件canal,其功能强大、运行稳定,但是有些方面不是太符合需求,主要有如下三点: 需要自己编写客户端来消费canal解析到的数据server-client模式,需要同时部署server和client两个组件,我们的项目中有6个业务数据库要实时同步到redis

Introduction to Deep Learning with PyTorch

1、Introduction to PyTorch, a Deep Learning Library 1.1、Importing PyTorch and related packages import torch# supports:## image data with torchvision## audio data with torchaudio## text data with t

PostgreSQL 报错 because it does not have a replica identity and publishes updates

(update,delete触发,insert不触发)because it does not have a replica identity and publishes updates Hint: To enable updating from the table, set REPLICA IDENTITY using ALTER TABLE 如果相关表涉及了逻辑复制,且对应表没有主键,则需要

Face Recognition简记1-A Performance Comparison of Loss Functions for Deep Face Recognition

创新点 1.各种loss的比较 总结 很久没见到这么专业的比较了,好高兴。 好像印证了一句话,没有免费的午餐。。。。 ArcFace 和 Angular Margin Softmax是性能比较突出的

Detection简记2-DAFE-FD: Density Aware Feature Enrichment for Face Detection

创新点 1.使用密度估计模型增强检测中的特征图 总结 整个流程还是很清晰的。 conv1-3的特征图经过密度估计模块由检测器D1进行检测。 D2-4分别是四个检测器。 FFM是特征融合模块,将不同层不同大小的特征融合。 FFM网络结构如下: 首先使用1X1的卷积减少两组特征的厚度到128,然后使用双线性插值统一两组特征图的尺寸,然后相加。类似于cvpr2017的SSH。 多尺度检测器的网

A fault diagnosis method of bearings based on deep transfer learning

A fault diagnosis method of bearings based on deep transfer learning 基于深度迁移学习的轴承故障诊断方法 ABSTRACT 近年来,许多深度迁移学习方法被广泛应用于不同工况下的轴承故障诊断,以解决数据分布移位问题。然而,在源域数据差异较大、特征分布不一致的情况下,深度迁移学习方法在轴承故障诊断中的准确率较低,因此本文提出了一种

Deep Learning Techniques for Medical Image Segmentation: Achievements and Challenges

前言: 该篇文章较为全面但稍偏简单的介绍医学图像分割的常见数据集、各种神经网络,以及常见的训练技巧等问题。 一、重点摘录 2.5D approaches are inspired by the fact that 2.5D has the richer spatial information of neighboing pixels wiht less computational costs t

特征选择错误:The classifier does not expose coef_ or feature_importances_ attributes

在利用RFE进行特征筛选的时候出现问题,源代码如下: from sklearn.svm import SVRmodel_SVR = SVR(C=1.0, cache_size=200, coef0=0.0, degree=3, epsilon=0.1, gamma='auto',kernel='rbf', max_iter=-1, shrinking=True, tol=0.001, verb