使用变分编解码器实现自动图像生成

2024-04-30 22:08

本文主要是介绍使用变分编解码器实现自动图像生成,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

深度学习不仅仅在擅长于从现有数据中发现规律,而且它能主动运用规律创造出现实世界没有的实例来。例如给网络输入大量的人脸图片,让它识别人脸特征,然后我们可以指导网络创建出现实世界中不存在的人脸图像,把深度学习应用在创造性生成上是当前AI领域非常热门的应用。

从本节开始,我们将接触神经网络在图像生成方面的应用。有两种专门构建的网络在图像生成上能实现良好效果,一种网络叫变分编解码器,另一种叫生成型对抗性网络。这两种网络不仅仅能有与图片生成,还能用于音乐,声音,以及文本生成,但是在图像生成的效果上表现最好,因此接下来我们看看如何构建相应网络实现生成功能。

图像生成的关键思想是,使用网络构造一个向量空间,空间中每一个向量都可以映射成一张真实图片。在网络中有一个模块,读入该向量后,能够经过一系列运算把向量转换成一张图片所对应的二维向量,这个模块在编解码器网络里称为解码器。

编解码器网络的运行流畅如下:

屏幕快照 2019-02-15 下午5.44.51.png

首先我们把大量图片输入到网络中,网络识别图片并抽取图片中蕴含的规律,它把这些规律进行编码,以向量的形式存储,向量的长度越大,它就能存储越多的图片信息。接着网络的解码器模块解读编码向量,由于向量存储的是所有图片共同展现的人脸特征,而不是某个具体人的人脸特征,因此解码器解读编码向量后,就能根据向量蕴含的人脸特征进行绘图,最终构造出原来训练图片里没有的人脸图案,但这个人脸图案的特征与训练图片里面的人脸特征有相关性。

其实我们在前面章节已经接触过特征向量。在前面讲解单词向量时,所谓的单词向量就是一种特征向量。向量空间中,某个方向,也就是向量里面的某些分量可能记录了训练数据的某一方面的特征,对应人脸图片来说,向量可能有一部分分量用来记录笑容特征,某些分量可能记录了眼睛特征,某些分量可能记录了头发特征,所有这些特征综合起来就可能形成一张人脸。由于解码器能够识别向量中不同分量代表的信息,因此它把向量拆分解读之后,再按照向量分量表达的信息来绘制像素点,最终就可以完成一张人脸图片的绘制。

编解码器网络发明与2013和2014年,它能够把高维数据所展现的特征编码成低维向量,然后再把低维向量转换为原来数据所表示的高维向量。但这种还原并非原封不动的还原,而是把低维向量编码的信息展现出来。编解码网络有点像压缩和解压,把解码器模块把输入数据转变成另一种数据量较小的数据格式,而解码器再把该数据格式还原成输入数据,然而编解码器网络可不是简单的进行数据压缩和解压。

屏幕快照 2019-02-16 下午4.55.15.png

如上图,编解码器网络本质上是在学习输入图片像素点的统计信息,知道了像素点在统计上的分布规律后,它再按照相应的分布规律产生像素点,于是产生的图片与输入图片很像,但因为是根据统计规律随机产生的,因此生成的图片会产生某些变异。当我们把大量图片输入网络进行学习时,网络的编码器统计图片像素点变化的均值和方差,以及变化特征,这些特征编码成中间向量格式,然后解码器读取该向量,用随机方法把还原图片像素点的变化规律。

接下来我们看看代码的实现:

from keras.models import Model
from keras import layers
import numpy as np
import keras#输入图片为28*28的灰度图
img_shape = (28, 28, 1)
batch_size = 16
#将输入图片编码为只含有2个分量的向量
latent_dim = 2input_img = keras.Input(shape = img_shape)
#设计编码器部分
x = layers.Conv2D(32, 3, padding = 'same', activation = 'relu')(input_img)
x = layers.Conv2D(64, 3, padding = 'same', activation = 'relu', strides = (2,2))(x)
x = layers.Conv2D(64, 3, padding = 'same', activation = 'relu')(x)
x = layers.Conv2D(64, 3, padding = 'same', activation = 'relu')(x)shape = K.int_shape(x)
#把x压扁成一维向量
x = layers.Flatten()(x)
x = layers.Dense(32, activation = 'relu')(x)
#统计输入图片像素点统计规律上的均值
z_mean = layers.Dense(latent_dim)(x)
#统计输入图片像素点统计规律上的方差
z_log_var = layers.Dense(latent_dim)(x)'''
均值和方差决定了像素点的变化规律,在统计上发现,大量的事物在数据上的变化都遵守正太分布,一旦掌握
了其数值变化的方差和均值,我们就掌握了它变化的规律。在实现解码器时,我们也认为输入图片的像素点
同样符合正太分布,下面函数根据上面得到的均值和方差构造正太分布,然后从这个分布中进行抽样构成要
还原图片的像素点
'''
def  sampling(args):z_mean, z_log_var = args#构造一个随机值,然后使用它到给定正太分布中生成一个结果,这类似于丢一个骰子然后看点数epsilon = K.random_normal(shape=(K.shape(z_mean)[0], latent_dim),mean = 0, stddev = 1.)return  z_mean + K.exp(z_log_var) * epsilonz = layers.Lambda(sampling)([z_mean, z_log_var])

上面是编码器的实现,从这里我们看到,深度学习其本质并没有什么神奇的魔力,它本质是对大量的输入数据进行数理统计,由此就能掌握事物的变化规律。我们再看看解码器的实现:

#解码过程是对编码过程的逆运算
decoder_input = layers.Input(K.int_shape(z)[1:])
x = layers.Dense(np.prod(shape[1:]), activation = 'relu')(decoder_input)
#恢复为向量压扁前的格式
x = layers.Reshape(shape[1:])(x)
#对编码器的卷积运输进行逆操作
x = layers.Conv2DTranspose(32, 3, padding = 'same', activation = 'relu',strides = (2, 2))(x)
x = layers.Conv2D(1, 3, padding = 'same', activation = 'sigmoid')(x)
decoder = Model(decoder_input, x)z_decoded = decoder(z)

接下来我们设置网络的损失函数:

'''
我们定义网络的损失框架没有提供,因此我们自己动手写
'''
class  CustomVariationLayer(keras.layers.Layer):def  vae_loss(self, x, z_decoded):x = K.flatten(x)z_decoded = K.flatten(z_decoded)#计算生成二维数组与输入图片二维数组对应元素的差方和xent_loss = keras.metrics.binary_crossentropy(x, z_decoded)#计算网络生成像素点统计分布与输入图片像素点变化分布的差异k1_loss = -5e-4 * K.mean(1 + z_log_var - K.square(z_mean) - K.exp(z_log_var), axis = -1)return K.mean(xent_loss + k1_loss)def  call(self, inputs):x = inputs[0]z_decoded = inputs[1]loss = self.vae_loss(x, z_decoded)self.add_loss(loss, inputs = inputs)return xy = CustomVariationLayer()([input_img, z_decoded])

损失函数要计算两部分,一部分是网络解码得到的二维数组与输入图片二维数组对应元素的差方和,第二是网络构造的二维数组,其元素变化规律与输入图片元素变化规律在统计上的差异,也就是我们希望网络生成的二维数组,其元素变化在统计上的均值与方差和输入图片像素点在统计上的均值和方差要尽可能的小。这里涉及到数理统计方面的知识,不了解可以直接忽略掉。

最后我们看看网络的训练过程:

from keras.datasets import mnistvae = Model(input_img, y)
vae.compile(optimizer = 'rmsprop', loss = None)
vae.summary()(x_train, _), (x_test, y_test) = mnist.load_data()x_train = x_train.astype('float32') / 255.
x_train = x_train.reshape(x_train.shape + (1,))
x_test = x_test.astype('float32') / 255.
x_test = x_test.reshape(x_test.shape + (1,))vae.fit(x = x_train, y = None,shuffle = True,epochs = 10,batch_size = batch_size,validation_data = (x_test, None))

训练后,我们看看网络对输入图片的还原效果:

import matplotlib.pyp![
](https://upload-images.jianshu.io/upload_images/2849961-5d9959da5b4d37e8.png?imageMogr2/auto-orient/strip%7CimageView2/2/w/1240)
lot as plt
from scipy.stats import norm#一次呈现15*15个数字
n = 15
digit_size = 28
figure = np.zeros((digit_size * n, digit_size * n))grid_x = norm.ppf(np.linspace(0.05, 0.95, n))
grid_y = norm.ppf(np.linspace(0.05, 0.95, n))for i, yi in enumerate(grid_x):for j, xi in enumerate(grid_y):z_sample = np.array([[xi, yi]])z_sample = np.tile(z_sample, batch_size).reshape(batch_size, 2)x_decoded = decoder.predict(z_sample, batch_size = batch_size)digit = x_decoded[0].reshape(digit_size, digit_size)figure[i * digit_size: (i+1) * digit_size,j * digit_size: (j+1) * digit_size] = digitplt.figure(figsize = (10, 10))
plt.imshow(figure, cmap = 'Greys_r')
plt.show()

上面代码运行后可以看到,网络学习了数字图片中像素点的分布规律后,按照规律构造还原会相应的数字图片,还原的图片与输入图片大致相同,但在细节上有些许差异:
1.png

本节的内容比较抽象,不好理解。因为它用到了很多数学知识,没有深厚的数学功底你很难掌握本节内容,这也是现在程序员很难转行到人工智能,特别是深度学习领域的根本原因,因为他们具备的是工程思维,而人工智能要求你具备深厚的数学基础以及科学研究思维,如果你理解不了本节内容不要紧,只要把代码敲一遍,看看结果,具有一个感性认识也就可以了。

更多内容,请点击进入csdn学院

更多技术信息,包括操作系统,编译器,面试算法,机器学习,人工智能,请关照我的公众号:
这里写图片描述

这篇关于使用变分编解码器实现自动图像生成的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/950047

相关文章

关于集合与数组转换实现方法

《关于集合与数组转换实现方法》:本文主要介绍关于集合与数组转换实现方法,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录1、Arrays.asList()1.1、方法作用1.2、内部实现1.3、修改元素的影响1.4、注意事项2、list.toArray()2.1、方

使用Python实现可恢复式多线程下载器

《使用Python实现可恢复式多线程下载器》在数字时代,大文件下载已成为日常操作,本文将手把手教你用Python打造专业级下载器,实现断点续传,多线程加速,速度限制等功能,感兴趣的小伙伴可以了解下... 目录一、智能续传:从崩溃边缘抢救进度二、多线程加速:榨干网络带宽三、速度控制:做网络的好邻居四、终端交互

Python中注释使用方法举例详解

《Python中注释使用方法举例详解》在Python编程语言中注释是必不可少的一部分,它有助于提高代码的可读性和维护性,:本文主要介绍Python中注释使用方法的相关资料,需要的朋友可以参考下... 目录一、前言二、什么是注释?示例:三、单行注释语法:以 China编程# 开头,后面的内容为注释内容示例:示例:四

java实现docker镜像上传到harbor仓库的方式

《java实现docker镜像上传到harbor仓库的方式》:本文主要介绍java实现docker镜像上传到harbor仓库的方式,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地... 目录1. 前 言2. 编写工具类2.1 引入依赖包2.2 使用当前服务器的docker环境推送镜像2.2

C++20管道运算符的实现示例

《C++20管道运算符的实现示例》本文简要介绍C++20管道运算符的使用与实现,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧... 目录标准库的管道运算符使用自己实现类似的管道运算符我们不打算介绍太多,因为它实际属于c++20最为重要的

Java easyExcel实现导入多sheet的Excel

《JavaeasyExcel实现导入多sheet的Excel》这篇文章主要为大家详细介绍了如何使用JavaeasyExcel实现导入多sheet的Excel,文中的示例代码讲解详细,感兴趣的小伙伴可... 目录1.官网2.Excel样式3.代码1.官网easyExcel官网2.Excel样式3.代码

Go语言数据库编程GORM 的基本使用详解

《Go语言数据库编程GORM的基本使用详解》GORM是Go语言流行的ORM框架,封装database/sql,支持自动迁移、关联、事务等,提供CRUD、条件查询、钩子函数、日志等功能,简化数据库操作... 目录一、安装与初始化1. 安装 GORM 及数据库驱动2. 建立数据库连接二、定义模型结构体三、自动迁

python实现对数据公钥加密与私钥解密

《python实现对数据公钥加密与私钥解密》这篇文章主要为大家详细介绍了如何使用python实现对数据公钥加密与私钥解密,文中的示例代码讲解详细,感兴趣的小伙伴可以跟随小编一起学习一下... 目录公钥私钥的生成使用公钥加密使用私钥解密公钥私钥的生成这一部分,使用python生成公钥与私钥,然后保存在两个文

ModelMapper基本使用和常见场景示例详解

《ModelMapper基本使用和常见场景示例详解》ModelMapper是Java对象映射库,支持自动映射、自定义规则、集合转换及高级配置(如匹配策略、转换器),可集成SpringBoot,减少样板... 目录1. 添加依赖2. 基本用法示例:简单对象映射3. 自定义映射规则4. 集合映射5. 高级配置匹

Spring 框架之Springfox使用详解

《Spring框架之Springfox使用详解》Springfox是Spring框架的API文档工具,集成Swagger规范,自动生成文档并支持多语言/版本,模块化设计便于扩展,但存在版本兼容性、性... 目录核心功能工作原理模块化设计使用示例注意事项优缺点优点缺点总结适用场景建议总结Springfox 是