基于CycleGAN的山水风格画迁移

2023-11-20 20:59
文章标签 风格 迁移 cyclegan 山水

本文主要是介绍基于CycleGAN的山水风格画迁移,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

基于CycleGAN的山水风格画迁移

1、简介

1.1 研究背景及意义

绘画是人类重要的一种艺术形式,其中中国的山水画源远流长,具有丰富的美学内涵,沉淀着中国人的情思。游山玩水的大陆文化意识,以山为德、水为性的内在修为意识,咫尺天涯的视错觉意识,一直成为山水画演绎的中轴主线。从山水画中,我们可以集中体味中国画的意境、格调、气韵和色调。
随着互联网行业的发展,社交媒体逐渐兴起,人们经常在抖音、快手、微博等软件发布短视频或图片。发布图片前,人们一般要对视频或图片进行一些美化,最常见的就是添加一些滤镜。随着计算机视觉和硬件技术的发展使得基于机器生成具有较高逼真度的滤镜效果成为了可能。基于深度学习的对抗生成网络(GAN)技术及其扩展,可以让用户自己拍摄的图片带有艺术作品的风格,达到风格迁移的效果。
利用GANs技术设计生成的自主学习模型机,可以在大量的同类别的数据集中寻找到人眼难以发现的规律,并加以学习,生成以分析得到的规律为基础的新图像。对抗生成网络(GAN)由判别器和生成器组成。首先,生成器生成噪声图片,让判别器使用风格图片和噪声进行训练。判别器在训练后具备鉴别图片是否为该风格的功能。然后用训练完成的判别器来对生成器进行图片,直到生成器能够生成所需风格的图片且让判别器无法判别(判别结果分布为1:1)为止。利用生成器和鉴别器进行互相对抗学习,逐步完善。该技术在数据集充裕的情况下,可以对数据进行预测,对人眼难以发现的特征进行提取,对大数据进行整合等功能,有着很大的应用前景。
由GAN扩展而成的CycleGAN模型,特点为有两对判别器和生成器,以及进行内容到图片、图片到内容的双向训练。与过去的GAN模型如pix2pix对比,CycleGAN的优势在于不需要训练数据是成对的形式,从而能够有更广泛的应用。然而,中国画具有独特的绘画风格,通过大量训练集对模型进行训练才能够使得模型学习到相应的绘画风格,从而能够对任意一张环境图像实现中国山水画风格的迁移。除了社交媒体,风格迁移在其他领域也有广阔的应用前景和强烈的需求。导航软件可以用风格迁移的方式将卫星照片转换成地图的形式;在刑侦领域,可以用风格迁移的方式将嫌疑犯的手绘画像转移成有参考价值的照片。除此之外,还有生成字体,高分辨率重建等应用方向。
项目主要研究任务为基于CycleGAN将既有内容图片转换为中国山水画风格,通过CycleGAN强大的特征提取能力,得到不同图像间的特征信息,从而能够学习到中国山水画风格。通过大量的训练数据对CycleGAN网络进行不断的训练,提高CycleGAN画风迁移的准确率。此外,我们还对原始CycleGAN进一步进行了改进,将CycleGAN与自注意力机制相结合,从而提高生成图像的逼真度。
在这里插入图片描述

图1-1 山水画风格迁移实例
Figure 1-1 An example of image style transfer

3、CycleGAN算法原理及其改进措施

3.1 图像风格迁移数据集

数据集的质量和数量会影响模型的泛化性和生成图像的质量,为了能够实现不同画家风格的迁移工作,通过爬虫和寻找公开数据集的方式进行数据收集。在我们的任务中,我们将要实现中国山水风格画的迁移工作,因此,我们主要搜寻具有中国山水画风格的图像形成模型训练所需的数据集。数据集从四个不同的美术馆和画廊收集得到。中国风格数据集共2192张,其中362张图片收集自普林斯顿大学美术馆,101张图片收集自哈佛大学美术馆,428张图片收集自大都会艺术博物馆,1301张图片收集自史密森尼弗里尔艺术画廊。不同美术馆和画廊收集到的部分图像示例分别如图3-1(a)到3-1(d)所示。
在这里插入图片描述
(a) 哈佛大学美术馆收集图像示例
在这里插入图片描述
(b) 普林斯顿大学美术馆收集图像示例
在这里插入图片描述

© 大都会艺术博物馆收集图像示例
在这里插入图片描述
(d) 史密森尼弗里尔艺术画廊收集图像示例
图3-1 中国画风数据集

Figure 3-1 Example of Chinese style images

3.2 CycleGAN算法原理

为了能够生成新的图像,需要将源域中的图像通过变换转移到目标域。通过跨域转换能够将已有图像生成接近真实的图像。不同于其他图像风格转换算法,CycleGAN是传统GAN的特殊变体,与GAN相比,CycleGAN也可以创建新的数据样本,并且CycleGAN不需要成对的数据对模型进行训练。为了确保学习到的映射不将输入的不同对象x1、x2映射为同一个生成结果y,CycleGAN引入了Cycle概念,即将y映射回A,产生x1,并判断x1是否同x1近似,用这样的方式来确保模型真正能学习到一对一的映射而不是一对多。CycleGAN包括前向循环和反向训练两部分,如图3-2所示。其中前向循环用来训练生成器,通过仅利用源域中的图像x和目标域中的图像y来进行无监督的学习。不同于其他图像生成算法,CycleGAN对图像生成过程施加了循环一致性约束,循环一致性约束可以确保从伪造的目标数据集中重建出真实的源数据。在CycleGAN模型中,使用平均绝对误差损失作为循环一致性约束,可以减少图像的重建模糊。CycleGAN为对称性结构,具有与前向循环相同的反向循环,但是目标数据和源数据相反,同样生成器和判别器的作用也相反,对于反向循环,判别器作为生成器,而生成器用于恢复输入数据。通过对抗性训练使得生成器可以学习到如何欺骗判别器。CycleGAN的最终目的是让生成器学习到如何能够生成逼真的伪造数据用来欺骗判别器。具体来说,在模型中定义两个变换G、F,分别表示从输入域X到目标域Y的变换和逆变换,并且使用Dx和Dy来分辨判断F和G的效果,在使用Dx和Dy的同时,引入两个Cycle过程,第一个cycle过程(图3-2中b),是指使用真实的x产生一个估计的y,再使用这个估计的y进行逆变换产生一个估计的x,此时评价真实的x和这个估计的x的差别,同样的Y到X的过程也引入这样的Cycle过程(图3-2中c)。
在这里插入图片描述

图3-2 CycleGAN模型原理
Figure 3-2 CycleGAN model algorithm

3.3 基于CycleGAN模型的改进算法

针对原始CycleGAN模型对产生较大几何形变情况下生成效果差的问题,通过增加VGG损失和自注意力机制使得在产生较大几何形变情况下也能够生成质量较好的图像。具体操作为增加VGG损失的目的是对特征层生成的特征进行约束,增加自注意力机制的目的是将图像的亮度信息纳入到模型的生成结果中,改进模型框架如图3-3所示。
在这里插入图片描述

图3-3 改进CycleGAN模型结构

Figure 3-1 Improved CycleGAN model structure
接下来,将分别对增加VGG损失项和引入自注意力机制的目的进行说明。对于增加VGG损失项,模型使用VGG16网络分别对输入图像和生成图像进行特征提取,通过计算输入图像和生成图像之间的损失来减少输入图像和生成图像之间特征层的变化,保证图像内容的不变,进行保留输入图像的语义信息。
对于增加注意力机制,由于在对原始CycleGAN模型进行测试过程中发现,在不同画家的图像中,由于天空部分颜色相比于图像中的其他部分更亮,并且颜色分布较为分散,因此会产生不同程度的伪影。为了消除生成图像中的伪影,在图像输入生成器之前首先对图像不同部分的光照强度进行评估。由于画家在绘画过程中会将在图像中设置不同的关注区域,具有主次之分,特别是对于轮廓等部分将会 投入更多的笔墨,因此可以通过在轮廓区域增加注意力机制,从而可以生成更加逼真的效果,而对于天空等平面部位,也可以消除生成图像带来的伪影。

4、基于改进CycleGAN的图像风格迁移及软件设计

4.1 实验数据集及实验环境

4.1.1 环境配置

本文利用Anaconda集成平台,基于Python语言进行程序的开发,Python语言是开源语言,生态完善,对于多数深度学习框架都提供了调用接口,用户可以在任何计算机上免费安装和使用相关数据库。此外,Python语言易于学习,语法简单,代码维护简单,拥有丰富的扩展库,可以轻易的完成各种高级任务。
首先需要在Anaconda官网下载Anaconda软件进行安装,并进行环境变量的配置。安装结果如图4-1所示。软件安装完毕后,新建虚拟环境,并进行python 3.8和相关依赖库的安装,相关依赖库包括Pytorch、opencv-python等。
在这里插入图片描述

图4-1 软件安装结果
Figure 4-1 Anaconda install
本文开发的实验环境为Windows系统,GPU型号为Nvidia 2080,为了能够充分的对模型进行训练,对于每个图像迁移模型均训练80000个epoch。

4.1.2 实验数据集

利用第三章所示收集的中国山水风格数据集对模型进行训练。将所有数据均分为训练集和验证集,其中训练集和验证集均包括A和B两部分,数据集组织形式如图4-2所示。
在这里插入图片描述

图4-2 数据集组织形式
Figure 4-2 The structure of dataset

4.2 界面设计实现及测试

模型训练完成后,为了增加交互性能,我们设计了如图4-3所示的交互界面,交互界面包括图像选择,图像风格转换结果展示,以及待转换的不同图像风格,不同图像风格包括中文水墨风格、中文铅笔画风格。除了可以进行风格的选择以外,还分别增加了改进模型情况下图像的显示方式,包括单独增加特征层约束和同时增加特征层约束和自注意力两种方式。最后,我们还可以通过手动的方式调节亮度的约束,当阈值减小时,此时模型将降低图像较亮区域的注意力。
在这里插入图片描述

图4-3 基于CycleGAN的中国画风迁移交互系统
Figure 4-3 Main GUI of image transfer based on CycleGAN
选择图像进行图像风格迁移,图像选择界面如图4-4所示。
在这里插入图片描述

图4-4 基于CycleGAN的图像风格迁移系统选择界面
Figure 4-4 Main GUI of image transfer based on CycleGAN
基于选择后的图像进行图像风格迁移的原始图像和可视化结果分别如图4-5和图4-6所示。
在这里插入图片描述

图4-5 原始风格图像
Figure 4-5 Original Image
在这里插入图片描述

图4-6 图像风格迁移结果
Figure 4-6 Image transfer results
系统可同时显示待进行图像风格迁移的图像和图像风格迁移后的结果图像,此外,界面中还可以显示选择图像的路径以及通过调节阈值控制注意力机制对图像亮度的关注情况,实时进行调整。
4.3 图像风格迁移结果验证
接下来我们将展示不同图像进行图像风格迁移后的结果,图像风格迁移结果如图4-7(a)-4-7©所示。
在这里插入图片描述

(a) 水墨画风格结果
在这里插入图片描述

(b) 增加特征层约束结果
在这里插入图片描述

© 增加特征层约束和自注意力结果结果
图4-7 不同风格生成结果
Figure 4-7 Different transfer images result
最后,采用Intel oneAPI AI组件实现端到端的模型优化,使用的工具为英特尔神经压缩器1.12,采用如下图所示的环境配置。
在这里插入图片描述

对模型优化后的模型平均训练时间进行分析可以发现,经过优化后的模型平均训练时间更短。
在这里插入图片描述

这篇关于基于CycleGAN的山水风格画迁移的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/397385

相关文章

CentOs7上Mysql快速迁移脚本

因公司业务需要,对原来在/usr/local/mysql/data目录下的数据迁移到/data/local/mysql/mysqlData。 原因是系统盘太小,只有20G,几下就快满了。 参考过几篇文章,基于大神们的思路,我封装成了.sh脚本。 步骤如下: 1) 先修改好/etc/my.cnf,        ##[mysqld]       ##datadir=/data/loc

CentOS下mysql数据库data目录迁移

https://my.oschina.net/u/873762/blog/180388        公司新上线一个资讯网站,独立主机,raid5,lamp架构。由于资讯网是面向小行业,初步估计一两年内访问量压力不大,故,在做服务器系统搭建的时候,只是简单分出一个独立的data区作为数据库和网站程序的专区,其他按照linux的默认分区。apache,mysql,php均使用yum安装(也尝试

Linux Centos 迁移Mysql 数据位置

转自:http://www.tuicool.com/articles/zmqIn2 由于业务量增加导致安装在系统盘(20G)磁盘空间被占满了, 现在进行数据库的迁移. Mysql 是通过 yum 安装的. Centos6.5Mysql5.1 yum 安装的 mysql 服务 查看 mysql 的安装路径 执行查询 SQL show variables like

在 Qt Creator 中,输入 /** 并按下Enter可以自动生成 Doxygen 风格的注释

在 Qt Creator 中,当你输入 /** 时,确实会自动补全标准的 Doxygen 风格注释。这是因为 Qt Creator 支持 Doxygen 以及类似的文档注释风格,并且提供了代码自动补全功能。 以下是如何在 Qt Creator 中使用和显示这些注释标记的步骤: 1. 自动补全 Doxygen 风格注释 在 Qt Creator 中,你可以这样操作: 在你的代码中,将光标放在

一个图形引擎的画面风格是由那些因素(技术)决定的?

可能很多人第一直覺會認為shader決定了視覺風格,但我認為可以從多個方面去考慮。 1. 幾何模型 一個畫面由多個成分組成,最基本的應該是其結構,在圖形學中通常稱為幾何模型。 一些引擎,如Quake/UE,有比較強的Brush建模功能(或應稱作CSG),製作建築比較方便。而CE則有較強的大型地表、植被、水體等功能,做室外自然環境十分出色。而另一些遊戲類型專用的引擎,例

风格控制水平创新高!南理工InstantX小红书发布CSGO:简单高效的端到端风格迁移框架

论文链接:https://arxiv.org/pdf/2408.16766 项目链接:https://csgo-gen.github.io/ 亮点直击 构建了一个专门用于风格迁移的数据集设计了一个简单但有效的端到端训练的风格迁移框架CSGO框架,以验证这个大规模数据集在风格迁移中的有益效果。引入了内容对齐评分(Content Alignment Score,简称CAS)来评估风格迁移

DataGrip数据迁移

第一步 第二步  第三步  第四步 选择你刚刚到处的文件即可

从VC6迁移至VS2005 ,VS2008

最近开发平台由VC6.0升级至VS2005,需要将原有的项目迁移,特将碰到的问题归纳如下: 1消息映射 VS2005对消息的检查更为严格,以前在VC6下完全正常运行的消息映射在VS2005下编译不通过 a. ON_MESSAGE(message,OnMyMessage);   OnMyMessage返回值必须为LRESULT,其形式为:afx_msg LRESULT OnMyMessage(

Midjourney 随机风格 (Style Random),开启奇幻视觉之旅

作者:老余捞鱼 原创不易,转载请标明出处及原作者。 写在前面的话:       Midjourney 最近推出了 "Style Random"(随机风格),这项功能可以让我们使用独特的随机 sref 代码创建图像,从而每次都能获得不同的美感。通过对这些功能的探索和尝试,我发现了一些很棒的风格,我很高兴能与大家分享,这样可以节省大家的时间,不用自己动手测试。在本文中,我将展示十个M

基于人工智能的图像风格迁移系统

目录 引言项目背景环境准备 硬件要求软件安装与配置系统设计 系统架构关键技术代码示例 数据预处理模型训练模型预测应用场景结论 1. 引言 图像风格迁移是一种计算机视觉技术,它可以将一种图像的风格(如梵高的绘画风格)迁移到另一幅图像上,从而生成一幅具有特定艺术风格的图像。基于深度学习的图像风格迁移技术已经广泛应用于艺术创作、图像处理等领域。本文将介绍如何构建一个基于人工智能的图像风格迁移