【论文研读】基于卷积神经网络的图像局部风格迁移

2024-02-26 06:20

本文主要是介绍【论文研读】基于卷积神经网络的图像局部风格迁移,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

简介

自2015年Gatys首次提出神经艺术风格迁移框架以来,图像风格迁移逐渐成为计算机图形学和计算机视觉领域的一个研究热点,但是当前针对图像风格迁移的研究大多难以提取图像中的局部进行风格迁移,而将重心放在图像全局风格迁移上,针对局部风格迁移这一研究领域上的空白,浙江工业大学缪永伟与浙江理工大学、中科院自动化研究所合作发表了《基于卷积神经网络的图像局部风格迁移》一文。
文中提出了一种基于卷积神经网络的图像局部风格迁移框架,根据输入的内容图和风格图利用图像风格迁移网络生成全局风格迁移图,再利用语义分割生成掩码区分图像的前景区域和背景区域,最后利用掩码图确定风格迁移区域并融合未迁移区域得到图像局部风格迁移结果。


在这里插入图片描述
针对输入原图,利用全连接神经网络FCN和条件随机场CRF结合构成图像语义分割网络,分割输入的内容图得到还有语义标签的语义分割图,此时依据风格图标签对语义分割图进行二值化得到掩码图,掩码图中仅含有值为0或为1的像素点,为0的像素点对应于风格迁移中不进行风格化的像素。
为了优化生成的风格图,文章还采用了Johnson等人提出的快速风格迁移网络结构,将一个生成图问题转换成了一个转换图问题。
为了减少网络训练计算量、增大接收场大小,风格迁移结果不再是从初始化为白噪点的图像经过网络迭代生成(Gatys等人使用该方法)而是经过前馈图像转换网络快速生成。
通过上述方法可以成功得到局部风格迁移图像,但是生成的结果图前景区域与背景区域接壤边缘部分却出现了风格化现象,边缘部分杂乱且不清晰,有时还会出现边界不规则扩大或缩小等问题,不符合用户预期,仍需对边缘部分进行平滑优化。
在这里插入图片描述
为了使局部风格迁移后的风格迁移区域像素能够平滑地融合到原始图像未被风格迁移的区域中,需要对语义分割得到的图像前景进行边缘优化处理,文章的改进思路是在图像语义分割掩码边缘处定义一个边界窄带,将窄带外的像素点标签固定为图像语义风格结果分配到的标签,为此引入了曼哈顿距离,将曼哈顿距离应用到图像分割后的二值掩码图中,利用动态规划算法求解曼哈顿距离图(细节部分请查看论文原文)。
在这里插入图片描述


在这里插入图片描述
上图所示给出了基于曼哈顿距离进行平滑优化融合后的局部风格风格迁移效果与朴素局部风格迁移效果对比图,可以看到经过曼哈顿距离平滑后局部风格迁移效果更好,没有出现明显的分割痕迹。


在这里插入图片描述
文中提到,以前的风格迁移算法大多针对图像进行全局风格迁移,图像中的文字元素也会进行风格化,而风格化后的文字往往难以辨认(如上图c、d所示),而应用本文的局部风格迁移方法可以指定图像中进行风格化的像素,有效避免了文字元素的风格化问题。
本文提出的局部风格迁移框架目前是风格迁移领域一种新兴算法,不过该算法框架仍然可以继续深入探索诸如如何应用到视频中进行局部风格迁移;如何克服由于视频中位置、光线、视角等变化引起的闪烁和抖动问题等研究课题。
在此,感谢本文论文作者做出的科研贡献。


在这里插入图片描述
往后我也会继续分享图形学领域优质学习资源,微信搜索图形学研习社关注我,第一时间获取更新!

这篇关于【论文研读】基于卷积神经网络的图像局部风格迁移的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/747922

相关文章

在不同系统间迁移Python程序的方法与教程

《在不同系统间迁移Python程序的方法与教程》本文介绍了几种将Windows上编写的Python程序迁移到Linux服务器上的方法,包括使用虚拟环境和依赖冻结、容器化技术(如Docker)、使用An... 目录使用虚拟环境和依赖冻结1. 创建虚拟环境2. 冻结依赖使用容器化技术(如 docker)1. 创

SQL Server数据库迁移到MySQL的完整指南

《SQLServer数据库迁移到MySQL的完整指南》在企业应用开发中,数据库迁移是一个常见的需求,随着业务的发展,企业可能会从SQLServer转向MySQL,原因可能是成本、性能、跨平台兼容性等... 目录一、迁移前的准备工作1.1 确定迁移范围1.2 评估兼容性1.3 备份数据二、迁移工具的选择2.1

将sqlserver数据迁移到mysql的详细步骤记录

《将sqlserver数据迁移到mysql的详细步骤记录》:本文主要介绍将SQLServer数据迁移到MySQL的步骤,包括导出数据、转换数据格式和导入数据,通过示例和工具说明,帮助大家顺利完成... 目录前言一、导出SQL Server 数据二、转换数据格式为mysql兼容格式三、导入数据到MySQL数据

基于WinForm+Halcon实现图像缩放与交互功能

《基于WinForm+Halcon实现图像缩放与交互功能》本文主要讲述在WinForm中结合Halcon实现图像缩放、平移及实时显示灰度值等交互功能,包括初始化窗口的不同方式,以及通过特定事件添加相应... 目录前言初始化窗口添加图像缩放功能添加图像平移功能添加实时显示灰度值功能示例代码总结最后前言本文将

基于人工智能的图像分类系统

目录 引言项目背景环境准备 硬件要求软件安装与配置系统设计 系统架构关键技术代码示例 数据预处理模型训练模型预测应用场景结论 1. 引言 图像分类是计算机视觉中的一个重要任务,目标是自动识别图像中的对象类别。通过卷积神经网络(CNN)等深度学习技术,我们可以构建高效的图像分类系统,广泛应用于自动驾驶、医疗影像诊断、监控分析等领域。本文将介绍如何构建一个基于人工智能的图像分类系统,包括环境

图神经网络模型介绍(1)

我们将图神经网络分为基于谱域的模型和基于空域的模型,并按照发展顺序详解每个类别中的重要模型。 1.1基于谱域的图神经网络         谱域上的图卷积在图学习迈向深度学习的发展历程中起到了关键的作用。本节主要介绍三个具有代表性的谱域图神经网络:谱图卷积网络、切比雪夫网络和图卷积网络。 (1)谱图卷积网络 卷积定理:函数卷积的傅里叶变换是函数傅里叶变换的乘积,即F{f*g}

AI hospital 论文Idea

一、Benchmarking Large Language Models on Communicative Medical Coaching: A Dataset and a Novel System论文地址含代码 大多数现有模型和工具主要迎合以患者为中心的服务。这项工作深入探讨了LLMs在提高医疗专业人员的沟通能力。目标是构建一个模拟实践环境,人类医生(即医学学习者)可以在其中与患者代理进行医学

AI基础 L9 Local Search II 局部搜索

Local Beam search 对于当前的所有k个状态,生成它们的所有可能后继状态。 检查生成的后继状态中是否有任何状态是解决方案。 如果所有后继状态都不是解决方案,则从所有后继状态中选择k个最佳状态。 当达到预设的迭代次数或满足某个终止条件时,算法停止。 — Choose k successors randomly, biased towards good ones — Close

论文翻译:arxiv-2024 Benchmark Data Contamination of Large Language Models: A Survey

Benchmark Data Contamination of Large Language Models: A Survey https://arxiv.org/abs/2406.04244 大规模语言模型的基准数据污染:一项综述 文章目录 大规模语言模型的基准数据污染:一项综述摘要1 引言 摘要 大规模语言模型(LLMs),如GPT-4、Claude-3和Gemini的快

论文阅读笔记: Segment Anything

文章目录 Segment Anything摘要引言任务模型数据引擎数据集负责任的人工智能 Segment Anything Model图像编码器提示编码器mask解码器解决歧义损失和训练 Segment Anything 论文地址: https://arxiv.org/abs/2304.02643 代码地址:https://github.com/facebookresear