[论文阅读]Automatic Chinese Font Generation System Reflecting Emotions Based on Generative Adversarial..

本文主要是介绍[论文阅读]Automatic Chinese Font Generation System Reflecting Emotions Based on Generative Adversarial..,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

该文提出了一种情感引导的中文字体自动生成框架:基于生成对抗网络的中文字体自动生成框架,使生成的字体能够反映人类的情感信息。主要两方面为其打基础,一方面,腾讯公司开发了一个详细的问卷系统,旨在定量地找出字体和情绪之间的关系。并基于训练好的模型设计了视觉表情识别部分,为字体生成模块提供条件信息。另一方面,提出了一种基于情感距离和梯度惩罚的情感引导方法,以及分类策略,用于生成由表情识别模块推断的多种风格组合的新字体,可用于不同场景。

使用瓦瑟斯坦距离(情感距离)的原因:由于Zi2Zi模型可以利用成双图像作为训练数据自动生成字体,但是因为模型崩溃以及不稳定,Zi2Zi模型很难训练,导致不知道模型训练的度量,生成器和鉴别器的性能很难平衡,所以一些生成的字体图像有些模糊。使用情感距离可以通过测量生成的图像和真实图像之间的差异来反映训练性能。

使用梯度惩罚的原因:可以增强模型的稳定性,并提高生成图像的质量。

自动字体生成系统的优势:允许不需要专业字体设计能力的普通用户改变字体来传达某种情绪,并在模型中加入了分类损失,以便获得准确的风格结果。

本文的主要贡献可以概括如下:

1、提出并设计了一个问卷系统来定量和定性地研究字体和面部表情之间的关系。数据分析表明,该系统具有较高的可信度,为进一步研究提供了数据集。

2、提出了一个情感引导算法;通过在字体生成模块上使用情绪引导操作,自动中文字体生成系统能够生成具有相应情绪的新风格的中文字体

3、结合了EM距离、梯度惩罚和分类策略,使字体生成模块能够生成高质量的字体图像,并确保每种字体都有一致的样式。

4、在各种中文字体数据集上进行各种实验策略。实验结果被用作建议分析的其他问卷的基础,并且表明生成的字体对于特定的情感是可信的。

基于Zi2Zi的情感引导GAN算法(EG-GAN):融合了地球动子距离和梯度惩罚以及分类损失,该算法从随机噪声向量z中学习映射,并观察到源字体图像x与两个条件单相结合,这两个条件单包含风格信息s 和分类信息f 到y, G{x,s,f,z}→y .生成器G被训练为产生域图像,该域图像不能通过相应的训练鉴别器D来区分生成的图像和真实图像,该鉴别器被训练为尽可能地识别生成器的输出。

在生成字体中,系统训练模块,直到鉴别器无法区分真实字体和生成字体,之后利用预先训练好的模型对输入图像的面部表情进行识别,从而引导生成器生成具有特定情绪的新字体。

面部信息提取模块:以面部图像(转换成48*48的灰度图像)作为输入,计算前两个概率,并进行数据调整过程,以指导具有特定风格的新字体生成。表情识别模块计算包括“愤怒”、“厌恶”、“恐惧”、“快乐”、“中性”、“悲伤”和“惊讶”在内的七种表情的概率。为了保证生成的汉字字体准确反映情感,作者选择表情识别模块结果的前两个概率(c1,c2)来保证两个数据c1,c2被调整为标准数据,正则化用法作为字体生成过程的组合样式标签。

实验结果:

当输入具有特定情绪的面部图像时,通过组合情绪的前两个概率来生成新的字体。

实验中使用了SSIM和PSNR度量来暗示与基线相比更低的数值差异。SSIM用于评估两幅图像之间的亮度、对比度和结构。SSIM分数越高,对图像失真的描述越清晰。PSNR是真实图像和重建图像之间的比率,用于测量图像的质量。

这篇关于[论文阅读]Automatic Chinese Font Generation System Reflecting Emotions Based on Generative Adversarial..的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/307728

相关文章

JAVA智听未来一站式有声阅读平台听书系统小程序源码

智听未来,一站式有声阅读平台听书系统 🌟 开篇:遇见未来,从“智听”开始 在这个快节奏的时代,你是否渴望在忙碌的间隙,找到一片属于自己的宁静角落?是否梦想着能随时随地,沉浸在知识的海洋,或是故事的奇幻世界里?今天,就让我带你一起探索“智听未来”——这一站式有声阅读平台听书系统,它正悄悄改变着我们的阅读方式,让未来触手可及! 📚 第一站:海量资源,应有尽有 走进“智听

Retrieval-based-Voice-Conversion-WebUI模型构建指南

一、模型介绍 Retrieval-based-Voice-Conversion-WebUI(简称 RVC)模型是一个基于 VITS(Variational Inference with adversarial learning for end-to-end Text-to-Speech)的简单易用的语音转换框架。 具有以下特点 简单易用:RVC 模型通过简单易用的网页界面,使得用户无需深入了

AI hospital 论文Idea

一、Benchmarking Large Language Models on Communicative Medical Coaching: A Dataset and a Novel System论文地址含代码 大多数现有模型和工具主要迎合以患者为中心的服务。这项工作深入探讨了LLMs在提高医疗专业人员的沟通能力。目标是构建一个模拟实践环境,人类医生(即医学学习者)可以在其中与患者代理进行医学

论文翻译:arxiv-2024 Benchmark Data Contamination of Large Language Models: A Survey

Benchmark Data Contamination of Large Language Models: A Survey https://arxiv.org/abs/2406.04244 大规模语言模型的基准数据污染:一项综述 文章目录 大规模语言模型的基准数据污染:一项综述摘要1 引言 摘要 大规模语言模型(LLMs),如GPT-4、Claude-3和Gemini的快

论文阅读笔记: Segment Anything

文章目录 Segment Anything摘要引言任务模型数据引擎数据集负责任的人工智能 Segment Anything Model图像编码器提示编码器mask解码器解决歧义损失和训练 Segment Anything 论文地址: https://arxiv.org/abs/2304.02643 代码地址:https://github.com/facebookresear

论文翻译:ICLR-2024 PROVING TEST SET CONTAMINATION IN BLACK BOX LANGUAGE MODELS

PROVING TEST SET CONTAMINATION IN BLACK BOX LANGUAGE MODELS https://openreview.net/forum?id=KS8mIvetg2 验证测试集污染在黑盒语言模型中 文章目录 验证测试集污染在黑盒语言模型中摘要1 引言 摘要 大型语言模型是在大量互联网数据上训练的,这引发了人们的担忧和猜测,即它们可能已

OmniGlue论文详解(特征匹配)

OmniGlue论文详解(特征匹配) 摘要1. 引言2. 相关工作2.1. 广义局部特征匹配2.2. 稀疏可学习匹配2.3. 半稠密可学习匹配2.4. 与其他图像表示匹配 3. OmniGlue3.1. 模型概述3.2. OmniGlue 细节3.2.1. 特征提取3.2.2. 利用DINOv2构建图形。3.2.3. 信息传播与新的指导3.2.4. 匹配层和损失函数3.2.5. 与Super

Partical System

创建"粒子系统物体"(点击菜单GameObject -> Create Other -> Particle System) 添加"粒子系统组件"(点击Component -> Effects  ->Particle System) 粒子系统检视面板  点击粒子系统检视面板的右上角的"+"来增加新的模块。(Show All Modules:显示全部) 初始化模块: •

软件架构模式:5 分钟阅读

原文: https://orkhanscience.medium.com/software-architecture-patterns-5-mins-read-e9e3c8eb47d2 软件架构模式:5 分钟阅读 当有人潜入软件工程世界时,有一天他需要学习软件架构模式的基础知识。当我刚接触编码时,我不知道从哪里获得简要介绍现有架构模式的资源,这样它就不会太详细和混乱,而是非常抽象和易

BERT 论文逐段精读【论文精读】

BERT: 近 3 年 NLP 最火 CV: 大数据集上的训练好的 NN 模型,提升 CV 任务的性能 —— ImageNet 的 CNN 模型 NLP: BERT 简化了 NLP 任务的训练,提升了 NLP 任务的性能 BERT 如何站在巨人的肩膀上的?使用了哪些 NLP 已有的技术和思想?哪些是 BERT 的创新? 1标题 + 作者 BERT: Pre-trainin