MFnet

2023-11-21 10:30
文章标签 mfnet

本文主要是介绍MFnet,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

ABSTRACT

创建一个完整的风格化字体库,帮助观众从文本中感知信息,通常需要多年的学习和熟练使用许多专业工具。因此,基于深度学习的自动风格化字体生成是一项令人向往但具有挑战性的任务,近年来受到了广泛关注。本文回顾了最先进的风格化字体生成方法,并提出了基于深度学习的风格化字体生成的分类。尽管现有模型,风格化的多语言字体生成性能显著,但将特定字体样式应用于多种语言的不同字符的任务从未被报道过。

在众多需要与国际受众进行交流的应用场景中,高效经济的风格化多语言字体生成方法是必不可少的。我们提出了一种通过快速前馈网络多语言风格化字体生成的解决方案,多语言字体生成网络(MF-Net),它可以将以前未见过的字体样式从一些样本转移到以前未见过的语言的字符。

基于生成对抗网络(GAN)框架,MF-Net在生成器中采用了两个独立的编码器来解耦字体图像的内容和样式信息。我们在风格编码器中采用了一个注意模块来提取浅风格和深风格特征。此外,我们还设计了一种新颖的语言复杂度感知跳跃连接,以自适应调整结构信息的保存。通过一个有效的损失函数来提高生成的字体图像的视觉质量,我们展示了所提出的基于定量和主观视觉评价的MF-Net的有效性,并将其与风格化多语言字体生成场景中的现有模型进行比较。源代码可以在https://github.com/iamyufan/MF-Net上找到。

1 INTRODUCTION

随着越来越多的短信出现在互联网上和人们的日常生活中,字体被用作文字的视觉解释,发挥着越来越重要的作用。在许多应用程序中,找到一种有效且经济的方法来生成字体是有益的。

传统的字体设计方法非常耗时,需要多年的学习和熟练使用许多专业工具。此外,图形设计师还面临着不同语言中字体风格不一致的问题。提供多种语言的不同字形的字体称为多语言字体。

在许多应用场景中,找到一种在不同语言中具有相同风格的多语言字体是必不可少的,但也是极其困难的。例如,当开发一款面向国际市场的电子游戏时,需要使用相同风格的不同语言文本,游戏中使用的字体很可能是几种程式化的多语言字体。

然而,设计这样一个风格化的字体家族是一项昂贵且具有挑战性的任务,需要字体设计师精通多种语言。

因此,自动字体生成已经成为人们想要的,吸引了大量的研究来解决。对于生成的图像,一个性能良好的风格化字体生成方法应该实现两个目标。首先,考虑到在某些语言(例如中文)中结构的微小不匹配可能导致完全不同的字符,输出图像应该保持字符的结构,以使人类读者在识别字符时没有任何困难。其次,模型应该将大多数样式特征(例如,大小,粗体等)从风格化字体转移到目标字符。

随着深度学习的强大力量和GPU行业的进步,一些基于GAN[8]的方法和专门设计的网络已经尝试实现生成特定样式的字体。已经提出的大多数模型[1,6,13,14,20,21,23]都能够在同一语言中传输字体样式。最近,一些模型已经尝试解决跨语言字体样式迁移[15],在模型训练的两种语言之间迁移字体样式。然而,据我们所知,我们观察到现有模型的局限性,即没有一种模型被建议用于少数镜头的多语言字体生成方法。也就是说,模型需要一次学习字体样式语言的一些参考样本和应用的风格来自另一种语言的符号,模型从未接受过训练。一个少镜头风格化的多语言字体生成模型必须解决字形结构在不同语言中的挑战急剧变化。例如,汉字往往比较在字形结构方面比拉丁字符复杂。当地的汉字的特征对观众来说至关重要识别角色。相比之下,对于拉丁字符,整体特征,如形状和平滑可能对合成字形结构更为关键。
在本文中,提出了一种新的模型MF-Net(多语言字体生成网络),从风格化字体中提取风格信息,并将其应用于任何其他语言提供的标准字体的字形。该发生器采用GAN[8]框架,包含两个独立的编码器和一个解码器,并采用两个鉴别器。具体设计了网络结构和损失函数。特别地,我们引入了一种新的语言复杂度感知跳跃连接,根据参考图像的语言调整结构信息的保存。我们还提出了编码器一致性损失,以更好地分离内容和风格特征。

在这里插入图片描述
图1:我们的MF-Net的一些应用实例蓝色边框的图像是内容引用,绿色边框的图像是样式引用。MF-Net能够利用参考图像生成灰色边界图像。

在验证数据集上的实验结果表明,MF-Net具有良好的性能,特别是在未见语言的字体生成任务上。图1给出了我们的MF-Net的一些应用实例。本研究的主要贡献如下:
1、我们提出了具有挑战性的少镜头风格化多语言字体生成任务,并为此构建了一个验证数据集。

2、我们提出了一种新颖的基于gan的模型MF-Net,它首次提出了一种深度学习解决方案,用于将字体样式转换为未见语言的字符。

3、我们设计了一种新颖的语言复杂性感知跳跃连接,以自适应地调整要保留的内容的结构信息。

4、我们引入了一种新的丢失函数,即编码器一致性丢失,以更好地分离内容和风格特征。

本文的其余部分组织如下:在第2节中,我们将简要介绍分别用于风格化字体生成和样式迁移的现有方法。然后,在第3节中,我们将详细介绍我们提出的少镜头风格化多语言字体生成方法MF-Net。详细的实验设置将在第4节介绍。此外,在第5节中,我们将详细分析实验结果。最后,第6节将对本文进行总结

2 RELATED WORK

2.1 Stylized Font Generation

已经报道了几个基于深度学习的项目来解决风格化字体生成的相关任务。现有的风格化字体生成模型根据参考字形图像的数量可分为多镜头字体生成方法和少镜头字体生成方法。早期的模型[3,6,13,14,14,19,20]是高度由图像到图像转换驱动的。

这些模型通常需要大量的目标样式参考图像作为训练输入,例如zi2zi[20]为2000,DCFont[13]和SCFont[14]为775。相比之下,少数镜头程式化字体生成指的是模型(例如[1,15,23]),它只需要观察目标样式的一些图像样本。这些模型包括EMD [23], FTransGAN [15], MC-GAN [1], AGIS-Net [5], MX-Font[18]。

此外,现有的方法可以根据字形语言的应用场景进行分类,即模型可以在哪些语言上进行字体样式迁移。大多数模型实现了生成与参考图像相同语言的风格化字体(例如,英语[1],中文和韩语[2,11,18,21,23])。

一般来说,由于字形和结构之间的相似性,适用于一种语言的风格化字体生成模型在学习其他类似语言时不会严重降低性能。例如,MX-Font[18]经过中文字体的训练,对韩文字体具有很强的泛化能力。但是,跨语言字体样式转换的能力超出了大多数现有模型的能力。少数模型,如FTransGAN[15],设计用于不同语言系统中多语言的风格化字体生成,可以学习风格化的英文字体图像,并将其应用到汉字中。

尽管这些模型取得了显著的成就,但它们的性能在对未见语言的泛化方面仍然有限,这是第1节中描述的风格化多语言字体生成的任务。

在这里插入图片描述
图2:MF-Net的体系结构概述。Generator中的内容/样式编码器提取内容/样式潜在特征𝑧𝑐/𝑧𝑠。解码器将特征映射到生成的图像。这两个鉴别器试图区分参考图像和生成的图像。

2.2 Arbitrary Style Transfer

任意风格转换是利用多个内容参考图像和风格参考图像,将风格特征应用于内容结构,从而合成风格转换图像的任务。现有的任意样式迁移方法已经显示了迁移样式模式和保留内容结构的能力。虽然与任意样式转换任务有许多相似之处,但从保持内容结构的角度来看,风格化的多语言字体生成不同。字体样式转换被期望保留图像所引用的字符的信息,但实际上不关心图像中的几何形状和位置,这对于任意样式是必不可少的转移。然而,在字体样式迁移中,可以借鉴一些新颖和有效的见解,特别是风格化的多语言字体生成,它比其他字体样式迁移任务更“随意”。一个很好的例子是通过一些创新的结构为模型的特征捕获带来灵活性。SANet[22]和AdaAttN[17]是遵循这一思想的模块,它自适应地将内容图像特征的统计量(即均值和方差)与风格图像的统计量对齐。为了实现在大量域中的任意样式迁移,DSTN[10]提出了域指示器和域感知跳过连接。域度指示器从编码器中获取特征映射,并学习分配特征的模糊程度,使域感知跳跃连接能够自适应地调整要保留的结构信息。

3 METHOD DESCRIPTION

本节描述了我们对命名为MF-Net的少镜头风格化多语言字体生成的解决方案。给定一个内容图像和几个样式图像,我们的方法旨在将内容图像的特征与样式图像的风格化字体进行综合。MF-Net的总体结构如图2所示。与其他少量字体生成模型一样,MF-Net采用GAN[8]框架,包括一个生成器和两个鉴别器。此外,为了使模型具有足够的泛化能力,可以从不可见语言的内容图像和不可见字体样式的样式图像中学习,我们提出了语言复杂度感知的跳过连接模块,详见章节3.2。

在这里插入图片描述
图3:带有多头注意力模块[15]的样式编码器的架构。

3.1 Network Overview

少镜头多语言字体生成的任务是将内容图像𝐼𝑐(引用来自一种语言的字符)和一组样式图像𝐼𝑠(来自另一种语言的风式化字体)映射到生成的字体图像𝑥(表示与𝐼𝑐相同的字符并共享与𝐼𝑠相似的样式)。基于gan的系统采用MF-Net捕获条件概率𝑝𝑔𝑡(𝑥|𝐼𝑐,𝐼𝑠)。生成器𝐺首先对内容(样式)图像的内容(样式)信息进行编码,然后进行解码输出生成的信息图像𝑥。我们可以假设𝑥ˆ遵循分布𝑝𝐺(𝑥ˆ|𝐼𝑐,𝐼𝑠)。因此,该任务可以在数学上建模为最小化两个分布之间的距离,𝑝𝑔𝑡(𝑥|𝐼𝑐,𝐼𝑠)和𝑝𝐺(𝑥|𝐼𝑐,𝐼𝑠)。

准确地说,发生器由两个编码器和一个解码器组成。内容编码器𝑓𝑐用于捕获字符内容的结构特征。样式编码器𝑓𝑠用于学习给定风格化字体的样式特征。也就是说,内容(或样式)编码器将内容(或样式)图像作为输入,并产生内容(或样式)潜在特征。在训练过程中,MF-Net将从随机选择的字符的标准字体(如Noto)中输入一个内容图像。样式图像将是从一种风格化字体中随机选择的图像。使用两个独立编码器的动机是将字体图像的特定于字符的内容信息和特定于字体的样式信息分离为两个不相关的编码。在完美的情况下,内容潜在特征只包括内容信息而不包括风格信息,反之亦然。解码器会根据内容和样式特征生成输出图像。
生成过程可以表述为:

在这里插入图片描述
其中𝑧𝑐和𝑧𝑠分别表示内容编码器和样式编码器提取的内容潜在特征和样式潜在特征。

如图2所示,内容编码器由三个卷积层组成,其内核大小分别为7、3和3。每个卷积层后面是批处理归一化层和ReLU激活层。当样式参考图像进入样式编码器(其架构如图3所示)时,它们将首先经过与内容编码器相同的结构,包括三个卷积层。之后,我们的MF-Net在上述层之后采用FTransGAN[15]的多头注意模块,对最后一层卷积输出的特征图进行进一步处理。受FTransGAN[15]的启发,多头注意机制在不同尺度上捕捉风格特征。

以FTransGAN[15]中的注意模块为基础,我们制定了两种注意模块,三种上下文感知的注意模块和一层注意模块。情境感知注意模块通过捕获全局信息,获得更大的接受域和情境信息。

解码器将内容特征𝑧𝑐和风格特征𝑧𝑠的拼接作为输入,并输出生成的图像𝑥。该解码器由六个ResNet块组成,后面是一个批处理归一化层和三个转置卷积层,用于对特征映射的空间维度进行上采样。每个卷积层后面是批处理归一化层和ReLU激活层。此外,引入的语言复杂度感知跳过连接模块,使MF-Net能够根据内容图像的语言属性调整结构保存的级别。从内容编码器的不同卷积层中提取的特征图将被自适应模糊化,并将其馈送到解码器的相应卷积层中。

鉴别器包含内容鉴别器和样式鉴别器,它们分别用于检查所生成的图像是否与内容参考图像和样式参考图像共享相同的内容或样式。受[12]的启发,两个鉴别器利用图像补丁在局部和全局范围内检查真实(ground truth)图像和虚假(generated)图像的特征。

3.2 Language Complexity-aware Skip Connection

字体生成的关键之一是所生成图像的字形应该包含足够的关于字符的结构信息,以供人类读者识别。我们没有直接在内容编码器和解码器的相应层中添加跳过连接,而是设计了模块,语言复杂度感知跳过连接,灵感来自[10],其中编码器提取的特征基于参考图像的“域性”被故意模糊化。给定一种语言的一个特征,卷积层提取的特征映射被用作不同接受域的结构信息。这些特征映射可以加入到解码器中,以保存结构信息并重建图像。然而,要实现任意语言之间的字体样式转换,需要平衡来自局部或全局接受域的结构信息。直观地说,对于复杂的语言,如汉语和日语,局部结构特征对于识别图像所指的字符是必不可少的。然而,对于复杂性较低的语言,如英语和泰语,整体结构特征更为重要,尽管局部结构中巨大的信息损失也是不可接受的。因此,语言复杂度感知的跳跃连接可以调整从不同卷积层提取的特征图的清晰度,而不是在传统的跳跃连接中输入未接触的结构信息。

在这里插入图片描述
图4:(a)语言复杂度指示器的体系结构。它将特征映射𝐹𝑙从卷积层映射到语言复杂度𝛼𝑙(𝑙∈{1,2})。(b)结构提取器的结构。©纹理提取器的结构。

为了检测内容图像的语言复杂程度,即语言复杂度,我们以[10]为灵感设计了语言复杂度指标。如图4所示,语言复杂度指标基于内容图像的传入特征映射𝐹𝑙(𝑙∈{1,2}),指定模糊程度𝛼𝑙(𝑙∈{1,2})。语言复杂度指示器以内容编码器的前两个卷积层(Conv_1, Conv_2)的特征映射作为输入,分别捕获内容图像在浅层和深层的结构信息。随后,我们分别通过结构提取器和纹理提取器获得结构特征和纹理特征。然后将特征联系并传递给权值共享的卷积卷积层Φ(·),输出语言复杂度𝛼𝑙(𝑙∈{1,2})。

我们使用1 × 1卷积层和平均池化层,将其合并为Θ(·),在结构提取器中对结构特征𝑓𝑠𝑡𝑟𝑙进行编码。此外,通过计算克矩阵G(·)[7]提取纹理特征𝑓𝑡𝑒𝑥𝑙。具体步骤如下:

在这里插入图片描述
其中𝜎(·)表示sigmoid操作,ℎ(·)表示线性层,⊙表示通道级连接。

利用𝛼𝑙(𝑙∈{1,2}),我们故意模糊了分别包含浅层和深层内容图像结构信息的特征映射𝐹𝑙(𝑙∈{1,2})。与DSTN[10]类似,利用径向基函数(RBF)核𝜎= 16。内核大小为⌊𝛼𝑙×4⌋+1。因此,随着𝛼𝑙的增加,模糊程度也会增加,反之亦然。为了使语言复杂度指标能够学习语言的复杂性,我们采用了分类损失,详见章节3.3。通过在不同层次上自适应地调整特征图的模糊度,MF-Net有望学会保留重建字形所需的适当结构信息。通过连接编码器和解码器的相应层并传递模糊特征映射,极大地减少了信息损失,从而产生了更好的输出图像质量。

3.3 Loss Function

为了实现少镜头风格化的多语言字体风格迁移,MFNet采用了四种损耗:(1)对抗性损耗是解决GAN框架[8]的极大极小博弈;(2) L1损失,用于测量生成图像与地面真实图像之间的像素不匹配;(3)编码器一致性丢失以保证编码器只学习相应内容(或风格)的特征;(4)领域重构损失,使内容和风格领域的信息永久化。(5)语言复杂度分类损失使语言复杂度学会根据内容语言输出复杂度𝛼𝑙,𝑙∈{1,2}。

3.3.1 对抗性损失。

MF-Net遵循基于gan的框架[8]。作为一个极大极小博弈,GAN的目标是让生成器生成无法通过鉴别器与真实数据区分的示例。在MF-Net的情况下,生成器𝐺将从样式图像𝐼𝑠和内容图像𝐼𝑐中提取信息,以创建内容与𝐼𝑐相同、样式与𝐼𝑠相似的结果图像,这些图像与鉴别器𝐷𝑐和𝐷𝑠的参考图像难以区分。使用铰链损失的对抗损失为:

在这里插入图片描述
其中𝐷𝑐(·)和𝐷𝑠(·)分别表示内容鉴别器和样式鉴别器的输出。

3.3.2 L1缺失。

在训练过程中,计算L1损失,以鼓励生成器在像素级生成与ground truth图像相似的图像,其由:

在这里插入图片描述

3.3.3编码器一致性损耗。

如3.2节所述,使用两个单独的编码器的原因是为了解耦给定字体图像的内容和样式信息。一方面,内容编码器旨在捕获特定于字符的内容信息。另一方面,样式编码器旨在捕获特定于字体的样式信息。理想情况下,内容编码器只从语言中学习字符的结构,而忽略字体的风格(例如,衬线或sans),这意味着,给定来自不同字体的相同字符的任何图像,内容编码器应该输出相同的结果潜在特征,其公式为:
在这里插入图片描述
其中𝐼𝑐1和𝐼𝑐2是两个内容图像,用一种语言表示相同的字符,但使用不同的字体样式。同样,风格编码器只学习字体的风格,而忽略字符,这意味着,给定任何相同字体(例如Roboto)的不同字符的图像,风格编码器应该输出相同的结果嵌入,其公式为:

在这里插入图片描述
其中𝐼𝑠1和𝐼𝑠2是来自相同风式化字体的两个样式图像,但被称为来自不同语言的两个不同字符。

因此,在我们的MF-Net中,我们提出编码器一致性损失,以鼓励内容(或风格)编码器仅提取参考图像的内容(或风格)的特征。

在这里插入图片描述

3.3.4域重构损失。

为了实现任意语言之间的字体样式转换,MF-Net采用重构损失的方法使内容域和样式域的信息永久化。
即域重构损失阻止生成网络忘记源图像(即内容图像和风格图像)的域信息。例如,如果我们使用英文图像作为内容参考,中文字体图像作为风格参考,我们不期望网络只知道如何生成像中文这样复杂结构的语言图像。损失由:
在这里插入图片描述

3.3.5语言复杂性分类丢失。

如3.2节所述,语言复杂度指示器根据从内容图像中提取的特征映射来分配跳过连接的模糊程度。与[10]类似,MF-Net采用二元交叉熵使指标学习语言复杂度,其表达式为:

在这里插入图片描述
其中L𝑙𝑐𝑐1表示浅层跳跃连接的二值交叉熵,L𝑙𝑐𝑐2表示深层跳跃连接的二值交叉熵,𝐼𝑐𝑛𝑐表示中文内容图像,𝐼𝑒𝑛𝑐表示英文内容图像。

综上所述,总损失由
在这里插入图片描述
在𝜆𝑎𝑑𝑣,𝜆𝐿1,𝜆𝑒𝑛𝑐,𝜆𝑟𝑒𝑐,和𝜆𝑙𝑐𝑐是控制这些术语权重。

在这里插入图片描述
表1:EMD[23]、FTransGAN[15]与我们提出的模型的定量比较。↓表示越低越好,↑表示越高越好。每个比较的最佳值以粗体显示。

4 EXPERIMENTS

4.1 Dataset Overview

我们选择汉语和拉丁语作为训练语言对,因为收集数百种风格化的汉语和拉丁语成对字体是可行的。而且,他们在字形结构上的巨大差异给训练过程带来了更大的挑战,这让我们看到了MF-Net应用前景的广度。训练数据集是从[15]使用的数据集扩展而来的,其中包含从开放访问网站收集的额外字体文件[4,9]。最终的训练数据集总共包含858种字体样式,其中每种字体包含992个中文字符和52个拉丁字符。

为了进一步验证在可见语言和不可见语言上的性能,我们还构建了一个多语言测试数据集,其中包含8组未知风格的汉字和总共20组日语、韩语、阿拉伯语、Devanagari语、西里尔语和泰国语。这些语言涵盖了现代世界字体的三个主要类别,包括密集字体(如日语)、类英语字体(如西里尔字母)和高大字体(如泰语、阿拉伯语)。

4.2 Training Settings

我们使用上面描述的数据集上的以下参数在Nvidia RTX 2080 Ti上训练MF-Net。每个损失组件的重量是𝜆𝑎𝑑𝑣= 1,𝜆𝐿1 = 100,𝜆𝑒𝑛𝑐= 0.2,𝜆𝑟𝑒𝑐= 0.1,𝜆𝑙𝑐𝑐= 0.1。Adam optimizer的参数设置为𝛽1 = 0.5和𝛽2 = 0.9。训练的前10个阶段以恒定的学习率0.0002开始。随后的10个epoch使用从0.0002到0的线性衰减学习速率。

5模型评价

本文从以下三个方面对模型的性能进行了评价。

首先,定量比较。我们使用MAE和SSIM来比较像素与像素之间的差异,并通过报告top-1精度和mFID[16]方法来比较特征级别的差异。
第二,主观视觉评价。我们为人类评委设计了一项调查,对MF-Net模型及其竞争对手的生成结果进行排名。第三,延迟比较。我们比较了所有这些模型的平均图像生成速度。

5.1 Models for Comparison

为了全面评估模型,我们选择了另外两个模型EMD[23]和FTransGAN[15]作为我们的竞争对手,看看我们提出的模型在上述指标上是否能超过它们。

正如前面的第2节所解释的,这两个模型都解决了字体样式转换的任务。在GAN训练过程中,提出EMD[23]来分离汉字的风格和内容。

此外,FTransGAN[15]也采用了分离的思想,但它是在双语任务中实现的。EMD[23]最初是为单语字体样式转移而设计的,但FTransGAN[15]的作者对模型进行了修改,使其适合于双语任务。

由于多语言字体样式转换的任务本质上是一个多种双语样式转换的过程,因此将其作为我们的竞争对手是合理的。

5.2 Quantitative Evaluation

5.2.1图像距离。

一种naïve方法来定量评估模型是只计算生成的图像和地面真相之间的距离。在这里,我们采用了以下三个指标:均方误差(MSE)、结构相似指数(SSIM)和平均绝对误差(MAE)。其中,SSIM是图像处理领域最近出现的一种方法,旨在解决MSE的缺点。

5.2.2特征距离。

从FTransGAN[15]中获得灵感,我们还实现了这种方法,使用Fréchet Inception distance (FID)方法计算生成的图像和地面真实图像之间的特征图距离。该指标评估网络的性能,而不仅仅是比较生成的结果。通过这种方式,我们可以分别评估内容编码器和样式编码器的性能。得分由top-1精度和平均值Fréchet初始距离(mFID)[16]报告。

定量评价结果如表1所示。我们可以观察到,MF-Net在对看不见的语言(即中文)进行风格化字体生成的任务中,表现明显优于其他模型,同时对看不见的语言(即中文)达到了最先进的性能。

在这里插入图片描述
图5:我们提出的模型和它的竞争对手在可视语言上的可视化比较

在这里插入图片描述图6:我们提出的模型和它的竞争对手在可视语言上的可视化比较。

在这里插入图片描述
表2:烧蚀对未见语言的风格化字体生成任务的研究。↓表示越低越好,↑表示越高越好。每个比较的最佳值以粗体显示。

5.3 Visual Evaluation

5.3.1视觉对比。

为了验证定量评价结果,我们将生成的样本如图5和图6所示,分别比较MF-Net和竞争对手在生成可见语言和不可见语言风格化字体时的效果。如图5所示,MF-Net在训练语言(即中文)上生成风格化字体时表现出类似的能力。在未见语言的风格化字体生成任务中,MF-Net生成了最可信的图像,这些图像保留了基本真理的结构字形和接近样式参考的字体样式。

5.3.2主观评价。

字体样式迁移的性能不仅是一个可以通过图像级和特征级差异来评价的客观问题。这也是一个高度主观的任务,需要从人的感知来评估,因为美学本质上是一个主观的问题。对于极具艺术性的字体,很难从统计上评估它们,并直接与基本事实进行比较,这可能会被扭曲。基于这个原因,我们进行了一个主观评价调查,让参与者根据他们认为模型生成的图像与给定风格的接近程度来对MF-Net及其竞争对手的顺序进行排名。调查共收到75份有效回复,共660组(部分回复未完成)的排名结果,来自所有87名参与者。MFNet、FTransGAN、EMD和两个消融版本(将在消融研究部分进一步解释)的排名百分位数分别为35.78%±23.4%、52.51%±21.8%、55.54%±25.0%、70.03%±20.2%、86.12%±22.3%1。结果表明,总体而言,MF-Net模型比FTransGAN[15]模型高出16.73%,比EMD[23]高出19.76%。这证明了我们提出的模型确实取得了良好的性能,无论是从统计的角度还是从实际的评估。

5.4 Latency Evaluation

在字体样式转换任务中,我们关心的另一个方面是响应时间。更低的延迟和更快的推理速度使模型能够将其应用场景扩展到需要即时实时反馈的任务,例如增强现实(AR)翻译。虽然MF-Net包含许多复杂的模块,如多头注意力和复杂性感知跳过连接,但在Nvidia RTX 2080 Ti上,每张64x64图像的平均推断速度达到35ms,使其能够以28fps的速度运行。

5.5 Ablation Study

我们进行了消融研究,以验证MF-Net的每个部分都是必要的,其有效性不受其他部分的干扰。

在这里插入图片描述
表3:设置𝛼𝑙(𝑙∈{1,2})后的量化结果(SSIM评分)。每个比较的最佳值以粗体显示。

5.5.1各模块的有效性。

我们从模型中移除每个组件,用相同的设置完全训练模型,然后执行相同的评估方法来调查每个组件的功效。具体来说,我们对编码器一致性损失和语言复杂性感知跳过连接这两个重要组件进行了消融研究,分别表示为P1和P2。评估得分如表2所示。从完整模型(FM)中剥离P1后,所有指标都在下降,表明所提出的编码器一致性损失的重要意义。在去掉P2之后,大多数指标分数继续恶化。消融研究的可视化结果如图7所示。从视觉上来说,我们也可以确认各个成分的功效。

在这里插入图片描述
图7:未见语言消融研究的可视化结果。

5.5.2语言复杂度的有效性𝛼𝑙。

为了分析学习到的语言复杂度𝛼𝑙(𝑙∈{1,2})的有效性,即如果语言复杂度随不同的输入语言而变化,我们有意地将𝛼1和𝛼2设为0、0.5或1。然后,我们对汉语、日语、英语和西里尔语进行了定量评估,前两种语言被认为比后两种语言具有更高的语言复杂性。

SSIM分数如表3所示,我们可以观察到,对于复杂语言,汉语和日语,随着𝛼1的提高,𝛼2的降低,定量结果有所改善。相比之下,较低的𝛼1和较高的𝛼2为英语和西里尔语带来了更好的表现。结果与我们对语言复杂性指标的概念动机相对应,即MF-Net将在浅层添加更多模糊以提高复杂语言的性能,反之亦然。

6 CONCLUSION

我们提出了一种使用GAN框架生成风格化多语言字体的新方法。它展示了少数镜头学习时尚和多语言一代的新颖性。与最近最先进的模型相比,我们的模型将场景从双语字体样式转换扩展到多语言任务,并在数量和视觉上获得更高的性能分数。我们的MF-Net模型保持了较快的推理速度,这表明该模型在现实场景中的有效性。

本工作的最终目标在几个方面是前瞻性的。

首先,它可以用来促进和加快专业字体设计过程,减轻个人购买版权字体的负担。其次,它可以应用于实时场景,例如增强现实翻译任务,其中字体样式可以在多种语言之间传输。然而,要实现这些目标,仍有大量工作和挑战有待解决。例如,基于卷积神经网络设计,模型只能导出64x64图像的结果。在大多数计算机系统中,可以将图像转换为存储为向量的字体文件的方法值得探索。此外,提高数据集的质量,使其能够提供更多种类的美学字体样式,以提高我们提出的模型的泛化能力。

ACKNOWLEDGMENTS

本工作得到了DKU创业基金00AKUG0076和DKU专业自由裁量基金23AKUG0088的部分支持。

REFERENCES

[1] Samaneh Azadi, Matthew Fisher, Vladimir Kim, Zhaowen Wang, Eli Shechtman,
and Trevor Darrell. 2017. Multi-Content GAN for Few-Shot Font Style Transfer.
In Proc. IEEE/CVF CVPR. 7564–7573.
[2] Junbum Cha, Sanghyuk Chun, Gayoung Lee, Bado Lee, Seonghyeon Kim, and
Hwalsuk Lee. 2020. Few-Shot Compositional Font Generation with Dual Memory.
In Proc. ECCV, Andrea Vedaldi, Horst Bischof, Thomas Brox, and Jan-Michael
Frahm (Eds.). 735–751.
[3] Jie Chang, Yujun Gu, Ya Zhang, and Yanfeng Wang. 2018. Chinese Handwriting
Imitation with Hierarchical Generative Adversarial Network. In Proc. BMVC.
[4] DaFont. 2019. DaFont - Download Fonts. [Online]. Available: https://www.dafont.
com/. Accessed on: April. 2022.
[5] Yue Gao, Yuan Guo, Zhouhui Lian, Yingmin Tang, and Jianguo Xiao. 2019. Artistic
glyph image synthesis via one-stage few-shot learning. ACM Trans. Graphics 38,
6 (12 2019), 1–12.
[6] Yiming Gao and Jiangqin Wu. 2020. GAN-Based Unpaired Chinese Character
Image Translation via Skeleton Transformation and Stroke Rendering. In Proc.
AAAI, Vol. 34. 646–653.
[7] Leon A. Gatys, Alexander S. Ecker, and Matthias Bethge. 2016. Image Style
Transfer Using Convolutional Neural Networks. In Proc. IEEE CVPR). 2414–2423.
[8] Ian Goodfellow, Jean Pouget-Abadie, Mehdi Mirza, Bing Xu, David Warde-Farley,
Sherjil Ozair, Aaron Courville, and Yoshua Bengio. 2014. Generative Adversarial Nets. [Online]. Available: https://proceedings.neurips.cc/paper/2014/file/
5ca3e9b122f61f8f06494c97b1afccf3-Paper.pdf. In Advances in Neural Information
Processing Systems, Z. Ghahramani, M. Welling, C. Cortes, N. Lawrence, and K.Q.
Weinberger (Eds.), Vol. 27.
[9] Google. 2019. Google Fonts. [Online]. Available: https://fonts.google.com/.
Accessed on: April, 2022.
[10] Kibeom Hong, Seogkyu Jeon, Huan Yang, Jianlong Fu, and Hyeran Byun. 2021.
Domain-Aware Universal Style Transfer. In Proc. IEEE/CVF ICCV. 14589–14597.
[11] Yaoxiong Huang, Mengchao He, Lianwen Jin, and Yongpan Wang. 2020. RD-GAN:
Few/Zero-Shot Chinese Character Style Transfer via Radical Decomposition and
Rendering. In Proc. ECCV, Andrea Vedaldi, Horst Bischof, Thomas Brox, and
Jan-Michael Frahm (Eds.). 156–172.
[12] Phillip Isola, Jun-Yan Zhu, Tinghui Zhou, and Alexei A. Efros. 2017. Image-toImage Translation with Conditional Adversarial Networks. In Proc. IEEE CVPR.
5967–5976.
[13] Yue Jiang, Zhouhui Lian, Yingmin Tang, and Jianguo Xiao. 2017. DCFont: An
End-To-End Deep Chinese Font Generation System. In SIGGRAPH Asia 2017
Technical Briefs. Article 22, 4 pages.
[14] Yue Jiang, Zhouhui Lian, Yingmin Tang, and Jianguo Xiao. 2019. SCFont:
Structure-Guided Chinese Font Generation via Deep Stacked Networks. In Proc.
AAAI, Vol. 33. 4015–4022.
[15] Chenhao Li, Yuta Taniguchi, Min Lu, and Shin’ichi Konomi. 2021. Few-shot Font
Style Transfer between Different Languages. In Proc. IEEE WACV. 433–442.
[16] Ming-Yu Liu, Xun Huang, Arun Mallya, Tero Karras, Timo Aila, Jaakko Lehtinen,
and Jan Kautz. 2019. Few-Shot Unsupervised Image-to-Image Translation. InProc. IEEE/CVF ICCV. 10550–10559.
[17] Songhua Liu, Tianwei Lin, Dongliang He, Fu Li, Meiling Wang, Xin Li, Zhengxing
Sun, Qian Li, and Errui Ding. 2021. AdaAttN: Revisit Attention Mechanism in
Arbitrary Neural Style Transfer. In Proc. IEEE/CVF ICCV. 6629–6638.
[18] Song Park, Sanghyuk Chun, Junbum Cha, Bado Lee, and Hyunjung Shim. 2021.
Multiple Heads are Better than One: Few-shot Font Generation with Multiple
Localized Experts. In Proc. IEEE/CVF ICCV. 13880–13889.
[19] Donghui Sun, Qing Zhang, and Jun Yang. 2018. Pyramid Embedded Generative
Adversarial Network for Automated Font Generation. In Proc. IEEE ICPR. 976–
981.
[20] Yuchen Tian. 2017. zi2zi: Master Chinese Calligraphy with Conditional Adversarial Networks. [Online]. Available: https://kaonashi-tyc.github.io/2017/04/06/
zi2zi.html.
[21] Yangchen Xie, Xinyuan Chen, Li Sun, and Yue Lu. 2021. DG-Font: Deformable
Generative Networks for Unsupervised Font Generation. In Proc. IEEE/CVF CVPR).
5126–5136.
[22] Sihan Zeng and Zhongliang Pan. 2022. An Unsupervised Font Style Transfer
Model Based on Generative Adversarial Networks. Multimedia Tools Appl. 81, 4
(2022), 5305–5324.
[23] Yexun Zhang, Ya Zhang, and Wenbin Cai. 2018. Separating Style and Content
for Generalized Style Transfer. In Proc. IEEE/CVF CVPR. 8447–8455.

这篇关于MFnet的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/401749

相关文章

RGB_IR多模态融合文章MFNet: Towards Real-Time Semantic Segmentation for Autonomous Vehicles with Multi-Spect

MFNet: Towards Real-Time Semantic Segmentation for Autonomous Vehicles with Multi-Spectral Scenes code pytorch 摘要 本文研究了基于新的RGB-Thermal数据集的自动驾驶车辆街景图像的语义分割,本文还对此进行了介绍。对自动驾驶车辆的兴趣日益增加,使得语义分割适应于自动驾驶系统。然