【翻译】Lighteweight and Effective Facial LandmarkDetection Using Adversarial Learning WithFace Geomet

本文主要是介绍【翻译】Lighteweight and Effective Facial LandmarkDetection Using Adversarial Learning WithFace Geomet,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

Lighteweight and Effective Facial Landmark Detection Using Adversarial Learning With Face Geometric Map Generative Network

基于几何地图生成网络的对抗式学习的光照和有效的人脸地标检测

使用对抗学习和人脸几何地图生成网络进行轻量级和有效的人脸地标检测

作者:Hong Joo Lee, Seong Tae Kim, Hakmin Lee, and Y ong Man Ro

DOI:10.1109/TCSVT.2019.2897243

论文链接 、letpub查看论文是几区★

摘要

人脸标志点检测在人脸分析任务中起着重要作用。此外,它是许多人脸相关应用的先决条件,其简单性和有效性在人脸地标检测中至关重要。在本文中,我们提出了一个有效的人脸地标检测网络和一个与几何先验生成对抗网络相关的学习框架。几何先验生成对抗网络由一个发生器和两个鉴别器组成。该发生器由一个编码器和两个解码器组成。编码器预测面部标志点。解码器根据预测的地标点生成面部内部和轮廓几何图。从预测的地标点生成人脸几何地图有助于预测的地标点表示人脸几何信息,包括形状和配置。鉴别器确定给定的几何地图是从实际的地标点或估计的地标点生成的。我们提出的网络是端到端可训练的,并且在测试阶段仅使用编码器部分作为面部地标检测器。为了验证该方法的有效性,我们使用基准数据集进行了综合实验。结果表明,与最近提出的人脸地标检测方法相比,该方法具有简单有效的人脸地标检测网络,具有相当的性能。

Index Terms:面部地标检测、几何先验生成对抗网络、面部几何地图。

marginnote3中如何导入图片:文本-点左边有粘贴

1、介绍

        面部地标检测(FLD)是定位面部关键部件的任务。由于FLD为人脸分析提供了必要的信息,它在计算机视觉任务中引起了广泛的关注,例如人脸验证[1],头部姿势估计[2],人脸正面化[3]。因此,开发精确的FLD是许多面部相关应用的必要前提。

        一般来说,FLD方法有两种报告方式:基于优化的方法[4]和基于回归的方法[5]–[7]。基于优化的方法迭代地将人脸模型拟合到给定的人脸图像上。Lianget al.[4]提出了一种FLD方法,该方法通过迭代优化来细化FLD模型参数。基于回归的方法通过学习参数直接将标志点映射到人脸图像上。Cao等人[7]提出了FLD的级联回归结构。

        最近,与传统的FLD方法相比,基于深度学习的方法[5]、[6]、[8]表现出更好的性能。基于深度学习的方法解决了现实世界中的复杂问题,如人脸初始化问题和各种头部姿势问题。Lvet等人[6]采用两级重新初始化网络来解决人脸初始化问题。无论使用何种人脸检测器,它都取得了优异的性能。Ranjanet等人[8]提出了一种多任务学习方法,该方法使用不同的人脸相关任务(如人脸检测和头部姿势估计)联合优化人脸标志点。通过联合优化面部相关任务,它可以同时完成多个任务。

        虽然以前的方法已经取得了很高的性能,但FLD仍然存在挑战性的问题。FLD需要简单且准确,因为它是各种面部应用的先决条件。然而,对于一个简单的CNN结构,FLD的精度并不令人满意,如图1所示。特别是,面部轮廓未对齐时,无法准确检测所有面部组件。这是因为面部轮廓起到了检测面部成分的模板的作用。为了解决这个问题,Baddar等人[9]提出了一种由两个子网络组成的深度网络,用于轮廓对齐的人脸地标检测。第一个网络设计用于检测面部轮廓,另一个网络用于检测面部内部成分。然而,与人脸形状和形态不一致的人脸标志点错位问题仍然没有得到解决

图1。由基于CNN的FLD方法估计的地标失准情况,其中CNN由四个卷积层和两个完全连接层组成。然后,利用L1损耗对其进行优化。结果表明,人脸轮廓区域被错误地检测到,从而导致其他分量估计错误。

        在本文中,我们提出了一个简单有效的FLD网络学习框架,使用几何先验生成对抗网络。在生成对抗网络(GAN)[10]中,深度网络通过生成器和鉴别器之间的对抗性mini-max博弈学习参数。我们设计了用于FLD的几何先验GAN,其中生成器用于根据预测的面部地标坐标生成面部轮廓几何图和面部内部几何图。我们不仅使用传统的L1或L2损失(考虑最小化地面真实人脸标志和预测标志之间的像素到像素的差异),还使用对抗性和人脸几何损失进行训练。通过预测人脸地标坐标生成人脸几何地图,训练FLD网络,根据人脸形状和形态等几何特征预测人脸地标坐标。此外,面部轮廓几何有助于通过在面部轮廓区域内定位内部面部标志来正确检测内部面部标志。对鉴别器进行训练,以区分由地面真实人脸标志和预测人脸标志生成的人脸几何图形。在对人脸几何结构进行训练后,生成器的唯一编码部分被用作预测人脸地标的FLD。因此,FLD的结构可以简化为生成器的编码器部分。

        本文的目的是提出一种新的深度学习框架,该框架利用人脸标志点的几何先验知识,实现简单有效的FLD网络。本文的主要贡献如下:

1. 我们提出了一个简单有效FLD网络通过生成性对抗(学习了landmarks的几何先验知识)训练该网络

2. 为了estimating估计/评估与人脸形状和配置相一致的真实人脸landmarks,我们使用face geometric maps人脸几何地图,因为它可以提供人脸的形状和配置/结构等几何信息。

3. 我们进行了全面的实验,以验证我们提出的方法取得了与其他最近提出的方法相当的性能。所提出的FLD在人脸轮廓检测中也表现出了鲁棒性。

        论文的其余部分组织如下。第二节介绍了相关工作。在第三节中,我们描述了拟议的网络和培训程序的细节。第四节介绍了对比实验结果。最后,结论见第五节。

【笔记】

论文贡献:①提出简单有效的FLD网络trained by②用face geometric maps评估ladmarks③验证

2、相关工作

2.1 深度学习中的人脸标志点检测

        最近,由于采用了深度学习,FLD的性能有了很大的提高。FLD上的深度学习方法是基于回归的方法[5]–[9],[11],[12],其中深度网络是用于检测由粗到细的面部标志点。Zhang等人[13]采用连续的自动编码器网络,并逐步优化网络。Zhang等人[5]提出了任务约束的深度卷积网络(TCDCN),与辅助任务一起训练面部地标检测网络。Wanget al.[14]使用多尺度回归网络进行地标检测。Liet al.[12]提出了考虑头部姿势信息的两级自动编码器结构。在第一阶段,使用自动编码器结构粗略定位地标点。然后,利用头部姿态信息对人脸标志点进行细化。

        另一种FLD方法可以使用热图[15]、[16]进行分类categorize。这些方法使用热图作为相应的地标坐标。Bulat和Tzimiropoulos[15]提出了一种利用剩余架构进行地标检测的方法。Liet等人[16]提出了多任务学习,包括分类分数热图、人脸检测。

        先前的方法通常使用L1或L2损失来训练网络,因此通过减少人脸标记的注释点annotated points和预测点之间的pix到pix差异来优化网络。在几何上,面部标志点通过面部形状和结构而相互连接。在基于深度学习的FLD中,需要预测与面部形状和结构来匹配面部标志点。

2.2 生成性对抗网络

        GAN由发生器和鉴别器组成[10]。网络通过对抗性mini-max游戏进行优化。根据给定的随机向量z,生成器生成伪向量(z),而鉴别器尝试区分真实样本向量y和生成的样本向量G(z)。通过目标函数对网络进行优化 

         最近,使用GAN在图像合成[3]、[17]和人脸识别方面取得了令人印象深刻的结果。从噪声信号输入可以生成逼真的随机图像。TP-GAN[3]通过合成具有地标点信息的正面人脸,提高了人脸识别性能。在D-GAN[18]中,为非线性数据增强生成了各种面部表情图像。在本研究中,我们使用GAN学习框架对生成器进行训练,以便生成器在考虑面部形状和配置的情况下预测面部标志点

3、提出了一种用于人脸地标检测的分布式几何广义对抗网络

3.1 人脸几何生成对抗网络综述

        在提出的人脸几何生成对抗网络中,生成器根据给定的人脸图像生成人脸几何地图。鉴别器估计面部标志点 从给定的真实几何地图以及几何地图是否真实的判别。为了预测与人脸几何特征相协调的人脸标志点,设计了一种人脸几何地图生成模型。

        图2显示了我们针对FLD的面部几何对抗性学习方案的概述。如图2所示,发电机由两部分组成。第一部分是编码器部分,用于预     测面部内部和轮廓地标(图2.(a))。第二部分是解码器部分,它根据预测的地标生成人脸几何地图(图2.(b)、(c))。生成的几何贴图被送入相应的面部几何鉴别器(图2.(d)、(e))。面几何鉴别器鉴别给定的几何贴图是否真实。他们还根据给定的人脸几何图预测人脸对应的标志点。鉴别器损耗反向传播到发电机。然后,编码器可以编码与人脸几何信息相关的更详细的地标特征。发电机和鉴别器网络经过培训后,在测试阶段,只有由一个简单的CNN结构组成的编码器部分被用作FLD,因此FLD也可以是一个简单的网络作为预测准确的面部标志。以下是对建议方法的详细说明。

 图2。提出了一种用于人脸标志点检测的人脸几何模型。(a) 显示面部地标估计器,(b)显示面部内部几何地图生成器,(c)显示面部轮廓几何地图生成器,(d)显示面部内部几何地图鉴别器,(e)显示面部轮廓几何地图鉴别器。

 在生成器中,生成两个对抗性几何贴图(内部和轮廓)。生成器和鉴别器通过对抗性mini-max游戏进行训练。估计器预测面部内/轮廓标志。然后,鉴别器确定几何贴图是否真实/虚假,并预测每个面部地标。请注意,二进制贴图部署为面几何贴图,如图所示。

 【笔记】

3.2 训练面几何地图生成器

        如图2所示,人脸几何地图生成器由一个编码器和两个解码器组成。编码器从给定的面部图像x预测面部内部标志点(表示为asfG,内部(x))和面部轮廓标志点(表示为asfG,轮廓(x))∈R60×60×1。面部内部标志包括眼睛、鼻子、鼻梁和嘴。面部轮廓标志由眉毛和下巴线组成。

        以前的FLD方法通常使用L1或L2损耗来训练深度网络[5]、[6]、[9]。L1或L2损失用于最小化每个地标位置的地面真实面部地标和预测面部地标之间的差异。它不考虑人脸的几何特征,如面部形状和外形。为了估计具有人脸几何特征的人脸标志点,我们设计了人脸几何地图生成器。在面几何贴图生成器(图2.(b)、(c))中,面几何贴图是通过预测的面部地标坐标生成的。编码器需要预测与面部几何结构相关的真实面部标志。图2的内部几何地图解码器。(b) 生成面部内部几何贴图(表示为asGinner(x))。它代表眼睛、鼻子、鼻梁和嘴巴的形状。等高线几何图解码器如图2所示。(c) 生成表示面部轮廓形状的面部轮廓几何图(表示为asGcontour(x))。通过与精确的面部内部和轮廓几何图的配合,可以正确定位面部部件。等高线几何图也可以起到人脸模板的作用。

        为了训练面部几何地图生成器,使用以下目标函数:使用面部地标回归损失(表示为asLG,predict)。它可以写成如下公式(2)所示,其中,InNeral和YContour分别是内部和轮廓面部地标的地面真实坐标。

         此外,为了评估面部地标的几何匹配,在本文中,我们通过使用dice系数损失定义几何损失(表示为LG,dice)[19]。它可以写成|| dice系数损失与其他比较、Dice coefficient/Dice/mIoU★、入门到精通、

      

         其中pis是几何贴图中的像素总数,pis是像素的索引。YINER、YCONTOURA是真实的人脸几何贴图,而YINER(x)、Gcontour(x)是生成的人脸几何贴图。TheYinner,Ycontourare是根据地面真实面部地标坐标生成的面部内部等高线几何图。在本文中,我们将人脸内部组件二值映射和轮廓二值映射部署为人脸几何映射(见图2)。

 图3。(a) 显示用于面部几何体评估的骰子系数。(b) 显示面部几何匹配和骰子系数,评估生成的面部几何贴图,以获得给定的地面真实面部几何贴图。

        图3显示了骰子系数损失对学习网络生成人脸几何图的有用性。骰子系数对重叠区域敏感(图3(a)中的真正区域)。图3的第二个图像。(b) 当骰子系数太低时,在训练开始时显示。在图3中,应该学习网络以增加TP区域。b、 图3的最后一个图像。(b) 显示生成的人脸几何图与地面真实几何图匹配良好。如式(3)所示,骰子系数损失是从面部内部组件和轮廓二元贴图计算得出的。

        进一步的几何改进,在人脸几何GAN框架中训练人脸几何贴图生成器时,利用了人脸几何鉴别器损失(表示为asLDG)。人脸几何鉴别器损失包括鉴别器对抗性损失(LDG、adv)和预测损失(LDG,predict)在第三节C中详细描述。学习面部几何地图生成器的总损失可写为:

其中λ1,λ2表示控制每个损失函数的超参数。我们将这些参数设置为λ1=10,λ2=1。在人脸几何贴图生成器的训练过程中,鉴别器参数是固定的,仅更新生成器参数。 为了最小化LDG,生成器尝试生成精确的面几何贴图。为了生成精确的人脸几何地图,编码器需要估计出能够很好地反映人脸几何特征的人脸标志点。因此,该编码器可以作为FLD,与人脸几何信息协同预测人脸标志点。

 【笔记】 

3.3 训练人脸几何地图鉴别器

        生成的人脸几何图被送入相应的人脸几何图鉴别器。人脸几何地图鉴别器被训练来确定真实/生成的几何地图,并用人脸几何地图预测人脸地标坐标。每个人脸几何地图鉴别器由两个目标函数训练第一个目标函数使用给定的人脸几何地图在人脸几何地图生成器和人脸几何地图鉴别器之间进行mini-max博弈。训练人脸几何地图鉴别器的目标函数可以写成如下:

         TheLD,adv是人脸几何地图鉴别器在训练鉴别器时的损失。人脸几何地图鉴别器学习区分真实几何地图和生成的几何地图byLD,adv.T h eLDG,advis在训练发生器时发生的鉴别器对抗性丢失。在人脸几何地图生成器的训练过程中,人脸几何地图鉴别器的参数是固定的。因此,面部几何贴图生成器通过使生成的面部几何贴图逼真来尝试最小化LDG。

        此外,为了生成更真实的人脸几何图,我们还使用地标预测损失来训练人脸几何图鉴别器。预测损失的目标函数可以写成:

 其中ld,predictor是在训练鉴别器时,鉴别器丢失的地标预测。OFFD、INERN(YINER)和FD、contour(Ycontour)是使用真实人脸几何图进行的识别器地标预测。LDG,Predictor也是在训练生成器时识别器丢失的地标预测。OFFD、inner(Ginner(x))和FD、contour(Gcontour(x))是使用生成的几何地图进行的判别器地标预测。即使生成的几何贴图看起来像真实的byLD、advandLDG、adv,地标预测损失也会向生成器传播额外的面部几何信息。因此,face geometry generator生成更真实的人脸几何地图,并预测更精确的人脸地标坐标。总面部几何鉴别器目标函数可以写成:

         其中,LDI是训练面部几何鉴别器时的鉴别器总损耗,LDGIS是训练面部几何生成器时的鉴别器总损耗。λ3、λ4、λ5、λ6表示控制每个损失函数的超参数。我们通过实验将这些参数设置为λ3=1、λ4=10、λ5=1、λ6=10。在训练面部几何鉴别器期间,生成器参数是固定的,仅更新鉴别器参数。

4、实验结果

4.1 实验设置

        1) 数据准备:为了验证所提出的方法,我们使用HELEN数据集[20]300-W数据集[21]进行了各种实验。HELEN数据集由2000个训练图像和330个测试图像组成。数据集提供两种类型的面部地标注释。第一个注释表示来自原始数据集的194个地标点[20]。另一个注释提供了[21]中的68个面部标志点。在本文中,我们使用了68个面部标志点。

        为了进一步证明效率,我们在300-W数据集上进行了更多的实验。该数据集包含各种面部变化,如表情变化和遮挡。该数据集还提供68个面部地标注释和包含4个子集AFW[22]、LFPW[23]、HELEN[20]和IBUG[21]。训练图像的总数是3148(AFW:337海伦:2000 LFPW:811)。测试图像的总数为689(LFPW:224 HELEN:330 IBUG:135)。测试数据集分为两部分(公共子集:554挑战子集:135)。我们遵循数据设置协议[24]。

        为了避免过度拟合和增加面部变化,我们进行了线性数据增强,如平移、旋转和放大。我们通过±3个像素的平移和±50范围内的平面内旋转进行数据增强◦ 步长为2,放大倍数为1。1比1。步长为0的2个因子。因此,我们使用24000张图像训练HELEN40082张图像训练300-W

        地面真实几何地图是通过连接地面真实面部地标制作的。这些地标坐标被转换为多边形区域遮罩。通过连接眼睛、鼻子、鼻梁和嘴,分别绘制地面真实人脸内部几何图。通过连接眉毛和下巴线坐标点,绘制地面真实面部轮廓几何图。

        2) 实验中使用的详细网络结构:为了验证我们的人脸几何对抗性学习方法的优势,我们使用基线编码器baseline encoder进行了实验。图4显示了我们的网络架构的细节。基线编码器(面部地标估计器)有8个卷积层256维全连接层两个输出层,用于预测面部内部坐标和面部轮廓坐标。卷积层使用最大池(2×2内核大小和步长2)每两个卷积层向下采样一次。上采样下采样 两个解码器(面部内部几何贴图生成器和面部轮廓几何贴图生成器)具有不同的输入大小。面部内部几何地图生成器具有82维输入向量,面部轮廓几何地图生成器具有54维输入向量。输入向量被馈入720维全连接层。它们有7个反褶积层。反褶积层通过2×2反褶积计算进行上采样,步长为2,然后与相应的卷积层连接。输出层使用sigmoid激活函数预测人脸几何图。两个鉴别器(面部内部几何地图鉴别器和面部轮廓几何地图鉴别器)在结构上相同。它们有8个卷积层,512维和256维完全连接层。以及两个输出层,用于预测人脸标志点和识别输入图像。使用卷积(2×2内核大小和步长2)计算,每两层对卷积层进行下采样。

图4。(a)面部地标估计器,(b)面部内部几何地图生成器,(c)面部轮廓几何地图生成器,(d)面部内部几何地图鉴别器,(e)面部轮廓几何地图鉴别器的深层网络结构。

 4.2 性能比较实验

        为了验证该方法的有效性,我们将其性能与最近提出的其他方法进行了比较。表一显示了HELEN数据集上68个面部标志点的平均误差比较。通过标准化的眼间距[5]、[6]、[9]、[26]、[30]测量平均误差人脸对齐算法常用评价标准总结 。表I中的ProposeGeometric,8显示了通过几何对抗学习和8个卷积层。表一显示,所提出的方法与其他方法的性能相当。TCDCN(4.60%)在MAFL[5]数据库中使用预先训练的网络。RCFA(4.65%)利用递归神经网络进行人脸对齐。与这些方法相比,该方法的性能提高了4.22%

        为了进一步评估该方法的鲁棒性,我们在另一个数据集上进行了实验,300-W数据集。300-W数据集包含极具挑战性的图像,广泛用于比较性能。表二显示了两种方法的比较结果300-W数据集的平均误差。我们比较了三种基于手工的方法[7]、[26]、[30]和最近提出的基于深度学习的方法[5]、[6]、[9]、[14]、[29]、[31]–[37]。如表二所示,建议的网络(4.45%)与其他方法的性能相当。特别是,结果显示了与使用两级重新初始化网络的LVet al.[6]方法(4.99%)相当的性能。与最近提出的使用递归网络进行优化的方法FARN(4.88%)相比,该方法的性能相当。图5显示了300-W数据集上几种挑战性情况下的定性地标检测结果。如图5所示,所提出的方法可以在一些具有挑战性的情况下很好地定位。

图5。示例:300-W数据集上68个面部地标点的面部地标检测结果。这些示例包含一些具有挑战性的情况,例如各种头部姿势、表情和遮挡。

4.3 分析超参数影响的实验

         在训练提议的网络时,我们使用了六个超参数来平衡等式(4)、等式(9)和等式(10)中的损失。为了了解超参数的持续性,在300-W数据集上使用不同的超参数集进行了实验。超参数的选择如下所示:

1.预测损失的λ1=10固定为10。然后λ2以指数级变化[25]。

2.来自鉴别器的两种损失。为了在实验中训练人脸几何地图鉴别器和生成器,对于给定的λ1和λ2,将λ3到λ4的比率设置为等于λ5到λ6的比率。在实验中,比率也随指数尺度而变化。

        表三总结了从不同超参数集获得的实验结果。300-W数据集的平均误差由超参数训练的深度网络测量。如表III所示,对于给定的λ1=10,λ2从[0.1,1,10]范围随指数标度变化。对于给定的λ1和λ2,λ3与λ4之比设置为等于λ5与λ6之比。通过改变λ2,分析了几何损失(LG,dice)的影响。当λ2为1时,建议的面部地标检测的平均误差减小为了研究对抗性损失的影响,我们将λ3与λ4的比率改变为λ5从0到λ6。对于给定的λ1=10,λ2=1,为1到10。如表三所示,最低平均误差为4。当超参数为λ1=10、λ2=1、λ3=1、λ4=10、λ5=1、λ6=10时,达到45%。请注意,HELEN数据集的平均误差(表I中的4.22%)是通过超参数λ1=10、λ2=1、λ3=1、λ4=10、λ5=1、λ6=10获得的。

4.4 验证几何损失和人脸几何鉴别器损失有效性的实验

        为了验证该方法中几何损失和人脸几何鉴别器损失的有效性,进行了三个实验。第一个实验是用lg,predict训练人脸标志估计量。 第二个实验是用LG训练人脸几何地图生成器,预测LG,骰子。这是一个验证几何损失影响的实验。最后一个实验是用LG训练人脸几何图生成器,预测LDG。这是一个验证人脸几何鉴别器丢失效果的实验。

        表四显示了实验结果。(LG,predict LG,dice)的结果表明,LG,dice(几何损失)有助于减少深度网络的平均误差。它将平均错误率从5降低到5。2%对4%。在300-W数据集上为85%,从5。0%对4%。与仅使用YLG相比,HELEN数据集的预测值为4%。(LG,predict LDG)的结果表明,LDG(face geometry discriminator loss)也有助于降低深度网络的平均误差。它将平均错误率从5降低到5。2%对4%。300-W数据集上的93%和5。0%对4%。海伦数据集的6%。通过同时使用几何损失和对抗性损失(ProposedGeometric,8),平均误差从5进一步减小。2%对4%。在300-W数据集上为45%,从5。0%对4%。海伦数据集的22%。因此,该方法通过几何先验生成对抗学习有效地改进了人脸标志估计。

 【笔记】 

 因为前面讲生成器总Loss的时候(下图)提到上述三个loss。所以是不是可以理解为:讲另外两个依次与基础的LG,predict去组合,验证各自的有效性,最后组合在一起的时候效果最佳。

4.5 外部轮廓图有用性的实验结果

        在这个实验中,我们评估了外部轮廓图的贡献。在实验中,我们使用了300-W数据集。我们构建了ContourGeometric,8,它仅使用面部轮廓几何图进行对抗性学习(ProposedGeometric,8中的面部内部几何图除外)。图6是实验结果。NN8是基线,并使用L1损耗进行优化。

        

图6。300-W数据集上NN8、ContourGeometric、8、a n DProposeGeometric、8三个网络的平均误差比较。这三个网络在结构上相同,但在学习方案上不同。CNN8使用L1损失进行优化,8使用对抗性学习,仅使用面部轮廓几何图(面部内部几何图除外),8是建议的几何方法。

        8网络改进了轮廓区域(例如眉毛和下巴线)上的面部标志。注意,本文中的轮廓图是用眉毛和下巴形成的边界定义的。随着轮廓精度的提高,人脸内部标志点的精度也会提高。如图6所示,总错误率降低到0以上。5%. 利用ProposeGeometric,8,利用面部轮廓和面部内部几何地图,提高了面部标志点的检测精度。

        图7显示了我们在一些具有挑战性的情况下的结果,包括照明、头部旋转和夸张的表情。第一列是地面真实地标,第二列是面部轮廓错位的情况,第三列是我们的结果。图7的第三列显示contour中的地标定位良好,其他地标也对齐良好。错误结果中的第一行和第三行显示,轮廓被倒置检测到。因此,其他面部标志被错误地检测到。然而,在该方法中,轮廓上的人脸标志被正确地检测到。如果第二行和第四行的结果错误,结果将倾斜和平移。该方法能正确地检测出轮廓上的人脸标志点以及其他人脸标志点。

 

图7。300-W数据集上面部轮廓和内部组件的改进示例。第一列是地面真相,第二列是由简单的CNN检测到的L1损失,第三列是我们的结果

4.6 网络参数的比较

        该方法利用人脸几何图进行对抗性学习,使FLD变得简单有效。为了评估这一点,我们比较了网络参数的数量和网络性能。网络参数的数目是预测68个面部标志点所需的卷积滤波器参数的数目。

        表五显示了网络参数比较的数量。 为了进行比较,我们构建了 Proposed Geometric,4,它通过提出的几何先验对抗生成对抗网络学习进行训练。 The Proposed Geometric,4 有 4 个卷积层和两个全连接层,用于预测 68 个面部标志坐标。提出了几何编码器的结构4,与TCDCN相同。如表五所示。

表5:网络参数数量和平均误差比较

ProposeGeometric 8显示了许多参数约为0.4M时的最佳性能。在建议几何4的情况下,它与TCDCN具有相同数量的参数,但显示出比TCN更好的性能(5.54%)结果表明,本文提出的基于人脸几何图的对抗性学习方法在网络结构简单、性能相当的情况下能有效地进行学习。

4.7 计算复杂性

        我们在训练和测试期间测量了所提出方法的计算复杂度。我们的实验是在英特尔至强2的计算环境中进行的。2GHz CPU和NVIDIA 1080 Ti GPU。对于训练,我们用GPU测量了网络训练时间。训练时间包括前馈、反向传播和网络参数更新。实验中的最小批量为128。在训练的情况下,每个小批量需要250毫秒,每个历元需要80秒。使用150个历元来训练拟议的网络。 对于测试,我们测量了CPU和GPU中的测试时间。在GPU和CPU上,每幅图像的面部地标检测测试时间分别为7ms和12ms。

5、结论

        提出了一种基于几何先验对抗学习的FLD新方法。在提出的对抗式学习中,生成器预测地标坐标并生成面部内部/轮廓几何图。通过从预测的地标坐标生成面部几何地图,预测的地标点表示面部形状和配置。此外,面部轮廓几何图有助于将内部面部地标点定位在正确的面部轮廓区域内。此外,为了生成真实的几何地图,鉴别器不仅反向传播对抗性损失,还反向传播几何地图的回归损失。在测试阶段,仅使用编码器部分。我们用300-W和HELEN数据集验证了该方法的有效性。结果表明,该方法能有效地训练出具有几何损失和对抗损失的网络。此外,结果也显示了类似的性能。因此,我们实现了一个简单有效的具有几何先验对抗学习的FLD网络。

这篇关于【翻译】Lighteweight and Effective Facial LandmarkDetection Using Adversarial Learning WithFace Geomet的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/702461

相关文章

论文翻译:arxiv-2024 Benchmark Data Contamination of Large Language Models: A Survey

Benchmark Data Contamination of Large Language Models: A Survey https://arxiv.org/abs/2406.04244 大规模语言模型的基准数据污染:一项综述 文章目录 大规模语言模型的基准数据污染:一项综述摘要1 引言 摘要 大规模语言模型(LLMs),如GPT-4、Claude-3和Gemini的快

论文翻译:ICLR-2024 PROVING TEST SET CONTAMINATION IN BLACK BOX LANGUAGE MODELS

PROVING TEST SET CONTAMINATION IN BLACK BOX LANGUAGE MODELS https://openreview.net/forum?id=KS8mIvetg2 验证测试集污染在黑盒语言模型中 文章目录 验证测试集污染在黑盒语言模型中摘要1 引言 摘要 大型语言模型是在大量互联网数据上训练的,这引发了人们的担忧和猜测,即它们可能已

excel翻译软件有哪些?如何高效提翻译?

你是否曾在面对满屏的英文Excel表格时感到头疼?项目报告、数据分析、财务报表... 当这些重要的信息被语言壁垒阻挡时,效率和理解度都会大打折扣。别担心,只需3分钟,我将带你轻松解锁excel翻译成中文的秘籍。 无论是职场新人还是老手,这一技巧都将是你的得力助手,让你在信息的海洋中畅游无阻。 方法一:使用同声传译王软件 同声传译王是一款专业的翻译软件,它支持多种语言翻译,可以excel

MonoHuman: Animatable Human Neural Field from Monocular Video 翻译

MonoHuman:来自单目视频的可动画人类神经场 摘要。利用自由视图控制来动画化虚拟化身对于诸如虚拟现实和数字娱乐之类的各种应用来说是至关重要的。已有的研究试图利用神经辐射场(NeRF)的表征能力从单目视频中重建人体。最近的工作提出将变形网络移植到NeRF中,以进一步模拟人类神经场的动力学,从而动画化逼真的人类运动。然而,这种流水线要么依赖于姿态相关的表示,要么由于帧无关的优化而缺乏运动一致性

linux dlopen手册翻译

名称 dlclose, dlopen, dlmopen 打开和关闭一个共享对象 简介 #include <dlfcn.h>void *dlopen(const char*filename, int flags);int dlclose(void *handle);#define _GNU_SOURCE#include <dlfcn.h>void *dlmoopen(Lmid_t lm

简单的Q-learning|小明的一维世界(3)

简单的Q-learning|小明的一维世界(1) 简单的Q-learning|小明的一维世界(2) 一维的加速度世界 这个世界,小明只能控制自己的加速度,并且只能对加速度进行如下三种操作:增加1、减少1、或者不变。所以行动空间为: { u 1 = − 1 , u 2 = 0 , u 3 = 1 } \{u_1=-1, u_2=0, u_3=1\} {u1​=−1,u2​=0,u3​=1}

简单的Q-learning|小明的一维世界(2)

上篇介绍了小明的一维世界模型 、Q-learning的状态空间、行动空间、奖励函数、Q-table、Q table更新公式、以及从Q值导出策略的公式等。最后给出最简单的一维位置世界的Q-learning例子,从给出其状态空间、行动空间、以及稠密与稀疏两种奖励函数的设置方式。下面将继续深入,GO! 一维的速度世界 这个世界,小明只能控制自己的速度,并且只能对速度进行如下三种操作:增加1、减

从计组中从重温C中浮点数表示及C程序翻译过程

目录 移码​编辑  传统浮点表示格式 浮点数的存储(ieee 754)->修炼内功 例子:   ​编辑 浮点数取的过程   C程序翻译过程 移码  传统浮点表示格式 浮点数的存储(ieee 754)->修炼内功 根据国际标准IEEE(电⽓和电⼦⼯程协会)  32位 例子:    64位    IEEE754对有效数字M和

深度学习--对抗生成网络(GAN, Generative Adversarial Network)

对抗生成网络(GAN, Generative Adversarial Network)是一种深度学习模型,由Ian Goodfellow等人在2014年提出。GAN主要用于生成数据,通过两个神经网络相互对抗,来生成以假乱真的新数据。以下是对GAN的详细阐述,包括其概念、作用、核心要点、实现过程、代码实现和适用场景。 1. 概念 GAN由两个神经网络组成:生成器(Generator)和判别器(D

HumanNeRF:Free-viewpoint Rendering of Moving People from Monocular Video 翻译

HumanNeRF:单目视频中运动人物的自由视点绘制 引言。我们介绍了一种自由视点渲染方法- HumanNeRF -它适用于一个给定的单眼视频ofa人类执行复杂的身体运动,例如,从YouTube的视频。我们的方法可以在任何帧暂停视频,并从任意新的摄像机视点或甚至针对该特定帧和身体姿势的完整360度摄像机路径渲染主体。这项任务特别具有挑战性,因为它需要合成身体的照片级真实感细节,如从输入视频中可能