论文《FDDB: A Benchmark for Face Detection in Unconstrained Settings》导读

本文主要是介绍论文《FDDB: A Benchmark for Face Detection in Unconstrained Settings》导读,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

  说到人脸检测,就要谈一谈FDDB,FDDB提供了人脸检测的一个标准,其检测结果可以作为业界内的一个标杆,关于FDDB的具体标准,在该论文中有详细叙述,在此记录下我的解读。

该论文共有八个章节和俩个附录,结构明晰内容清楚,接下来分章节解读论文内容:

    第一章节提出了人脸检测的现状,也就是缺乏标准,各家各说各的好,但没有标准,也就没有比较,FDDB应运而生。

该节首先点评了一下各个公共人脸数据集的不足之处,主要问题是数据集单一,缺乏多样性,接下来指出FDDB是如何有多样性。

  • 共有2845张图片包含5171张人脸;
  • 包含遮挡、多角度、低分辨率以及失焦人脸;
  • 人脸区域指定为椭圆形;
  • 包含彩色和灰度图像。

    接下来指出了现今打分标准的不同一,并给出了自己的打分标准与方法(该打分标准是指根据标注,对人脸检测结果打分),其包含如下几个部分。

  • 该算法可以找出人脸检测出的区域和标准区域之间的联系;
  • 俩套独立的打分标准用于应对不同的应用场景;
  • 实现源码

    第二章节比较了几种人脸检测方法并指出自己用了哪种,几种方法如下所示:

  • 单一角度人脸检测,只支持单人脸且正向镜头的人脸检测;
  • 面内角度的人脸检测,即可以有一定的角度倾斜;
  • 面外角度的人脸检测,不过需要与预先定义的角度相关联才支持;
  • 对人脸角度无规定,即没有约束。

    FDDB采用的是第四种,也说明了FDDB支持更复杂的更具挑战性的人脸检测算法。

    关于标准区域,相比较于矩形人脸区域,FDDB提出了一种椭圆的人脸标注区域,相比较于矩形,该标注方法更加契合人脸形状,而且表示也很简便(只比矩形多一个参数),另外,用该种方法还标注了关键点定位和人脸角度等更多的信息,这也许会成为下一代的人脸检测算法评价标准之一。

    第三章节指出了FDDB人脸数据集的来源和成分。

    FDDB来源于Faces in the Wild 人脸数据集,该数据集采集于新闻网站,所以其数据集存在一定的重复性,FDDB对该数据集进行了去重处理,之后进行椭圆人脸标准,之后获得的就是FDDB数据集。如下图所示:


    第四章节介绍了去重检测过程,其核心算法是随机 attribute relational graph (ARG)匹配[D.-Q. Zhang and S.-F. Chang. Detecting image near- duplicate by stochastic attributed relational graph matching with learning. In ACM International Conference on Multi- media, pages 877–884, 2004. ],该方法通对图像抽象分区然后选取一些点来对这些区域进行检测(建议了解一下ARG),针对俩张不同的图片会产生一个得分,经实验该方法可以得到一个较高的召回率用于检测重复图像。

    为了保证有较高的召回率的同时还能有一个不错的准确率,采取了一种迭代的方法用于去重,该算法如下所示:


    第一步就是生成一个图,图的节点就是所有图像,边就是用上面ARG算法计算俩张图所得的一个值,在循环里,主要讲第三到五步,

    3-5是谱聚类方法[On spectral clustering: Analysis and an algorithm. ],通过该方法可以对该图分组,对分组结果进行标注,uniform指一组相似图片,non-uniform指至少有一对图像是不同的,对uniform图像,选取其中一个图像替代该组图像,之后更新图,迭代循环,直到没有重复图片可以去除为止。

    通过该方法,可以有效去除图库中的重复图片,接下来讲的是图片标柱方法。

    第五章节FDDB所使用的椭圆人脸检测方法,该方法在附录1中有详细说明,在这之中的困难就是图像质量的判定,因为人脸图片环境复杂,存在着多种的干扰因素,比如低分辨率,遮挡和人脸角度等。一种方法是根据图像质量进行打分,然后根据分值剔除一部分图像,但是因为难以建立一个合适的打分标准,FDDB并没有采取这种方法,而是采用了人眼判别的方法,为了保证公正性,选取了多人进行标注,标注依据就是附录A中的标注指南,对于双眼都不可见的,难以判定其角度、方向、尺寸的人脸都予以剔除。

   第六章节指出了其评估标准,主要有俩点,第一点就是打分方式,如下所示:


很好理解,不多说了,第二点就是每一个标记只允许有一个检测与之相对应,重复检测会被视为错误检测,用公式表达就是下面这个样子:


最后介绍的是俩种计分制度,


DS是一种离散的打分制度,每一种打分被判断为正确或错误,阈值就是0.5,最终分就是这些单个的离散值相加,CS是一种连续的打分制度,最终分是所有单个得分相加。不管是哪种结果,都要绘制成ROC曲线来相互比较。

之所以用ROC是为了公平性,要权衡召回率和准确率。

   第七章节与第八章节给出了具体的实现过程,由于这俩节并不是我们论文的研究重点,所以略过.

这篇关于论文《FDDB: A Benchmark for Face Detection in Unconstrained Settings》导读的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/980788

相关文章

uva 10916 Factstone Benchmark(打表)

题意是求 k ! <= 2 ^ n ,的最小k。 由于n比较大,大到 2 ^ 20 次方,所以 2 ^ 2 ^ 20比较难算,所以做一些基础的数学变换。 对不等式两边同时取log2,得: log2(k ! ) <=  log2(2 ^ n)= n,即:log2(1) + log2(2) + log2 (3) + log2(4) + ... + log2(k) <= n ,其中 n 为 2 ^

AI hospital 论文Idea

一、Benchmarking Large Language Models on Communicative Medical Coaching: A Dataset and a Novel System论文地址含代码 大多数现有模型和工具主要迎合以患者为中心的服务。这项工作深入探讨了LLMs在提高医疗专业人员的沟通能力。目标是构建一个模拟实践环境,人类医生(即医学学习者)可以在其中与患者代理进行医学

论文翻译:arxiv-2024 Benchmark Data Contamination of Large Language Models: A Survey

Benchmark Data Contamination of Large Language Models: A Survey https://arxiv.org/abs/2406.04244 大规模语言模型的基准数据污染:一项综述 文章目录 大规模语言模型的基准数据污染:一项综述摘要1 引言 摘要 大规模语言模型(LLMs),如GPT-4、Claude-3和Gemini的快

论文阅读笔记: Segment Anything

文章目录 Segment Anything摘要引言任务模型数据引擎数据集负责任的人工智能 Segment Anything Model图像编码器提示编码器mask解码器解决歧义损失和训练 Segment Anything 论文地址: https://arxiv.org/abs/2304.02643 代码地址:https://github.com/facebookresear

论文翻译:ICLR-2024 PROVING TEST SET CONTAMINATION IN BLACK BOX LANGUAGE MODELS

PROVING TEST SET CONTAMINATION IN BLACK BOX LANGUAGE MODELS https://openreview.net/forum?id=KS8mIvetg2 验证测试集污染在黑盒语言模型中 文章目录 验证测试集污染在黑盒语言模型中摘要1 引言 摘要 大型语言模型是在大量互联网数据上训练的,这引发了人们的担忧和猜测,即它们可能已

OmniGlue论文详解(特征匹配)

OmniGlue论文详解(特征匹配) 摘要1. 引言2. 相关工作2.1. 广义局部特征匹配2.2. 稀疏可学习匹配2.3. 半稠密可学习匹配2.4. 与其他图像表示匹配 3. OmniGlue3.1. 模型概述3.2. OmniGlue 细节3.2.1. 特征提取3.2.2. 利用DINOv2构建图形。3.2.3. 信息传播与新的指导3.2.4. 匹配层和损失函数3.2.5. 与Super

BERT 论文逐段精读【论文精读】

BERT: 近 3 年 NLP 最火 CV: 大数据集上的训练好的 NN 模型,提升 CV 任务的性能 —— ImageNet 的 CNN 模型 NLP: BERT 简化了 NLP 任务的训练,提升了 NLP 任务的性能 BERT 如何站在巨人的肩膀上的?使用了哪些 NLP 已有的技术和思想?哪些是 BERT 的创新? 1标题 + 作者 BERT: Pre-trainin

[论文笔记]LLM.int8(): 8-bit Matrix Multiplication for Transformers at Scale

引言 今天带来第一篇量化论文LLM.int8(): 8-bit Matrix Multiplication for Transformers at Scale笔记。 为了简单,下文中以翻译的口吻记录,比如替换"作者"为"我们"。 大语言模型已被广泛采用,但推理时需要大量的GPU内存。我们开发了一种Int8矩阵乘法的过程,用于Transformer中的前馈和注意力投影层,这可以将推理所需

时间序列|change point detection

change point detection 被称为变点检测,其基本定义是在一个序列或过程中,当某个统计特性(分布类型、分布参数)在某时间点受系统性因素而非偶然因素影响发生变化,我们就称该时间点为变点。变点识别即利用统计量或统计方法或机器学习方法将该变点位置估计出来。 Change Point Detection的类型 online 指连续观察某一随机过程,监测到变点时停止检验,不运用到

2024 年高教社杯全国大学生数学建模竞赛 C 题 农作物的种植策略 参考论文 无水印

持续更新中,2024年数学建模比赛思路代码论文都会发布到专栏内,只需订阅一次!  完整论文+代码+数据结果链接在文末!  订阅后可查看参考论文文件 第一问 1.1 问题重述 这个问题围绕的是华北山区的某乡村,在有限的耕地条件下,如何制定最优的农作物种植策略。乡村有 34 块露天耕地和 20 个大棚,种植条件包括粮食作物、蔬菜、水稻和食用菌。除了要考虑地块的面积、种植季节等,还要确保