论文《FDDB: A Benchmark for Face Detection in Unconstrained Settings》导读

本文主要是介绍论文《FDDB: A Benchmark for Face Detection in Unconstrained Settings》导读,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

  说到人脸检测,就要谈一谈FDDB,FDDB提供了人脸检测的一个标准,其检测结果可以作为业界内的一个标杆,关于FDDB的具体标准,在该论文中有详细叙述,在此记录下我的解读。

该论文共有八个章节和俩个附录,结构明晰内容清楚,接下来分章节解读论文内容:

    第一章节提出了人脸检测的现状,也就是缺乏标准,各家各说各的好,但没有标准,也就没有比较,FDDB应运而生。

该节首先点评了一下各个公共人脸数据集的不足之处,主要问题是数据集单一,缺乏多样性,接下来指出FDDB是如何有多样性。

  • 共有2845张图片包含5171张人脸;
  • 包含遮挡、多角度、低分辨率以及失焦人脸;
  • 人脸区域指定为椭圆形;
  • 包含彩色和灰度图像。

    接下来指出了现今打分标准的不同一,并给出了自己的打分标准与方法(该打分标准是指根据标注,对人脸检测结果打分),其包含如下几个部分。

  • 该算法可以找出人脸检测出的区域和标准区域之间的联系;
  • 俩套独立的打分标准用于应对不同的应用场景;
  • 实现源码

    第二章节比较了几种人脸检测方法并指出自己用了哪种,几种方法如下所示:

  • 单一角度人脸检测,只支持单人脸且正向镜头的人脸检测;
  • 面内角度的人脸检测,即可以有一定的角度倾斜;
  • 面外角度的人脸检测,不过需要与预先定义的角度相关联才支持;
  • 对人脸角度无规定,即没有约束。

    FDDB采用的是第四种,也说明了FDDB支持更复杂的更具挑战性的人脸检测算法。

    关于标准区域,相比较于矩形人脸区域,FDDB提出了一种椭圆的人脸标注区域,相比较于矩形,该标注方法更加契合人脸形状,而且表示也很简便(只比矩形多一个参数),另外,用该种方法还标注了关键点定位和人脸角度等更多的信息,这也许会成为下一代的人脸检测算法评价标准之一。

    第三章节指出了FDDB人脸数据集的来源和成分。

    FDDB来源于Faces in the Wild 人脸数据集,该数据集采集于新闻网站,所以其数据集存在一定的重复性,FDDB对该数据集进行了去重处理,之后进行椭圆人脸标准,之后获得的就是FDDB数据集。如下图所示:


    第四章节介绍了去重检测过程,其核心算法是随机 attribute relational graph (ARG)匹配[D.-Q. Zhang and S.-F. Chang. Detecting image near- duplicate by stochastic attributed relational graph matching with learning. In ACM International Conference on Multi- media, pages 877–884, 2004. ],该方法通对图像抽象分区然后选取一些点来对这些区域进行检测(建议了解一下ARG),针对俩张不同的图片会产生一个得分,经实验该方法可以得到一个较高的召回率用于检测重复图像。

    为了保证有较高的召回率的同时还能有一个不错的准确率,采取了一种迭代的方法用于去重,该算法如下所示:


    第一步就是生成一个图,图的节点就是所有图像,边就是用上面ARG算法计算俩张图所得的一个值,在循环里,主要讲第三到五步,

    3-5是谱聚类方法[On spectral clustering: Analysis and an algorithm. ],通过该方法可以对该图分组,对分组结果进行标注,uniform指一组相似图片,non-uniform指至少有一对图像是不同的,对uniform图像,选取其中一个图像替代该组图像,之后更新图,迭代循环,直到没有重复图片可以去除为止。

    通过该方法,可以有效去除图库中的重复图片,接下来讲的是图片标柱方法。

    第五章节FDDB所使用的椭圆人脸检测方法,该方法在附录1中有详细说明,在这之中的困难就是图像质量的判定,因为人脸图片环境复杂,存在着多种的干扰因素,比如低分辨率,遮挡和人脸角度等。一种方法是根据图像质量进行打分,然后根据分值剔除一部分图像,但是因为难以建立一个合适的打分标准,FDDB并没有采取这种方法,而是采用了人眼判别的方法,为了保证公正性,选取了多人进行标注,标注依据就是附录A中的标注指南,对于双眼都不可见的,难以判定其角度、方向、尺寸的人脸都予以剔除。

   第六章节指出了其评估标准,主要有俩点,第一点就是打分方式,如下所示:


很好理解,不多说了,第二点就是每一个标记只允许有一个检测与之相对应,重复检测会被视为错误检测,用公式表达就是下面这个样子:


最后介绍的是俩种计分制度,


DS是一种离散的打分制度,每一种打分被判断为正确或错误,阈值就是0.5,最终分就是这些单个的离散值相加,CS是一种连续的打分制度,最终分是所有单个得分相加。不管是哪种结果,都要绘制成ROC曲线来相互比较。

之所以用ROC是为了公平性,要权衡召回率和准确率。

   第七章节与第八章节给出了具体的实现过程,由于这俩节并不是我们论文的研究重点,所以略过.

这篇关于论文《FDDB: A Benchmark for Face Detection in Unconstrained Settings》导读的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/980788

相关文章

康奈尔大学之论文审稿模型Reviewer2及我司七月对其的实现(含PeerRead)

前言 自从我司于23年7月开始涉足论文审稿领域之后「截止到24年6月份,我司的七月论文审稿GPT已经迭代到了第五版,详见此文的8.1 七月论文审稿GPT(从第1版到第5版)」,在业界的影响力越来越大,所以身边朋友如发现业界有相似的工作,一般都会第一时间发给我,比如本部分要介绍的康奈尔大学的reviewer2 当然,我自己也会各种看类似工作的论文,毕竟同行之间的工作一定会互相借鉴的,我们会学他们

【论文精读】分类扩散模型:重振密度比估计(Revitalizing Density Ratio Estimation)

文章目录 一、文章概览(一)问题的提出(二)文章工作 二、理论背景(一)密度比估计DRE(二)去噪扩散模型 三、方法(一)推导分类和去噪之间的关系(二)组合训练方法(三)一步精确的似然计算 四、实验(一)使用两种损失对于实现最佳分类器的重要性(二)去噪结果、图像质量和负对数似然 论文:Classification Diffusion Models: Revitalizing

【python】python葡萄酒国家分布情况数据分析pyecharts可视化(源码+数据集+论文)【独一无二】

👉博__主👈:米码收割机 👉技__能👈:C++/Python语言 👉公众号👈:测试开发自动化【获取源码+商业合作】 👉荣__誉👈:阿里云博客专家博主、51CTO技术博主 👉专__注👈:专注主流机器人、人工智能等相关领域的开发、测试技术。 python葡萄酒国家分布情况数据分析pyecharts可视化(源码+数据集+论文)【独一无二】 目录 python葡

自然语言处理领域的明星项目推荐:Hugging Face Transformers

在当今人工智能与大数据飞速发展的时代,自然语言处理(NLP)已成为推动科技进步的重要力量。而在NLP领域,Hugging Face Transformers无疑是一个备受瞩目的开源项目。本文将从项目介绍、代码解释以及技术特点等角度,为您深入剖析这一热门项目。 一、项目介绍 Hugging Face Transformers是一个包含众多NLP领域先进模型的开源项目,由Hugging F

论文阅读--Efficient Hybrid Zoom using Camera Fusion on Mobile Phones

这是谷歌影像团队 2023 年发表在 Siggraph Asia 上的一篇文章,主要介绍的是利用多摄融合的思路进行变焦。 单反相机因为卓越的硬件性能,可以非常方便的实现光学变焦。不过目前的智能手机,受制于物理空间的限制,还不能做到像单反一样的光学变焦。目前主流的智能手机,都是采用多摄的设计,一般来说一个主摄搭配一个长焦,为了实现主摄与长焦之间的变焦,目前都是采用数字变焦的方式,数字变焦相比于光学

【LLM之KG】CoK论文阅读笔记

研究背景 大规模语言模型(LLMs)在许多自然语言处理(NLP)任务中取得了显著进展,特别是在零样本/少样本学习(In-Context Learning, ICL)方面。ICL不需要更新模型参数,只需利用几个标注示例就可以生成预测。然而,现有的ICL和链式思维(Chain-of-Thought, CoT)方法在复杂推理任务上仍存在生成的推理链常常伴随错误的问题,导致不真实和不可靠的推理结果。

【python】python基于akshare企业财务数据对比分析可视化(源码+数据集+论文)【独一无二】

👉博__主👈:米码收割机 👉技__能👈:C++/Python语言 👉公众号👈:测试开发自动化【获取源码+商业合作】 👉荣__誉👈:阿里云博客专家博主、51CTO技术博主 👉专__注👈:专注主流机器人、人工智能等相关领域的开发、测试技术。 系列文章目录 目录 系列文章目录一、设计要求二、设计思路三、可视化分析 一、设计要求 选取中铁和贵州茅

AIGC-Animate Anyone阿里的图像到视频 角色合成的框架-论文解读

Animate Anyone: Consistent and Controllable Image-to-Video Synthesis for Character Animation 论文:https://arxiv.org/pdf/2311.17117 网页:https://humanaigc.github.io/animate-anyone/ MOTIVATION 角色动画的

【python】python股票量化交易策略分析可视化(源码+数据集+论文)【独一无二】

👉博__主👈:米码收割机 👉技__能👈:C++/Python语言 👉公众号👈:测试开发自动化【获取源码+商业合作】 👉荣__誉👈:阿里云博客专家博主、51CTO技术博主 👉专__注👈:专注主流机器人、人工智能等相关领域的开发、测试技术。 【python】python股票量化交易策略分析可视化(源码+数据集+论文)【独一无二】 目录 【python】pyt

springboot+vue+mybatis旅游管理+PPT+论文+讲解+售后

随着人民生活水平的提高,旅游业已经越来越大众化,而旅游业的核心是信息,不论是对旅游管理部门、对旅游企业,或是对旅游者而言,有效的获取旅游信息,都显得特别重要.旅游管理系统将使旅游相关信息管理工作规范化、信息化、程序化,提供旅游景点、旅游线路,旅游新闻等服务本文以jsp为开发技术,实现了一个旅游网站系统。旅游网站系统的主要使用者分为管理员和用户,管理员权限如下;主页、个人中心、景点分类管理、景点信息