旷视科技获AI顶赛Wider Challenge人脸检测冠军

2023-10-18 23:10

本文主要是介绍旷视科技获AI顶赛Wider Challenge人脸检测冠军,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

 

Wider Face and Pedestrian Challenge 2018(简称 Wider Challenge)是一项全球范围内的计算机视觉顶级赛事,旷视科技(Megvii)参战了其中人脸检测比赛 Wider Face,最终以 0.5582 的成绩技压群雄,勇夺人脸检测冠军。旷视科技人脸检测冠军纪录最早可追溯至 2013 年赢得人脸识别领域 3 项世界冠军。下面,本文将从比赛、技术、团队以及产业 4 个维度展开解读。

Wider Face 比赛结果。

 

关于 Wider Challenge

Wider Challenge 2018 是由计算机视觉顶会 ECCV 2018 举办的顶级挑战赛之一,吸引全球超过 400 多支队伍参加,比赛及结果公布于 ECCV 会前完成,颁奖仪式及相关研讨会安排在大会期间(9 月 8 号)。继 FDDB 之后,Wider Challenge 成为计算机视觉检测领域的基准比赛,含金量很高,在一定程度上可以清晰反映参赛方技术力量的实况和积淀。

今年,该比赛旨在解决人体检测领域的 3 个核心问题:人脸的精确定位,人体的精确定位,以及人物身份精确匹配。为此,Wider Challenge 2018 相应地分为 3 个比赛(track):

  • WIDER Face, 目标是深掘新方法,刷新人脸检测当前最佳水平。
  • WIDER Pedestrian, 目标是收集有效而高效的新方法,优化解决自然场景之下的行人检测问题。
  • WIDER Person Search, 从 192 部电影中进行目标精确匹配的人物搜索。

自左向右,三个比赛的实例。

 

关于技术

从技术角度讲,这次的人脸检测比赛 Wider Face 出现了新难点,为此旷视科技给出了一套自己的解决方案,取得第一名的成绩,超越第二名微软(MSRA)2 个点。

难点

相比以往,WIDER Face 2018 有 2 个显著的难点。一是数据集,二是评估标准。

Wider Face 比赛使用同名数据集,它首次开源于 CVPR 2016,包含 32,203 张图像和 393,703 个检测框标注,是当前不同场景之下人脸类别跨度最大的数据集,从小脸密集脸、多姿态脸、遮挡脸、表情脸、化妆脸到模糊脸,一应俱全。

Wider Face 数据集中不同类别的人脸。

 

前人脸检测基准 FDDB 由于数据量小且简单退出之后,Wider Face 晋级为人脸检测领域最科学、最权威的基准数据集,同时今年还进行了一些优化标注甚至是重新标注,堪称是人脸检测能力比拼的最佳平台。显而易见,比赛难度也加大很多。

Wider Face 2018 评估标准沿用 COCO 规范,更细致更严格,对定位要求更高,不仅要大概准,还要非常准,甚至是“变态准”。具体来讲,它不再只使用 AP_50,而是计算检测框 IoU 阈值超过 10 的平均精度,从 AP_50 到 AP_95(步长为 5,共 10 个 AP)进行加权求平均值。这再次加大了比赛夺冠的难度。

方法

鉴于上述两个新挑战,旷视科技在技术沉淀的基础上,从算法模型、Backbone 以及数据增强 3 个方面给出了原创性的解决方案。

旷视科技作为 COCO 冠军,在物体检测方面“家底”极厚,身经百战,形成了一套优秀的“演练作战传统”。此次针对 Wider Face 人脸检测的小脸、模糊脸问题,旷视科技提出一种基于单阶段检测器的新方法,称之为级联检测网络(Cascade Detection Network)。

在 Backbone 以及数据增强方面,旷视同样做了新探索。比如 Backbone 避重就轻,没有选择 ResNet 101,而是采样了像 DenseNet 121、 ResNet 50 这样相对轻量化的基础网络,或者多个轻模型的融合。旷视科技后续会针对性地出一篇论文,想了解更多的人请留意关注。

结果

通过上述原创技术,旷视科技比赛结果优势明显,不仅夺得第一名,成绩还大幅超过第二名、第三名,分别高出 2 个点和 5 个点。另外,旷视科技单模型和多模型结果都提交过,结果表明,即使是按照单模型,同样可以拿到冠军。

值得一提的是,旷视科技上层技术的创新源自底层技术和原创深度学习平台的支撑。这次打赛过程中,旷视科技自研的深度学习云平台 Brain++ 有力保障了模型训练的稳定性;原创的深度学习引擎(先于 TensorFlow)则保证高效快速地训练和测试模型,避免时耗。正是因为有后方的保障,才有前方的胜利。

关于团队

打比赛就像打仗一样,是一支队伍,需要团队协作。但是旷视这次的比赛,也仅仅动用了 1.5 名实习小矿工:一个为主,一个为辅(外加检测组负责人和研究员的指导)。这种实习生冲在一线的打赛模式是一种锻炼和培养新人成长的宝贵机会。第一名的成绩也反证了这种模式的科学性。

1.5 名实习生,这并不是说旷厂缺人,也不是轻视打赛,这恰恰说明了旷厂有一套完备的“演练打赛机制”,不仅节约了大量人力和时间成本,而且纳入这套机制的每一方皆有所获。本质上这是一种高效的经验传承,实习生获得大量输入,再经由天赋的脑瓜,输出第一名的成绩,由此借假(比赛)修真(能力提升),人与事两相成。

关于产业

人脸检测在旷视的整个计算机视觉技术矩阵中处于中层,属于核心算法之一,经过工程化包装或者硬件的加持,形成高效可复制的模型框架,从而最终走向人脸相关的产品线。

人脸检测是机器视觉技术落地的最大场景之一,是旷视图像识别技术的四大对象之一(人、脸、车、字),也是旷视 AI+IoT 战略中承上启下的一环。这一冠军成绩所反映出的技术点创新将进一步优化旷视的整个技术体系,导向手机、安防、地产、零售等多个产业领域,为达成 AI+IoT 战略提供了有力的技术支撑。

这篇关于旷视科技获AI顶赛Wider Challenge人脸检测冠军的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/235690

相关文章

SpringBoot使用Apache Tika检测敏感信息

《SpringBoot使用ApacheTika检测敏感信息》ApacheTika是一个功能强大的内容分析工具,它能够从多种文件格式中提取文本、元数据以及其他结构化信息,下面我们来看看如何使用Ap... 目录Tika 主要特性1. 多格式支持2. 自动文件类型检测3. 文本和元数据提取4. 支持 OCR(光学

Ubuntu系统怎么安装Warp? 新一代AI 终端神器安装使用方法

《Ubuntu系统怎么安装Warp?新一代AI终端神器安装使用方法》Warp是一款使用Rust开发的现代化AI终端工具,该怎么再Ubuntu系统中安装使用呢?下面我们就来看看详细教程... Warp Terminal 是一款使用 Rust 开发的现代化「AI 终端」工具。最初它只支持 MACOS,但在 20

Ilya-AI分享的他在OpenAI学习到的15个提示工程技巧

Ilya(不是本人,claude AI)在社交媒体上分享了他在OpenAI学习到的15个Prompt撰写技巧。 以下是详细的内容: 提示精确化:在编写提示时,力求表达清晰准确。清楚地阐述任务需求和概念定义至关重要。例:不用"分析文本",而用"判断这段话的情感倾向:积极、消极还是中性"。 快速迭代:善于快速连续调整提示。熟练的提示工程师能够灵活地进行多轮优化。例:从"总结文章"到"用

AI绘图怎么变现?想做点副业的小白必看!

在科技飞速发展的今天,AI绘图作为一种新兴技术,不仅改变了艺术创作的方式,也为创作者提供了多种变现途径。本文将详细探讨几种常见的AI绘图变现方式,帮助创作者更好地利用这一技术实现经济收益。 更多实操教程和AI绘画工具,可以扫描下方,免费获取 定制服务:个性化的创意商机 个性化定制 AI绘图技术能够根据用户需求生成个性化的头像、壁纸、插画等作品。例如,姓氏头像在电商平台上非常受欢迎,

从去中心化到智能化:Web3如何与AI共同塑造数字生态

在数字时代的演进中,Web3和人工智能(AI)正成为塑造未来互联网的两大核心力量。Web3的去中心化理念与AI的智能化技术,正相互交织,共同推动数字生态的变革。本文将探讨Web3与AI的融合如何改变数字世界,并展望这一新兴组合如何重塑我们的在线体验。 Web3的去中心化愿景 Web3代表了互联网的第三代发展,它基于去中心化的区块链技术,旨在创建一个开放、透明且用户主导的数字生态。不同于传统

AI一键生成 PPT

AI一键生成 PPT 操作步骤 作为一名打工人,是不是经常需要制作各种PPT来分享我的生活和想法。但是,你们知道,有时候灵感来了,时间却不够用了!😩直到我发现了Kimi AI——一个能够自动生成PPT的神奇助手!🌟 什么是Kimi? 一款月之暗面科技有限公司开发的AI办公工具,帮助用户快速生成高质量的演示文稿。 无论你是职场人士、学生还是教师,Kimi都能够为你的办公文

Andrej Karpathy最新采访:认知核心模型10亿参数就够了,AI会打破教育不公的僵局

夕小瑶科技说 原创  作者 | 海野 AI圈子的红人,AI大神Andrej Karpathy,曾是OpenAI联合创始人之一,特斯拉AI总监。上一次的动态是官宣创办一家名为 Eureka Labs 的人工智能+教育公司 ,宣布将长期致力于AI原生教育。 近日,Andrej Karpathy接受了No Priors(投资博客)的采访,与硅谷知名投资人 Sara Guo 和 Elad G

综合安防管理平台LntonAIServer视频监控汇聚抖动检测算法优势

LntonAIServer视频质量诊断功能中的抖动检测是一个专门针对视频稳定性进行分析的功能。抖动通常是指视频帧之间的不必要运动,这种运动可能是由于摄像机的移动、传输中的错误或编解码问题导致的。抖动检测对于确保视频内容的平滑性和观看体验至关重要。 优势 1. 提高图像质量 - 清晰度提升:减少抖动,提高图像的清晰度和细节表现力,使得监控画面更加真实可信。 - 细节增强:在低光条件下,抖

烟火目标检测数据集 7800张 烟火检测 带标注 voc yolo

一个包含7800张带标注图像的数据集,专门用于烟火目标检测,是一个非常有价值的资源,尤其对于那些致力于公共安全、事件管理和烟花表演监控等领域的人士而言。下面是对此数据集的一个详细介绍: 数据集名称:烟火目标检测数据集 数据集规模: 图片数量:7800张类别:主要包含烟火类目标,可能还包括其他相关类别,如烟火发射装置、背景等。格式:图像文件通常为JPEG或PNG格式;标注文件可能为X

AI hospital 论文Idea

一、Benchmarking Large Language Models on Communicative Medical Coaching: A Dataset and a Novel System论文地址含代码 大多数现有模型和工具主要迎合以患者为中心的服务。这项工作深入探讨了LLMs在提高医疗专业人员的沟通能力。目标是构建一个模拟实践环境,人类医生(即医学学习者)可以在其中与患者代理进行医学