CVPR 2024最新论文分享┆YOLO-World:一种实时开放词汇目标检测方法

本文主要是介绍CVPR 2024最新论文分享┆YOLO-World:一种实时开放词汇目标检测方法,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

论文分享简介

本推文主要介绍了CVPR 2024上的一篇论文《YOLO-World: Real-Time Open-Vocabulary Object Detection》,论文的第一作者为Tianheng Cheng和Lin Song,该论文提出了一种开放词汇目标检测的新方法,名为YOLO-World。论文通过引入视觉-语言建模和大规模预训练解决了传统YOLO检测器在固定词汇检测中的局限性。论文提出的YOLO-World模型,通过Re-parameterizable Vision-Language Path Aggregation Network(RepVL-PAN)及区域-文本对比损失,增强了视觉与语言信息的交互,从而在零样本检测中表现出色。该方法在LVIS数据集上实现了35.4 AP,并保持了高效的推理速度,且在多个下游任务中表现优异。推文作者为李杨,审校为朱旺和陆新颖。

论文下载地址:

https://arxiv.org/pdf/2401.17270

开源代码地址:

https://github.com/AILab-CVC/YOLO-World

1. 会议介绍

CVPR(IEEE / CVF Computer Vision and Pattern Recognition Conference)是计算机视觉和模式识别领域最具影响力的国际顶级会议之一。该会议由IEEE计算机学会主办,每年都会吸引全球范围内的研究人员、学者和业界专家参与。自1983年创办以来,CVPR已经发展成为展示和分享计算机视觉、深度学习、图像处理等领域最新研究成果的重要平台。该会议论文具有极高的学术质量和影响力,其接受的论文经过严格的同行评审,并往往代表了该领域的前沿研究。CVPR也是中科院JCR一区TOP会议,CCF-A类会议,发表的论文影响因子极高。CVPR每年吸引大量投稿,其激烈的竞争环境使得入选的论文具有较高的学术影响力。

2. 背景与挑战

目标检测是计算机视觉中一个长期存在且基本的挑战,广泛应用于图像理解、机器人和自动驾驶等领域。尽管深度神经网络的发展已使目标检测取得了显著进展,但现有方法主要处理具有固定词汇的目标检测,即只能检测预定义和标注好的类别,难以应对开放场景中的多样化目标检测。

(1)开放词汇目标检测的挑战:当前的目标检测方法在处理开放场景时面临许多挑战,特别是在计算负担和实际设备部署上的困难。大多数方法在固定类别的检测上表现良好,但在识别新类别时存在局限,尤其是词汇多样性不足且训练数据有限的情况下,模型难以进行泛化。

(2)现有方法的局限性:尽管一些方法尝试通过视觉-语言模型解决开放词汇检测问题,但它们通常依赖于大型且复杂的检测器,难以适应实际应用中的高效部署需求。许多方法在训练小型检测器方面表现欠佳,特别是在大规模数据预训练下,这些方法在实际场景中难以实现实时性。

为解决上述问题,论文提出了YOLO-World,旨在提高YOLO检测器在开放词汇下的检测能力,并通过高效的预训练方案来提升检测器的泛化能力,特别是在大规模数据集下的预训练,使其在零样本检测任务中表现优异。

3. 方法

1 YOLO-World的整体架构

图1展示了YOLO-World的整体架构,其核心是通过视觉-语言跨模态融合实现开放词汇目标检测。YOLO-World基于YOLOv8,使用CLIP预训练的Transformer文本编码器将输入文本转化为文本嵌入,并结合YOLO检测器提取的多尺度图像特征。Re-parameterizable Vision-Language Path Aggregation Network(RepVL-PAN)将YOLO检测器生成的多尺度图像特征与文本编码器生成的文本嵌入结合,生成视觉和语言信息的联合特征表示。RepVL-PAN的设计允许在推理阶段将文本编码器移除,并将预计算的文本嵌入重新参数化为网络权重,以提高推理效率。模型在训练阶段采用区域-文本对比损失优化检测性能,而在推理阶段,YOLO-World使用预编码的离线词汇表,通过“提示-然后-检测”的策略实现高效推理和开词汇目标检测,从而在开放场景下表现出色。

4. 实验结果及可视化

1. 实验结果

表1展示了YOLO-World在LVIS数据集上的零样本检测性能,与其他最新的开词汇目标检测模型相比,YOLO-World表现出卓越的效率和准确性。不同规模的YOLO-World模型(S、M、L)在速度(FPS)和精度(AP)方面均超越了许多大型模型。例如,YOLO-World-L模型在LVIS数据集上达到了35.4的AP,并保持了52.0 FPS的推理速度,明显优于GLIP、Grounding DINO等模型的性能,尤其是在轻量化设计和高效推理上实现了突破。相比于依赖更大模型的DetCLIP,YOLO-World不仅在AP上接近(35.4 vs 34.4),而且推理速度快了约20倍。总的来看,表1的结果表明,YOLO-World在保持较高检测精度的同时,大幅提升了推理速度,尤其适用于实际部署中的实时应用。

1 YOLO-WorldLVIS数据上的零样本评估结果

表2展示了YOLO-World在COCO数据集上与其他YOLO系列模型的比较结果,分别对从头训练和零样本迁移的情况进行了评估。在从头训练的情况下,YOLO-World-L模型的性能达到53.3 AP,优于YOLOv8-L的52.9 AP,展示了其在COCO目标检测上的出色性能。在零样本迁移方面,YOLO-World在不经过额外微调的情况下,表现出了极强的泛化能力,YOLO-World-L模型通过预训练后达到44.4 AP,并通过微调进一步提升至53.3 AP。此外,YOLO-World在保持较高检测性能的同时,也兼顾了推理速度,其推理速度

接近其他高效的YOLO系列模型。表2的结果表明,YOLO-World不仅能够在固定词汇任务中取得良好的结果,还具备强大的零样本迁移能力,适用于广泛的应用场景。

2 YOLO-WorldCOCO数据集上的比较结果

2. 可视化

图2展示了YOLO-World在LVIS数据集上的零样本推理结果,模型能够精准检测出图片中的多种物体,证明了其强大的泛化能力。

2 YOLO-WorldLVIS数据集上的零样本推理结果

图3展示了YOLO-World在自定义词汇下的检测能力,模型能够根据用户定义的词汇进行细粒度的目标检测,显示出其灵活适应不同检测需求的能力。

3 YOLO-World在自定义词汇下的检测结果

图4体现了YOLO-World在指代目标检测中的表现,能够根据用户提供的描述性短语准确定位图片中的相关物体,表明其在跨模态理解方面的卓越性能。

4 YOLO-World在描述性短语下的检测结果

5. 总结

该论文提出了一种面向开放词汇目标检测的高效模型,名为YOLO-World。通过融合视觉和语言模态,提升了YOLO系列检测器在零样本场景中的泛化能力。YOLO-World采用了Re-parameterizable Vision-Language Path Aggregation Network (RepVL-PAN) 和区域-文本对比损失,成功实现了高效的视觉-语义交互,并在大规模数据集上进行了预训练,使其在LVIS和COCO等数据集上的零样本检测和迁移学习任务中表现出色。实验结果表明,YOLO-World不仅在检测精度上超越了许多现有方法,还显著提升了推理速度,具备实际应用中的实时性和部署优势。总体而言,YOLO-World为开放词汇目标检测提供了一种高效且可扩展的解决方案。

这篇关于CVPR 2024最新论文分享┆YOLO-World:一种实时开放词汇目标检测方法的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1145005

相关文章

Ilya-AI分享的他在OpenAI学习到的15个提示工程技巧

Ilya(不是本人,claude AI)在社交媒体上分享了他在OpenAI学习到的15个Prompt撰写技巧。 以下是详细的内容: 提示精确化:在编写提示时,力求表达清晰准确。清楚地阐述任务需求和概念定义至关重要。例:不用"分析文本",而用"判断这段话的情感倾向:积极、消极还是中性"。 快速迭代:善于快速连续调整提示。熟练的提示工程师能够灵活地进行多轮优化。例:从"总结文章"到"用

Andrej Karpathy最新采访:认知核心模型10亿参数就够了,AI会打破教育不公的僵局

夕小瑶科技说 原创  作者 | 海野 AI圈子的红人,AI大神Andrej Karpathy,曾是OpenAI联合创始人之一,特斯拉AI总监。上一次的动态是官宣创办一家名为 Eureka Labs 的人工智能+教育公司 ,宣布将长期致力于AI原生教育。 近日,Andrej Karpathy接受了No Priors(投资博客)的采访,与硅谷知名投资人 Sara Guo 和 Elad G

综合安防管理平台LntonAIServer视频监控汇聚抖动检测算法优势

LntonAIServer视频质量诊断功能中的抖动检测是一个专门针对视频稳定性进行分析的功能。抖动通常是指视频帧之间的不必要运动,这种运动可能是由于摄像机的移动、传输中的错误或编解码问题导致的。抖动检测对于确保视频内容的平滑性和观看体验至关重要。 优势 1. 提高图像质量 - 清晰度提升:减少抖动,提高图像的清晰度和细节表现力,使得监控画面更加真实可信。 - 细节增强:在低光条件下,抖

2024年流动式起重机司机证模拟考试题库及流动式起重机司机理论考试试题

题库来源:安全生产模拟考试一点通公众号小程序 2024年流动式起重机司机证模拟考试题库及流动式起重机司机理论考试试题是由安全生产模拟考试一点通提供,流动式起重机司机证模拟考试题库是根据流动式起重机司机最新版教材,流动式起重机司机大纲整理而成(含2024年流动式起重机司机证模拟考试题库及流动式起重机司机理论考试试题参考答案和部分工种参考解析),掌握本资料和学校方法,考试容易。流动式起重机司机考试技

【专题】2024飞行汽车技术全景报告合集PDF分享(附原数据表)

原文链接: https://tecdat.cn/?p=37628 6月16日,小鹏汇天旅航者X2在北京大兴国际机场临空经济区完成首飞,这也是小鹏汇天的产品在京津冀地区进行的首次飞行。小鹏汇天方面还表示,公司准备量产,并计划今年四季度开启预售小鹏汇天分体式飞行汽车,探索分体式飞行汽车城际通勤。阅读原文,获取专题报告合集全文,解锁文末271份飞行汽车相关行业研究报告。 据悉,业内人士对飞行汽车行业

【C++】_list常用方法解析及模拟实现

相信自己的力量,只要对自己始终保持信心,尽自己最大努力去完成任何事,就算事情最终结果是失败了,努力了也不留遗憾。💓💓💓 目录   ✨说在前面 🍋知识点一:什么是list? •🌰1.list的定义 •🌰2.list的基本特性 •🌰3.常用接口介绍 🍋知识点二:list常用接口 •🌰1.默认成员函数 🔥构造函数(⭐) 🔥析构函数 •🌰2.list对象

高效录音转文字:2024年四大工具精选!

在快节奏的工作生活中,能够快速将录音转换成文字是一项非常实用的能力。特别是在需要记录会议纪要、讲座内容或者是采访素材的时候,一款优秀的在线录音转文字工具能派上大用场。以下推荐几个好用的录音转文字工具! 365在线转文字 直达链接:https://www.pdf365.cn/ 365在线转文字是一款提供在线录音转文字服务的工具,它以其高效、便捷的特点受到用户的青睐。用户无需下载安装任何软件,只

C#实战|大乐透选号器[6]:实现实时显示已选择的红蓝球数量

哈喽,你好啊,我是雷工。 关于大乐透选号器在前面已经记录了5篇笔记,这是第6篇; 接下来实现实时显示当前选中红球数量,蓝球数量; 以下为练习笔记。 01 效果演示 当选择和取消选择红球或蓝球时,在对应的位置显示实时已选择的红球、蓝球的数量; 02 标签名称 分别设置Label标签名称为:lblRedCount、lblBlueCount

浅谈主机加固,六种有效的主机加固方法

在数字化时代,数据的价值不言而喻,但随之而来的安全威胁也日益严峻。从勒索病毒到内部泄露,企业的数据安全面临着前所未有的挑战。为了应对这些挑战,一种全新的主机加固解决方案应运而生。 MCK主机加固解决方案,采用先进的安全容器中间件技术,构建起一套内核级的纵深立体防护体系。这一体系突破了传统安全防护的局限,即使在管理员权限被恶意利用的情况下,也能确保服务器的安全稳定运行。 普适主机加固措施:

webm怎么转换成mp4?这几种方法超多人在用!

webm怎么转换成mp4?WebM作为一种新兴的视频编码格式,近年来逐渐进入大众视野,其背后承载着诸多优势,但同时也伴随着不容忽视的局限性,首要挑战在于其兼容性边界,尽管WebM已广泛适应于众多网站与软件平台,但在特定应用环境或老旧设备上,其兼容难题依旧凸显,为用户体验带来不便,再者,WebM格式的非普适性也体现在编辑流程上,由于它并非行业内的通用标准,编辑过程中可能会遭遇格式不兼容的障碍,导致操