<REAL-TIME TRAFFIC OBJECT DETCTION FOR AUTONOMOUS DRIVING>论文阅读

2024-03-24 16:52

本文主要是介绍<REAL-TIME TRAFFIC OBJECT DETCTION FOR AUTONOMOUS DRIVING>论文阅读,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

Abstract

        随着计算机视觉的最新进展,自动驾驶迟早成为现代社会的一部分,然而,仍有大量的问题需要解决。尽管现代计算机视觉技术展现了优越的性能,他们倾向于将精度优先于效率,这是实时应用的一个重要方面。大型目标检测模型通常需要更高的计算能力,这是通过使用更复杂的机载硬件来实现的,对于自动驾驶来说,这些要求转化为燃料成本的增加,并最终导致里程的减少,此外,尽管有计算需求,但现有的目标检测器还远远不能满足实时性的要求。在本研究中,我们评估了我们先前提出的高效行人检测器LSFM在成熟的自动驾驶基准上的鲁棒性,包括不同的天气状况和夜间场景。我们将LSFM模型扩展到一般的目标检测,以实现交通场景中的实时目标检测。我们在交通目标检测数据集上评估了其性能、低延迟性和可推广性。进一步地,我们讨论了当前自动驾驶背景下目标检测系统所采用的关键性能指标的不足,并提出了一种更适合的、包含实时性要求的替代方案。

Introduction

        自动驾驶旨在通过替代人类驾驶员来改善道路安全性、舒适性、交通拥堵和油耗等问题。自动驾驶的承诺是革命性的,但也伴随着诸多挑战。自动驾驶系统的管道由众多模块组成,感知是第一位的。感知系统的主要功能是从自车周围环境中获取至关重要的信息,并以易于消费的格式传输给自主系统。计算成本直接影响自动驾驶车辆的行驶里程,因为它直接转化为燃料成本并增加了硬件需求。一个合理的设置和一个强大的GPU可以单独花费大量的里程,而现有的目标检测方法远远没有达到实时的( 30F P S)。除目标检测外,感知模块还具有多个感知子程序,进一步收紧了约束。因此,需要一种具有优越精度、最小硬件占用和计算效率的轻量级目标检测器。

        行人是自动驾驶感知的重要交通目标,并且,由于他们不太的衣服和体型,导致行人检测非常困难。在研究领域中,使用复杂的目标检测架构进行行人检测是一种普遍的做法。然而,如果一个架构在附加约束的行人检测中表现良好,那么当扩展到其他交通对象时,它应该表现良好。最近提出的LSFM在行人检测上取得了最佳的性能。它对运动模糊具有鲁棒性,推理时间较短,效果良好,特别是在小遮挡和严重遮挡的情况下。在这篇工作中,我们扩展了LSFM到多类目标检测并且证明了在交通目标检测的泛化性。我们还评估了其在合成数据集上,以及在恶劣天气和光照条件下(包括夜间)的泛化能力。

主要工作如下:

1、我们评估了LSFM [ 15 ]在夜晚场景中的可推广性,并在KITTI [ 16 ]排行榜上进行了比较。

2、我们通过结合多类目标检测来扩展LSFM [ 15 ],以方便交通目标检测。

3、我们提出了一种新的实时目标检测的关键性能指标。

4、我们使用传统的和实时的评价指标,在公认的自动驾驶基准上评估LSFM [ 15 ]用于交通目标检测的性能。

Efficient traffic object detection

        LSFM是一个有效的行人检测器。由于行人是最具挑战性的交通对象,一个高效、高性能的行人检测架构应该能够很好地推广到其他交通对象。

3.1 Localized Semantic Feature Mixers

        LSFM把RAW images作为输入,使用ConvMLPPin backbone去提取高级语义特征。这些特征然后送入SP3,将其分割成不同大小的patch,使得每个阶段的特征图产生等数量的patch。除此之外,把空间相似度高的patch对齐、展平,然后凭借从单一的1D向量。它们通过一个单一的全连接层,以局部化(localized)的方式进行过滤和富集。此外,DFDN通过MLPMixer块混合这些局部语义特征来检测目标;因此,命名为"局部语义特征混合器"(Localized Semantic Feature Mixers)

3.2 Extension for Traffic Object Detection

        LSFM 使用了行人的高层语义特征表示,即中心、尺度和偏移表示。在检测头中制定了3个目标,每个目标都用一个专用的子网络进行优化。使用有Fcoal loss的二元交叉熵损失去进行中心预测,以使训练对严重的前后背景不平衡更鲁棒。具体来说,使用焦点损失的α变体[ 19 ],其中α是高斯基惩罚减少项,以减轻中心学习。为了扩展行人检测模型并实现多类目标检测,需要改变检测头部以进行多类分类。此外,尺度和偏移预测分支可以不受影响,因为这些属性可以以类不可知的方式进行学习。对于行人检测,该损失通过对象实例的数量进行归一化,这允许在训练期间对拥挤和更简单的场景进行统一的关注。然而,如果简单地将所有类的损失累加并与实例总数进行归一化处理,则优化结果会偏向于密度较高的类。为了解决这个问题,我们将每个类别的中心损失分别用批次中出现的次数进行归一化。则多目标最终的中心损失方程为:C是类别数量,Kc是一个类的实例数量,\alpha_{t}FL_{c}是惩罚因子和焦点损失,但针对某一类。

3.3 Real-Time Objective Performance

        由于自动驾驶需要时间关键的感知,因此目标检测等感知任务需要实时工作,虽然不同领域对实时性的定义不同,但30F P S是自动驾驶情况下可接受的阈值。平均精度( mean average precision,mAP )是目标检测的一个著名的关键性能指标;然而,它与推理时间无关,因此不适合自动驾驶等实时系统。为此,我们提出了实时目标性能( Real-Time Objective Performance,简称mAP ),它是由实时系统的mAP衍生出来的一个关键性能指标。下面的方程表示RTOP与性能p和FPS的关系。p是性能评估,mAP是基本单元,T为实时帧率,b是调整缩放的权重,设置T=30,b=2。

Results

        首先验证了在LSFM在变化光照条件下的性能。

4.1 Evaluation on KITTI Pedestrian Benchmark

        为了确保公平的比较,KITTI数据集[ 16 ]的测试集在官方服务器上被保留,这些数据集的评估只能通过在官方服务器上的请求来实现。 LSFM [ 15 ]比现有的基于相机的方法有显著的优势,表现出对严重遮挡的鲁棒性。

4.2 Performance at the night Time

        运动模糊是造成目标检测器定位不准确的主要因素之一,由于运动模糊是由于相机快门打开时场景的变化引起的。为了评估LSFM [ 15 ]在极端低照度条件下(夜晚)的性能,以及它对强化运动模糊的鲁棒性,我们在Euro City Persons [ 23 ]夜晚数据集上进行了测试。LSFm在夜间合理且较小的情况下性能优于SPNet,但是LSFM和SPNEt在夜间的性能差距小于白天的,这蒸馏了LSFM对强烈运动模型具有鲁棒性

这篇关于<REAL-TIME TRAFFIC OBJECT DETCTION FOR AUTONOMOUS DRIVING>论文阅读的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/842197

相关文章

JAVA智听未来一站式有声阅读平台听书系统小程序源码

智听未来,一站式有声阅读平台听书系统 🌟 开篇:遇见未来,从“智听”开始 在这个快节奏的时代,你是否渴望在忙碌的间隙,找到一片属于自己的宁静角落?是否梦想着能随时随地,沉浸在知识的海洋,或是故事的奇幻世界里?今天,就让我带你一起探索“智听未来”——这一站式有声阅读平台听书系统,它正悄悄改变着我们的阅读方式,让未来触手可及! 📚 第一站:海量资源,应有尽有 走进“智听

AI hospital 论文Idea

一、Benchmarking Large Language Models on Communicative Medical Coaching: A Dataset and a Novel System论文地址含代码 大多数现有模型和工具主要迎合以患者为中心的服务。这项工作深入探讨了LLMs在提高医疗专业人员的沟通能力。目标是构建一个模拟实践环境,人类医生(即医学学习者)可以在其中与患者代理进行医学

论文翻译:arxiv-2024 Benchmark Data Contamination of Large Language Models: A Survey

Benchmark Data Contamination of Large Language Models: A Survey https://arxiv.org/abs/2406.04244 大规模语言模型的基准数据污染:一项综述 文章目录 大规模语言模型的基准数据污染:一项综述摘要1 引言 摘要 大规模语言模型(LLMs),如GPT-4、Claude-3和Gemini的快

论文阅读笔记: Segment Anything

文章目录 Segment Anything摘要引言任务模型数据引擎数据集负责任的人工智能 Segment Anything Model图像编码器提示编码器mask解码器解决歧义损失和训练 Segment Anything 论文地址: https://arxiv.org/abs/2304.02643 代码地址:https://github.com/facebookresear

论文翻译:ICLR-2024 PROVING TEST SET CONTAMINATION IN BLACK BOX LANGUAGE MODELS

PROVING TEST SET CONTAMINATION IN BLACK BOX LANGUAGE MODELS https://openreview.net/forum?id=KS8mIvetg2 验证测试集污染在黑盒语言模型中 文章目录 验证测试集污染在黑盒语言模型中摘要1 引言 摘要 大型语言模型是在大量互联网数据上训练的,这引发了人们的担忧和猜测,即它们可能已

OmniGlue论文详解(特征匹配)

OmniGlue论文详解(特征匹配) 摘要1. 引言2. 相关工作2.1. 广义局部特征匹配2.2. 稀疏可学习匹配2.3. 半稠密可学习匹配2.4. 与其他图像表示匹配 3. OmniGlue3.1. 模型概述3.2. OmniGlue 细节3.2.1. 特征提取3.2.2. 利用DINOv2构建图形。3.2.3. 信息传播与新的指导3.2.4. 匹配层和损失函数3.2.5. 与Super

软件架构模式:5 分钟阅读

原文: https://orkhanscience.medium.com/software-architecture-patterns-5-mins-read-e9e3c8eb47d2 软件架构模式:5 分钟阅读 当有人潜入软件工程世界时,有一天他需要学习软件架构模式的基础知识。当我刚接触编码时,我不知道从哪里获得简要介绍现有架构模式的资源,这样它就不会太详细和混乱,而是非常抽象和易

linux 下Time_wait过多问题解决

转自:http://blog.csdn.net/jaylong35/article/details/6605077 问题起因: 自己开发了一个服务器和客户端,通过短连接的方式来进行通讯,由于过于频繁的创建连接,导致系统连接数量被占用,不能及时释放。看了一下18888,当时吓到了。 现象: 1、外部机器不能正常连接SSH 2、内向外不能够正常的ping通过,域名也不能正常解析。

BERT 论文逐段精读【论文精读】

BERT: 近 3 年 NLP 最火 CV: 大数据集上的训练好的 NN 模型,提升 CV 任务的性能 —— ImageNet 的 CNN 模型 NLP: BERT 简化了 NLP 任务的训练,提升了 NLP 任务的性能 BERT 如何站在巨人的肩膀上的?使用了哪些 NLP 已有的技术和思想?哪些是 BERT 的创新? 1标题 + 作者 BERT: Pre-trainin

【Python报错已解决】AttributeError: ‘list‘ object has no attribute ‘text‘

🎬 鸽芷咕:个人主页  🔥 个人专栏: 《C++干货基地》《粉丝福利》 ⛺️生活的理想,就是为了理想的生活! 文章目录 前言一、问题描述1.1 报错示例1.2 报错分析1.3 解决思路 二、解决方法2.1 方法一:检查属性名2.2 步骤二:访问列表元素的属性 三、其他解决方法四、总结 前言 在Python编程中,属性错误(At