CVPR 2020:物体检测论文精选

2024-06-21 08:48

本文主要是介绍CVPR 2020:物体检测论文精选,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

点击上方“AI公园”,关注公众号,选择加“星标“或“置顶”


作者:Derrick Mwiti

编译:ronghuaiyang

导读

最近的CVPR 2020在推动物体检测前进方面有相当多的贡献。在这篇文章中,我们将看到几篇特别令人印象深刻的论文。

A Hierarchical Graph Network for 3D Object Detection on Point Clouds

这篇文章提出了一种基于图卷积(GConv)的层次图网络(HGNet)用于三维目标检测。它直接处理原始点云来预测3D边界框。HGNet能够捕获点之间的关系,并使用多级语义进行物体检测。

论文:http://openaccess.thecvf.com/content_CVPR_2020/html/Chen_A_Hierarchical_Graph_Network_for_3D_Object_Detection_on_Point_CVPR_2020_paper.html

HGNet由三个主要部分组成:

  • 基于GConv的U形网络(GU-net)

  • Proposal生成器

  • Proposal推理模块(ProRe模块) — 使用全连通图对proposals进行推理

作者提出了一种形状注意力的GConv (SA-GConv)来捕获局部形状特征。通过建模相对的几何位置来描述物体的形状。

基于SA-GConv的U形网络捕获了多层特征。然后,投票模块将它们映射到一个相同的特征空间,并用于生成proposals。在下一步中,基于GConv的proposals 推理模块使用proposals 来预测边框。

下面是在SUN RGB-D V1数据集上获得的一些性能结果。

HVNet: Hybrid Voxel Network for LiDAR Based 3D Object Detection

在本文中,作者提出了Hybrid Voxel网络(HVNet),一种用于自动驾驶的基于点云的三维物体检测的一阶段的网络。

论文:http://openaccess.thecvf.com/content_CVPR_2020/html/Ye_HVNet_Hybrid_Voxel_Network_for_LiDAR_Based_3D_Object_Detection_CVPR_2020_paper.html

本文使用的voxel特征编码(VFE)方法包括三个步骤:

  • Voxelization —— 分配一个点云到一个2D voxel 网格

  • Voxel 特征提取 —— 计算一个网格依赖的point-wise特征,它被送给一个PointNet风格的特征编码器

  • 投影 —— 将point-wise特征聚合到voxel-level的特征并将其投影到原始网格中。这就形成了一个伪图像特征图。

voxel的大小在VFE方法中是非常重要的。更小的voxel 尺寸捕获更精细的几何特征。它们也更擅长于物体的定位,但需要更长的推理时间。使用更粗的voxel 可以获得更快的推理速度,因为它会导致更小的特征图。然而,它的性能较差。

作者提出使用混合voxel网络(HVNet)来利用细粒度的voxel 特征。它由三个步骤组成:

  • 多尺度体Voxelization — 创建一组特征voxel 尺度,并将其分配给多个voxel 。

  • 混合voxel 特征提取 — 计算每个尺度的voxel依赖特征,并将其送入注意力特征编码器(AVFE)。每个voxel尺度的特征进行point-wise连接。

  • 动态特征投影 — 通过创建一组多尺度物体voxels将特征投影回伪图像。

以下是在KITTI数据集上获得的结果。

Point-GNN: Graph Neural Network for 3D Object Detection in a Point Cloud

本文的作者提出了一个图神经网络 — Point-GNN — 来从LiDAR点云检测物体。该网络预测了图中每个顶点所属物体的类别和形状。Point-GNN有一个自回归机制,可以在一个点云中检测多个物体。

论文:http://openaccess.thecvf.com/content_CVPR_2020/html/Shi_Point-GNN_Graph_Neural_Network_for_3D_Object_Detection_in_a_CVPR_2020_paper.html

提出的方法有三个组成部分:

  • 图构造:使用voxel下采样点云进行图构造

  • 一个T迭代的图神经网络

  • 包围框合并以及打分

以下是在KITTI数据集上得到的结果:

代码:https://github.com/WeijingShi/Point-GNN

Camouflaged Object Detection

本文提出了检测嵌入在周围环境中的物体的挑战 —— 伪装物体检测(COD)。作者还提供了一个名为COD10K的新数据集。它包含10,000张图片,覆盖了许多自然场景中伪装的物体。它有78个物体类别。这些图像使用类别标签、边框、实例级和抠图级标签进行标注。

论文:http://openaccess.thecvf.com/content_CVPR_2020/html/Fan_Camouflaged_Object_Detection_CVPR_2020_paper.html

作者开发了一个称为搜索识别网络(SINet)的COD框架。

代码:https://github.com/DengPingFan/SINet/

该网络有两个主要模块:

  • 用于搜索伪装物体的搜索模块(SM)

  • 检测目标的识别模块(IM)

以下是各数据集的结果:

Few-Shot Object Detection with Attention-RPN and Multi-Relation Detector

本文提出了一种few-shot目标检测网络,其目标是检测只含有少量标注样本的没见过的类别的物体。

论文:http://openaccess.thecvf.com/content_CVPR_2020/html/Fan_Few-Shot_Object_Detection_With_Attention-RPN_and_Multi-Relation_Detector_CVPR_2020_paper.html

他们的方法包括attention-RPN、多关系检测器和对比训练策略。该方法利用few-shot支持集和查询集之间的相似性来识别新物体,同时减少了误识别。作者还提供了一个包含1000个类别的新数据集,其中的物体具有高质量的标注。

该网络体系结构由一个多分支的权值共享框架组成,一个分支是查询集,其他分支是支持集,权值共享框架的查询分支是一个Faster R-CNN网络。

作者介绍了一种带有多关系模块和attention-RPN的检测器,用于在支持和查询中可能出现的框之间进行精确解析。

下面是在ImageNet数据集上获得的一些结果。

以下是在一些数据集上获得的观察结果。

D2Det: Towards High-Quality Object Detection and Instance Segmentation

本文作者提出了D2Det,一种既能精确定位又能精确分类的方法。他们引入了一个稠密的局部回归来预测一个物体的proposal的多个稠密box偏移量。这使他们能够实现精确的定位。

论文:http://openaccess.thecvf.com/content_CVPR_2020/html/Cao_D2Det_Towards_High_Quality_Object_Detection_and_Instance_Segmentation_CVPR_2020_paper.html

为了实现准确的分类,本文还引入了一种有区分性的RoI pooling方案。pooling方案从该方案的多个子区域中抽取样本,并进行自适应加权以获得有区分性的特征。

代码:https://github.com/JialeCao001/D2Det

该方法基于标准的Faster R-CNN框架。在该方法中,传统的Faster R-CNN的盒偏置回归被提出的密集局部回归所代替。在该方法中,通过有区分性的RoI pooling来增强分类能力。

在两阶段方法中,第一阶段采用区域建议网络(RPN),第二阶段采用单独的分类和回归分支。分类分支是基于可区分性池化的。本地回归分支的目标是物体的精确定位。

MS COCO数据集的结果如下:

—END—

英文原文:https://heartbeat.fritz.ai/cvpr-2020-the-top-object-detection-papers-f920a6e41233

请长按或扫描二维码关注本公众号

喜欢的话,请给我个好看吧

这篇关于CVPR 2020:物体检测论文精选的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1080758

相关文章

综合安防管理平台LntonAIServer视频监控汇聚抖动检测算法优势

LntonAIServer视频质量诊断功能中的抖动检测是一个专门针对视频稳定性进行分析的功能。抖动通常是指视频帧之间的不必要运动,这种运动可能是由于摄像机的移动、传输中的错误或编解码问题导致的。抖动检测对于确保视频内容的平滑性和观看体验至关重要。 优势 1. 提高图像质量 - 清晰度提升:减少抖动,提高图像的清晰度和细节表现力,使得监控画面更加真实可信。 - 细节增强:在低光条件下,抖

高效录音转文字:2024年四大工具精选!

在快节奏的工作生活中,能够快速将录音转换成文字是一项非常实用的能力。特别是在需要记录会议纪要、讲座内容或者是采访素材的时候,一款优秀的在线录音转文字工具能派上大用场。以下推荐几个好用的录音转文字工具! 365在线转文字 直达链接:https://www.pdf365.cn/ 365在线转文字是一款提供在线录音转文字服务的工具,它以其高效、便捷的特点受到用户的青睐。用户无需下载安装任何软件,只

usaco 1.3 Mixing Milk (结构体排序 qsort) and hdu 2020(sort)

到了这题学会了结构体排序 于是回去修改了 1.2 milking cows 的算法~ 结构体排序核心: 1.结构体定义 struct Milk{int price;int milks;}milk[5000]; 2.自定义的比较函数,若返回值为正,qsort 函数判定a>b ;为负,a<b;为0,a==b; int milkcmp(const void *va,c

烟火目标检测数据集 7800张 烟火检测 带标注 voc yolo

一个包含7800张带标注图像的数据集,专门用于烟火目标检测,是一个非常有价值的资源,尤其对于那些致力于公共安全、事件管理和烟花表演监控等领域的人士而言。下面是对此数据集的一个详细介绍: 数据集名称:烟火目标检测数据集 数据集规模: 图片数量:7800张类别:主要包含烟火类目标,可能还包括其他相关类别,如烟火发射装置、背景等。格式:图像文件通常为JPEG或PNG格式;标注文件可能为X

AI hospital 论文Idea

一、Benchmarking Large Language Models on Communicative Medical Coaching: A Dataset and a Novel System论文地址含代码 大多数现有模型和工具主要迎合以患者为中心的服务。这项工作深入探讨了LLMs在提高医疗专业人员的沟通能力。目标是构建一个模拟实践环境,人类医生(即医学学习者)可以在其中与患者代理进行医学

基于 YOLOv5 的积水检测系统:打造高效智能的智慧城市应用

在城市发展中,积水问题日益严重,特别是在大雨过后,积水往往会影响交通甚至威胁人们的安全。通过现代计算机视觉技术,我们能够智能化地检测和识别积水区域,减少潜在危险。本文将介绍如何使用 YOLOv5 和 PyQt5 搭建一个积水检测系统,结合深度学习和直观的图形界面,为用户提供高效的解决方案。 源码地址: PyQt5+YoloV5 实现积水检测系统 预览: 项目背景

JavaFX应用更新检测功能(在线自动更新方案)

JavaFX开发的桌面应用属于C端,一般来说需要版本检测和自动更新功能,这里记录一下一种版本检测和自动更新的方法。 1. 整体方案 JavaFX.应用版本检测、自动更新主要涉及一下步骤: 读取本地应用版本拉取远程版本并比较两个版本如果需要升级,那么拉取更新历史弹出升级控制窗口用户选择升级时,拉取升级包解压,重启应用用户选择忽略时,本地版本标志为忽略版本用户选择取消时,隐藏升级控制窗口 2.

论文翻译:arxiv-2024 Benchmark Data Contamination of Large Language Models: A Survey

Benchmark Data Contamination of Large Language Models: A Survey https://arxiv.org/abs/2406.04244 大规模语言模型的基准数据污染:一项综述 文章目录 大规模语言模型的基准数据污染:一项综述摘要1 引言 摘要 大规模语言模型(LLMs),如GPT-4、Claude-3和Gemini的快

论文阅读笔记: Segment Anything

文章目录 Segment Anything摘要引言任务模型数据引擎数据集负责任的人工智能 Segment Anything Model图像编码器提示编码器mask解码器解决歧义损失和训练 Segment Anything 论文地址: https://arxiv.org/abs/2304.02643 代码地址:https://github.com/facebookresear

论文翻译:ICLR-2024 PROVING TEST SET CONTAMINATION IN BLACK BOX LANGUAGE MODELS

PROVING TEST SET CONTAMINATION IN BLACK BOX LANGUAGE MODELS https://openreview.net/forum?id=KS8mIvetg2 验证测试集污染在黑盒语言模型中 文章目录 验证测试集污染在黑盒语言模型中摘要1 引言 摘要 大型语言模型是在大量互联网数据上训练的,这引发了人们的担忧和猜测,即它们可能已