最新3D目标检测文章汇总(包含ECCV20和ACMMM20)

2024-06-21 08:38

本文主要是介绍最新3D目标检测文章汇总(包含ECCV20和ACMMM20),希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

前言

3D目标检测在ECCV20的文章中呈现依旧火热的研究趋势,本文对目前笔者看到过的ECCV20和ACM MM20的3D目标检测文章做一个汇总,分类方法按照该方法是否在对应数据集上实验作为分类方法。

ECCV20

在ECCV20接收的文章中,仍然在KITTI上做实验的文章有两篇,如下列举,两篇文章都是采用多模态融合的研究工作,即点云信息和Image信息在特征层融合的方法。

3D-CVF: Generating Joint Camera and LiDAR Features Using Cross-View Spatial Feature Fusion for 3D Object Detection

论文链接:https://arxiv.org/pdf/2004.12636
笔者已经在前面的博文中细致的讲解了这一篇将image信息首先转化到点云BEV视角上,然后将特征插值到voxel中心的文章。核心创新点就是提供了一种image信息和点云融合的新思路,以往的Image和点云的融合都是通过pix2point的索引矩阵得到图像像素到点云的索引,然后将图像分割特征附加在对应的点云中。

EPNet: Enhancing Point Features with Image Semantics for 3D Object Detection

论文链接:https://arxiv.org/pdf/2007.08856
如下图所示的网络结构图,首先可以看出这也是一篇Image信息和点云信息融合的研究,其次可以简单看出融合的方法是采用multi-scale的feature-fusion融合,主体backbone是pointnet++网络结构;图像stream的结构主要是一个FPN层的语义分割特征,通过作者设计的多个L1-Fusion模块,作者采用对应scale的融合特征来解决图像信息和点云信息的互补补全。第二个创新点在于作者提出的CE-loss,该损失函数联合了置信度分数和与gt的IOU大小,认为置信度大的proposals对应的IOU重合度也应该相应比较大。就作者文中的实验来看,在添加了CE-loss后,其在val上的精度可以提升3%。

Pillar-based Object Detection for Autonomous Driving

作者单位是谷歌和MIT,主要创新点包括:
(1)作者设计了一个pillar-based的3D目标检测框架,该架构在多个数据集上达到state-of-the-art的结果,不过实验是在waymo数据集上进行的。
(2)作者还设计了一个pillar-based的Box回归结构,比以往的anchor-based和point-based的提proposals的方法表现更好
(3)作者分析了multi-view feature learning,并证实了cylindrical-view 是BEV的最好的互补的视图。

上图表示本文的主体网络结构,点云首先会分别在BEV和CYV视角上进行各自的特征提取,然后将这两个视角的特征进行融合,然后将fusion后的点域特征投影到BEV视角上,再接目前常用的二维RPN做回归和分类。

Active Perception using Light Curtains for Autonomous Driving

论文链接:https://arxiv.org/pdf/2008.02191.pdf
开源链接:http://siddancha.github.io/projects/active-perception-light-curtains
作者单位是CMU,该文提出使用light-curtains(一种传感器)来提高自动驾驶中3D目标检测的识别性能,而且本文的另外一个创新点在于利用3D目标检测预测不确定性来知道运动感知。主要创新点包括有:
(1)利用预测不确定性作为指导来提升3D目标检测的运动感知能力。
(2)作者利用最大化信息增益,在考虑到网络不确定性的前提下,设计了一个最优化算法来确定哪里适合设置light-curtains
(3)作者也提出了一种方法来训练生成online light curtain data。

主体网络结构如上图所示,上面的分支表示作者采用一个单线雷达做目标检测任务,detector的不确定度被用来最优化的放置一个包含了最大不确定区域的light curtain。然后那些通过light curtain检测出来的点(表示为绿色)返回到detection最初始的划分voxel阶段,然后进一步更新目标检测结果。作者在Virtual KITTI上做的实验,式样效果如下,可以看出多条light-curtains是能带来更好的精度提升。

Searching Efficient 3D Architectures with Sparse Point-Voxel Convolution

论文链接:https://arxiv.org/pdf/2007.16100.pdf
作者团队是韩松实验室。
本文不是一篇常规的目标检测文章,而是在卷积上做文章,该模块可以在点云的任何任务中使用,当然也就包括了点云目标检测任务。本文的主要创新点包括了
(1)作者设计了一个轻量级的3D卷积模块,在硬件有限的情况下取得了不错的结果。
(2)引入了第一个3D搜索网络, 3D-NAS,自主搜索最好的3D网络结构

上图表示结合voxel和point特征提取的卷积结构,该图即是(NIPS19)的文章PVCNN的结构,一方面是高效的采用voxel做了特征提取,另一方面是通过point分支而不采用FPS的耗时结构,可以得到MLP提取的特征,最后采用插值的方式得到融合后的特征。

An LSTM Approach to Temporal 3D Object Detection in LiDAR Point Clouds

论文链接:https://arxiv.org/pdf/2007.12392.pdf
作者单位是谷歌。
本文的主要创新点包括:
(1)第一个采用LSTM处理点云序列的网络。并且多帧融合的效果远好于单帧。
(2)提出3D 稀疏LSTM,该结构可以保有一定的记忆能力,同时高效的做fusion。

overall的网络结构如上图所示,每一帧的点云信息都是首先通过一个稀疏卷积搭建的U-Net做处理,然后3D稀疏LSTM将backbone特征和memory中的上一帧的特征做融合,然后再通过FPS和NMS对最后的结果做后处理。

Kinematic 3D Object Detection in Monocular Video

论文链接:https://arxiv.org/pdf/2007.09548.pdf
作者单位是密西根州立大学
这是一篇单目video做目标检测的文章,该文章利用运动学运动提取场景动态,提高定位精度。主要的贡献点包括:
(1)提出了一个单目vodeo-based的3D目标检测网络,利用集成的运动和3D卡尔曼滤波现实运动约束
(2)作者重新构建了3D目标框,即建议将方向重新制定为轴、航向和偏移以及自平衡的三维定位损失,以促进稳定性所需的卡尔曼滤波,以更有效地执行。
(3)总的来说,作者仅使用一个单一的模型,就能够实现一个全面的三维场景理解,包括3D bbox,速度,相对运动,不确定性,和自我运动等
(4)在单目的3D目标检测中,在KITTI达到了新的SOTA

网络主要的结构如上图所示,首先易容RPN网络预测最先的3D BBOX,然后进一步使用卡尔曼预测速度更新上一次的tracking为这一次的tracking。最后将这一次的跟踪内容和检测做进一步的融合。

ACM MM20

Weakly Supervised 3D Object Detection from Point Clouds

论文链接 :https://arxiv.org/pdf/2007.13970.pdf
作者团队是微软,就题目而言,本文是一篇采用弱监督学习做3D目标检测任务的文章,这在近期的研究中是很少见的。本文的主要贡献点包括:
(1)提出了一个无监督的3D目标检测网络,该网络使用所提出的归一化点云密度和几何先验来选择和对齐anchor。作者表示这是第一个弱监督学习的基于点云的3D目标检测网络
(2)一个高效的方法将2D图像信息和3D点云融合,该方法可以推广到没有三维标注的情形下使用。

网络结构图如上图所示,网络中第一个重要的部分是无监督proposals提出网络,通过归一化点云密度信息提出proposals。第二个重要的部分是cross-modal transfer模块,该模块的作用是从图像数据集到点云数据集的信息融合。

笔者总结

就最近的几篇文章来看,现在文章的研究热点依旧在image信息融合和点云时序信息的融合,而最新的利用弱监督信息来做3D点云目标检测也是将弱监督这一个大热门研究点和3D点云融合,这些都还有很多可以值得研究的内容。

请长按或扫描二维码关注本公众号

喜欢的话,请给我个在看吧

这篇关于最新3D目标检测文章汇总(包含ECCV20和ACMMM20)的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1080736

相关文章

轻量级在线服装3D定制引擎Myway简介

我写的面向web元宇宙轻量级系列引擎中的另外一个,在线3D定制引擎Myway 3D。 用于在线商品定制,比如个性化服装的定制、日常用品(如杯子)、家装(被套)等物品的在线定制。 特性列表: 可更换衣服款式,按需定制更换模型可实时更改材质颜色可实时添加文本,并可实时修改大小、颜色和角度,支持自定义字体可实时添加艺术图标,并可实时修改大小、颜色和角度,支持翻转、各种对齐可更改衣服图案,按需求定制

C++工程编译链接错误汇总VisualStudio

目录 一些小的知识点 make工具 可以使用windows下的事件查看器崩溃的地方 dumpbin工具查看dll是32位还是64位的 _MSC_VER .cc 和.cpp 【VC++目录中的包含目录】 vs 【C/C++常规中的附加包含目录】——头文件所在目录如何怎么添加,添加了以后搜索头文件就会到这些个路径下搜索了 include<> 和 include"" WinMain 和

基于CTPN(tensorflow)+CRNN(pytorch)+CTC的不定长文本检测和识别

转发来源:https://swift.ctolib.com/ooooverflow-chinese-ocr.html chinese-ocr 基于CTPN(tensorflow)+CRNN(pytorch)+CTC的不定长文本检测和识别 环境部署 sh setup.sh 使用环境: python 3.6 + tensorflow 1.10 +pytorch 0.4.1 注:CPU环境

【汇总】vivado_zynq学习资料

DMA:https://www.xilinx.com/support/answers/57550.html

3月份目标——刷完乙级真题

https://www.patest.cn/contests/pat-b-practisePAT (Basic Level) Practice (中文) 标号标题通过提交通过率1001害死人不偿命的(3n+1)猜想 (15)31858792260.41002写出这个数 (20)21702664840.331003我要通过!(20)11071447060.251004成绩排名 (20)159644

【计算机组成原理】部分题目汇总

计算机组成原理 部分题目汇总 一. 简答题 RISC和CICS 简要说明,比较异同 RISC(精简指令集)注重简单快速的指令执行,使用少量通用寄存器,固定长度指令,优化硬件性能,依赖软件(如编译器)来提升效率。 CISC(复杂指令集)包含多样复杂的指令,能一条指令完成多步操作,采用变长指令,减少指令数但可能增加执行时间,倾向于硬件直接支持复杂功能减轻软件负担。 两者均追求高性能,但RISC

最新版本的MySQL的下载和安装(Release: 8.0.12)

1.打开百度搜索【Myql】,或直达官网https://dev.mysql.com/ 2.点选【Download按钮】,跳转到下载页面,拉到底部再点选【Community Download】社区版[免费版]

最新版本的JDK安装和配置(Java SE 10.0.2)

1.废话少说,要么百度JDK,要么直接点传送门http://www.oracle.com/technetwork/java/javase/downloads/index.html。这里需要说的JDK包含JRE,打个比方,JDK就是厨房,包含各种工具,而JRE是运行环境,就是锅。所以下载的话,直接下载最新JDK最好。然后根据你的系统位数选择版本。我的是64bit. 2.点击1的右边中间的【JD

个人博客文章目录索引(持续更新中...)

文章目录 一、Java基础二、Java相关三、MySql基础四、Mybatis基础及源码五、MybatisPlus基础六、Spring基础及源码七、Tomcat源码八、SpringMVC基础及源码   随着文章数量多起来,每次着急翻找半天,而是新申请的域名下来了,决定整理下最近几年的文章目录索引。(红色标记为常检索文章) 一、Java基础 1、Java基础(一):语言概述2、J

PTA基础题考点汇总

一:字符串(数组)的逆序,栈的方法 **字符串数组的逆序 : ** 标准容器库的知识:定义stack容器于字符串:stackv; string s; //这里用到了c++中stl(标准容器库的知识)stack;//用的时候要声明头文件;定义stack容器和string;stack<string>v; string s;了解几个函数,v.top( );//让最后一个元素出栈;(v是定义的