最新3D目标检测文章汇总（包含ECCV20和ACMMM20）

本文主要是介绍最新3D目标检测文章汇总（包含ECCV20和ACMMM20），希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

前言

3D目标检测在ECCV20的文章中呈现依旧火热的研究趋势，本文对目前笔者看到过的ECCV20和ACM MM20的3D目标检测文章做一个汇总，分类方法按照该方法是否在对应数据集上实验作为分类方法。

ECCV20

在ECCV20接收的文章中，仍然在KITTI上做实验的文章有两篇，如下列举，两篇文章都是采用多模态融合的研究工作，即点云信息和Image信息在特征层融合的方法。

3D-CVF: Generating Joint Camera and LiDAR Features Using Cross-View Spatial Feature Fusion for 3D Object Detection

论文链接：https://arxiv.org/pdf/2004.12636
笔者已经在前面的博文中细致的讲解了这一篇将image信息首先转化到点云BEV视角上，然后将特征插值到voxel中心的文章。核心创新点就是提供了一种image信息和点云融合的新思路，以往的Image和点云的融合都是通过pix2point的索引矩阵得到图像像素到点云的索引，然后将图像分割特征附加在对应的点云中。

EPNet: Enhancing Point Features with Image Semantics for 3D Object Detection

论文链接：https://arxiv.org/pdf/2007.08856
如下图所示的网络结构图，首先可以看出这也是一篇Image信息和点云信息融合的研究，其次可以简单看出融合的方法是采用multi-scale的feature-fusion融合，主体backbone是pointnet++网络结构；图像stream的结构主要是一个FPN层的语义分割特征，通过作者设计的多个L1-Fusion模块，作者采用对应scale的融合特征来解决图像信息和点云信息的互补补全。第二个创新点在于作者提出的CE-loss，该损失函数联合了置信度分数和与gt的IOU大小，认为置信度大的proposals对应的IOU重合度也应该相应比较大。就作者文中的实验来看，在添加了CE-loss后，其在val上的精度可以提升3%。

Pillar-based Object Detection for Autonomous Driving

作者单位是谷歌和MIT，主要创新点包括：
（1）作者设计了一个pillar-based的3D目标检测框架，该架构在多个数据集上达到state-of-the-art的结果，不过实验是在waymo数据集上进行的。
（2）作者还设计了一个pillar-based的Box回归结构，比以往的anchor-based和point-based的提proposals的方法表现更好
（3）作者分析了multi-view feature learning，并证实了cylindrical-view 是BEV的最好的互补的视图。

上图表示本文的主体网络结构，点云首先会分别在BEV和CYV视角上进行各自的特征提取，然后将这两个视角的特征进行融合，然后将fusion后的点域特征投影到BEV视角上，再接目前常用的二维RPN做回归和分类。

Active Perception using Light Curtains for Autonomous Driving

论文链接：https://arxiv.org/pdf/2008.02191.pdf
开源链接：http://siddancha.github.io/projects/active-perception-light-curtains
作者单位是CMU，该文提出使用light-curtains（一种传感器）来提高自动驾驶中3D目标检测的识别性能，而且本文的另外一个创新点在于利用3D目标检测预测不确定性来知道运动感知。主要创新点包括有：
（1）利用预测不确定性作为指导来提升3D目标检测的运动感知能力。
（2）作者利用最大化信息增益，在考虑到网络不确定性的前提下，设计了一个最优化算法来确定哪里适合设置light-curtains
（3）作者也提出了一种方法来训练生成online light curtain data。

主体网络结构如上图所示，上面的分支表示作者采用一个单线雷达做目标检测任务，detector的不确定度被用来最优化的放置一个包含了最大不确定区域的light curtain。然后那些通过light curtain检测出来的点（表示为绿色）返回到detection最初始的划分voxel阶段，然后进一步更新目标检测结果。作者在Virtual KITTI上做的实验，式样效果如下，可以看出多条light-curtains是能带来更好的精度提升。

Searching Efficient 3D Architectures with Sparse Point-Voxel Convolution

论文链接：https://arxiv.org/pdf/2007.16100.pdf
作者团队是韩松实验室。
本文不是一篇常规的目标检测文章，而是在卷积上做文章，该模块可以在点云的任何任务中使用，当然也就包括了点云目标检测任务。本文的主要创新点包括了
（1）作者设计了一个轻量级的3D卷积模块，在硬件有限的情况下取得了不错的结果。
（2）引入了第一个3D搜索网络, 3D-NAS,自主搜索最好的3D网络结构

上图表示结合voxel和point特征提取的卷积结构，该图即是(NIPS19)的文章PVCNN的结构，一方面是高效的采用voxel做了特征提取，另一方面是通过point分支而不采用FPS的耗时结构，可以得到MLP提取的特征，最后采用插值的方式得到融合后的特征。

An LSTM Approach to Temporal 3D Object Detection in LiDAR Point Clouds

论文链接：https://arxiv.org/pdf/2007.12392.pdf
作者单位是谷歌。
本文的主要创新点包括：
（1）第一个采用LSTM处理点云序列的网络。并且多帧融合的效果远好于单帧。
（2）提出3D 稀疏LSTM，该结构可以保有一定的记忆能力，同时高效的做fusion。

overall的网络结构如上图所示，每一帧的点云信息都是首先通过一个稀疏卷积搭建的U-Net做处理，然后3D稀疏LSTM将backbone特征和memory中的上一帧的特征做融合，然后再通过FPS和NMS对最后的结果做后处理。

Kinematic 3D Object Detection in Monocular Video

论文链接：https://arxiv.org/pdf/2007.09548.pdf
作者单位是密西根州立大学
这是一篇单目video做目标检测的文章，该文章利用运动学运动提取场景动态，提高定位精度。主要的贡献点包括：
（1）提出了一个单目vodeo-based的3D目标检测网络，利用集成的运动和3D卡尔曼滤波现实运动约束
（2）作者重新构建了3D目标框，即建议将方向重新制定为轴、航向和偏移以及自平衡的三维定位损失，以促进稳定性所需的卡尔曼滤波，以更有效地执行。
（3）总的来说，作者仅使用一个单一的模型，就能够实现一个全面的三维场景理解，包括3D bbox,速度，相对运动，不确定性，和自我运动等
（4）在单目的3D目标检测中，在KITTI达到了新的SOTA

网络主要的结构如上图所示，首先易容RPN网络预测最先的3D BBOX，然后进一步使用卡尔曼预测速度更新上一次的tracking为这一次的tracking。最后将这一次的跟踪内容和检测做进一步的融合。

ACM MM20

Weakly Supervised 3D Object Detection from Point Clouds

论文链接：https://arxiv.org/pdf/2007.13970.pdf
作者团队是微软，就题目而言，本文是一篇采用弱监督学习做3D目标检测任务的文章，这在近期的研究中是很少见的。本文的主要贡献点包括：
（1）提出了一个无监督的3D目标检测网络，该网络使用所提出的归一化点云密度和几何先验来选择和对齐anchor。作者表示这是第一个弱监督学习的基于点云的3D目标检测网络
（2）一个高效的方法将2D图像信息和3D点云融合，该方法可以推广到没有三维标注的情形下使用。

网络结构图如上图所示，网络中第一个重要的部分是无监督proposals提出网络，通过归一化点云密度信息提出proposals。第二个重要的部分是cross-modal transfer模块，该模块的作用是从图像数据集到点云数据集的信息融合。