【MIT-BEVFusion代码解读】第四篇:融合特征fuser和解码特征decoder

本文主要是介绍【MIT-BEVFusion代码解读】第四篇:融合特征fuser和解码特征decoder,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

文章目录

  • 1. fuser模块
  • 2. decoder模块
    • 2.1 backbone模块
    • 2.2 neck模块


BEVFusion相关的其他文章链接:

  1. 【论文阅读】ICRA 2023|BEVFusion:Multi-Task Multi-Sensor Fusion with Unified Bird‘s-Eye View Representation
  2. MIT-BEVFusion训练环境安装以及问题解决记录
  3. 【MIT-BEVFusion代码解读】第一篇:整体结构与config参数说明
  4. 【MIT-BEVFusion代码解读】第二篇:LiDAR的encoder部分
  5. 【MIT-BEVFusion代码解读】第三篇:camera的encoder部分
  6. 【MIT-BEVFusion代码解读】第四篇:融合特征fuser和解码特征decoder

1. fuser模块

fuser模块的作用是将LiDARcamera得到的BEV特征进行融合,这里使用的ConvFuser方法将两个BEV特征融合。

x = self.fuser(features)

LiDAR=>[4, 256, 180, 180]camera => [4, 80, 180, 180]进行concat得到 => [4, 336, 180, 180],然后再卷积得到 =>[4, 256, 180, 180],具体代码如下。

class ConvFuser(nn.Sequential):def __init__(self, in_channels: int, out_channels: int) -> None:self.in_channels = in_channels # [80, 256]self.out_channels = out_channels # 256super().__init__(nn.Conv2d(sum(in_channels), out_channels, 3, padding=1, bias=False),nn.BatchNorm2d(out_channels),nn.ReLU(True),)def forward(self, inputs: List[torch.Tensor]) -> torch.Tensor:# 先进行concat,然后调用父类的卷积模块return super().forward(torch.cat(inputs, dim=1))

融合的结构如下所示:

ConvFuser((0): Conv2d(336, 256, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1), bias=False)(1): BatchNorm2d(256, eps=1e-05, momentum=0.1, affine=True, track_running_stats=True)(2): ReLU(inplace=True)
)

2. decoder模块

decoder部分由两部分组成,分别是backboneneck,其中backbone使用的是SECONDneck部分使用的是SECONDFPN
在这里插入图片描述

2.1 backbone模块

backbone使用的SECOND,和默认的layer_nums=[3, 5, 5]结构不一样,BEVFusion中使用的layer_nums=[5, 5]。所以backbone只有两个分支,都是5个卷积模块组成。

        outs = []for i in range(len(self.blocks)):x = self.blocks[i](x)outs.append(x)return tuple(outs)
  • 分支一:

第一个分支的输入是fuser的输出,它的大小为[4, 256, 180, 180],首先经过第一个Con2d将通道降至128,后面再接5个相同的Con2d提取特征,得到outs[0]的大小为[4, 128, 180, 180]

Sequential((0): Conv2d(256, 128, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1), bias=False)(1): BatchNorm2d(128, eps=0.001, momentum=0.01, affine=True, track_running_stats=True)(2): ReLU(inplace=True)(3): Conv2d(128, 128, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1), bias=False)(4): BatchNorm2d(128, eps=0.001, momentum=0.01, affine=True, track_running_stats=True)(5): ReLU(inplace=True)(6): Conv2d(128, 128, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1), bias=False)(7): BatchNorm2d(128, eps=0.001, momentum=0.01, affine=True, track_running_stats=True)(8): ReLU(inplace=True)(9): Conv2d(128, 128, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1), bias=False)(10): BatchNorm2d(128, eps=0.001, momentum=0.01, affine=True, track_running_stats=True)(11): ReLU(inplace=True)(12): Conv2d(128, 128, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1), bias=False)(13): BatchNorm2d(128, eps=0.001, momentum=0.01, affine=True, track_running_stats=True)(14): ReLU(inplace=True)(15): Conv2d(128, 128, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1), bias=False)(16): BatchNorm2d(128, eps=0.001, momentum=0.01, affine=True, track_running_stats=True)(17): ReLU(inplace=True)
)
  • 分支二:

第二个分支的输入是out[0],这个分支首先经过第一个Conv2d,将通道数128上至256,并且将feature map的长和宽都减半至90,然后在经过5个相同的Conv2d提取特征,最后得到特征outs[1]的大小为[4, 256, 90, 90]

Sequential((0): Conv2d(128, 256, kernel_size=(3, 3), stride=(2, 2), padding=(1, 1), bias=False)(1): BatchNorm2d(256, eps=0.001, momentum=0.01, affine=True, track_running_stats=True)(2): ReLU(inplace=True)(3): Conv2d(256, 256, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1), bias=False)(4): BatchNorm2d(256, eps=0.001, momentum=0.01, affine=True, track_running_stats=True)(5): ReLU(inplace=True)(6): Conv2d(256, 256, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1), bias=False)(7): BatchNorm2d(256, eps=0.001, momentum=0.01, affine=True, track_running_stats=True)(8): ReLU(inplace=True)(9): Conv2d(256, 256, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1), bias=False)(10): BatchNorm2d(256, eps=0.001, momentum=0.01, affine=True, track_running_stats=True)(11): ReLU(inplace=True)(12): Conv2d(256, 256, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1), bias=False)(13): BatchNorm2d(256, eps=0.001, momentum=0.01, affine=True, track_running_stats=True)(14): ReLU(inplace=True)(15): Conv2d(256, 256, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1), bias=False)(16): BatchNorm2d(256, eps=0.001, momentum=0.01, affine=True, track_running_stats=True)(17): ReLU(inplace=True)
)

2.2 neck模块

neck的作用是将backbone得到的feature map调整至指定大小[4, 256, 180, 180]

由于backbone得到了两个大小不同的feature map,分别为[4, 128, 180, 180][4, 256, 90, 90],第一个特征使用卷积降低通道数即可,第二个则需要反卷积来提升feature map的大小,实际上源代码也是这么做的。最后将得到两个分支的特征进行concat即可。

        assert len(x) == len(self.in_channels)# self.deblocks一共有两个,一个是卷积,一个是反卷积ups = [deblock(x[i]) for i, deblock in enumerate(self.deblocks)]# concat两个分支featureif len(ups) > 1:out = torch.cat(ups, dim=1)else:out = ups[0]return [out]

self.deblocks中第一个元素的卷积结构如下:

Sequential((0): Conv2d(128, 256, kernel_size=(1, 1), stride=(1, 1), bias=False)(1): BatchNorm2d(256, eps=0.001, momentum=0.01, affine=True, track_running_stats=True)(2): ReLU(inplace=True)
)

self.deblocks中第二个元素的反卷积结构如下:

Sequential((0): ConvTranspose2d(256, 256, kernel_size=(2, 2), stride=(2, 2), bias=False)(1): BatchNorm2d(256, eps=0.001, momentum=0.01, affine=True, track_running_stats=True)(2): ReLU(inplace=True)
)

将两个分支concat得到的feature map大小为:[4, 512, 180, 180]

这篇关于【MIT-BEVFusion代码解读】第四篇:融合特征fuser和解码特征decoder的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1118244

相关文章

使用 sql-research-assistant进行 SQL 数据库研究的实战指南(代码实现演示)

《使用sql-research-assistant进行SQL数据库研究的实战指南(代码实现演示)》本文介绍了sql-research-assistant工具,该工具基于LangChain框架,集... 目录技术背景介绍核心原理解析代码实现演示安装和配置项目集成LangSmith 配置(可选)启动服务应用场景

Python中顺序结构和循环结构示例代码

《Python中顺序结构和循环结构示例代码》:本文主要介绍Python中的条件语句和循环语句,条件语句用于根据条件执行不同的代码块,循环语句用于重复执行一段代码,文章还详细说明了range函数的使... 目录一、条件语句(1)条件语句的定义(2)条件语句的语法(a)单分支 if(b)双分支 if-else(

MySQL数据库函数之JSON_EXTRACT示例代码

《MySQL数据库函数之JSON_EXTRACT示例代码》:本文主要介绍MySQL数据库函数之JSON_EXTRACT的相关资料,JSON_EXTRACT()函数用于从JSON文档中提取值,支持对... 目录前言基本语法路径表达式示例示例 1: 提取简单值示例 2: 提取嵌套值示例 3: 提取数组中的值注意

CSS3中使用flex和grid实现等高元素布局的示例代码

《CSS3中使用flex和grid实现等高元素布局的示例代码》:本文主要介绍了使用CSS3中的Flexbox和Grid布局实现等高元素布局的方法,通过简单的两列实现、每行放置3列以及全部代码的展示,展示了这两种布局方式的实现细节和效果,详细内容请阅读本文,希望能对你有所帮助... 过往的实现方法是使用浮动加

JAVA调用Deepseek的api完成基本对话简单代码示例

《JAVA调用Deepseek的api完成基本对话简单代码示例》:本文主要介绍JAVA调用Deepseek的api完成基本对话的相关资料,文中详细讲解了如何获取DeepSeekAPI密钥、添加H... 获取API密钥首先,从DeepSeek平台获取API密钥,用于身份验证。添加HTTP客户端依赖使用Jav

Java实现状态模式的示例代码

《Java实现状态模式的示例代码》状态模式是一种行为型设计模式,允许对象根据其内部状态改变行为,本文主要介绍了Java实现状态模式的示例代码,文中通过示例代码介绍的非常详细,需要的朋友们下面随着小编来... 目录一、简介1、定义2、状态模式的结构二、Java实现案例1、电灯开关状态案例2、番茄工作法状态案例

nginx-rtmp-module模块实现视频点播的示例代码

《nginx-rtmp-module模块实现视频点播的示例代码》本文主要介绍了nginx-rtmp-module模块实现视频点播,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习... 目录预置条件Nginx点播基本配置点播远程文件指定多个播放位置参考预置条件配置点播服务器 192.

MySQL中的MVCC底层原理解读

《MySQL中的MVCC底层原理解读》本文详细介绍了MySQL中的多版本并发控制(MVCC)机制,包括版本链、ReadView以及在不同事务隔离级别下MVCC的工作原理,通过一个具体的示例演示了在可重... 目录简介ReadView版本链演示过程总结简介MVCC(Multi-Version Concurr

关于Gateway路由匹配规则解读

《关于Gateway路由匹配规则解读》本文详细介绍了SpringCloudGateway的路由匹配规则,包括基本概念、常用属性、实际应用以及注意事项,路由匹配规则决定了请求如何被转发到目标服务,是Ga... 目录Gateway路由匹配规则一、基本概念二、常用属性三、实际应用四、注意事项总结Gateway路由

CSS自定义浏览器滚动条样式完整代码

《CSS自定义浏览器滚动条样式完整代码》:本文主要介绍了如何使用CSS自定义浏览器滚动条的样式,包括隐藏滚动条的角落、设置滚动条的基本样式、轨道样式和滑块样式,并提供了完整的CSS代码示例,通过这些技巧,你可以为你的网站添加个性化的滚动条样式,从而提升用户体验,详细内容请阅读本文,希望能对你有所帮助...