PointRend的原理与代码解读

2023-10-28 15:50
文章标签 代码 原理 解读 pointrend

本文主要是介绍PointRend的原理与代码解读,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

PointRend的提出是为了解决实例分割精度不高的问题,当然也可以应用到语义分割上。PointRend是如何解决分割结果精细度不高的问题呢?下面回顾一下语义分割领域最经典的FCN模型。

FCN语义分割思想:对原始图像经过不断的卷积和池化,得到高语义低分辨率特征,然后进行分类,分类后直接上采样(线性插值类算法)到与图像大小一致的结果,这样必然会导致分割结果很粗糙,尤其是边界部分误差很大。

(代码层面上实现,有一种是原始图像经过卷积池化后,上采样到原始图像大小后再进行像素级的分类预测)

后面大部分的语义分割模型都是基于FCN框架衍生,并在最后上采样部分做了修改,如UNet,deeplabV3+,PSPNet分类预测后上采样的倍数都不一样。

PointRend核心思想:语义分割经过多次池化降采样后,直接预测分类结果,而不是上采样到跟原图像同样尺寸。在粗糙的分割结果中选择分割精度不高的点,然后在这些点上结合粗糙和精细的特征训练MLP模型,对这些点进行重新预测,在训练阶段用重新预测的结果替换原来预测的粗糙结果进行loss计算。推理阶段重新预测的结果替换原来预测的粗糙结果。

训练阶段:

以deeplabv3+为例,输入影像经过特征提取backbone(如RestNet)后,选取layer2和layer4层特征,其中layer4层经过deeplabv3+的ASPP后,直接预测分类结果,称为corase分类结果。layer2称为精细特征fine。然后在corase分类结果中选择分类结果不是非常确定的点(数目为输入影像高度的16分之一),然后根据这些不确定点的坐标分别在corase分类结果特征和layer2特征上采集相应的特征,最后把特征cat后送入mlp进行训练,得到新的预测结果,叫rend。

损失:分为2个,一个是corase分类结果直接上采样后与gt对比得到的seg loss;另一个是rend预测结果与根据不确定点坐标在gt上采样得到的结果进行计算得到的points loss。

ASPP

推理阶段:

以deeplabv3+为例,输入影像经过特征提取backbone(如RestNet)后,选取layer2和layer4层特征,其中layer4层经过deeplabv3+的ASPP后,直接预测分类结果,称为corase分类结果。layer2称为精细特征fine。然后对corase分类结果进行2倍上采样,再在上面进行点采样(文章8096个points);接着再在layer2层采样,然后把2种采样特征cat起来,放入mlp进行预测,预测结果代替2倍上采样后的corase分类结果;

一直迭代下去,直到操作到原始图像尺寸大小为止。

注意点:训练和推理的不确定点的采样策略不一样

代码理解:

函数def point_sample(input, point_coords, **kwargs)调用了F. grid_sample函数进行采样。

def grid_sample(
    input: Tensor,
    grid: Tensor,
    mode: str = "bilinear",
    padding_mode: str = "zeros",
    align_corners: Optional[bool] = None,
)

官方说明:

Given an input and a flow-field grid, computes the output using input values and pixel locations from grid.

个人理解:

简单来说就是,提供一个input的Tensor以及一个对应的flow-field网格(比如光流,体素流等),然后根据grid中每个位置提供的坐标信息(这里指input中pixel的坐标),将input中对应位置的像素值填充到grid指定的位置,得到最终的输出。​

 

这篇关于PointRend的原理与代码解读的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/294279

相关文章

使用Java将DOCX文档解析为Markdown文档的代码实现

《使用Java将DOCX文档解析为Markdown文档的代码实现》在现代文档处理中,Markdown(MD)因其简洁的语法和良好的可读性,逐渐成为开发者、技术写作者和内容创作者的首选格式,然而,许多文... 目录引言1. 工具和库介绍2. 安装依赖库3. 使用Apache POI解析DOCX文档4. 将解析

C++使用printf语句实现进制转换的示例代码

《C++使用printf语句实现进制转换的示例代码》在C语言中,printf函数可以直接实现部分进制转换功能,通过格式说明符(formatspecifier)快速输出不同进制的数值,下面给大家分享C+... 目录一、printf 原生支持的进制转换1. 十进制、八进制、十六进制转换2. 显示进制前缀3. 指

Spring Boot循环依赖原理、解决方案与最佳实践(全解析)

《SpringBoot循环依赖原理、解决方案与最佳实践(全解析)》循环依赖指两个或多个Bean相互直接或间接引用,形成闭环依赖关系,:本文主要介绍SpringBoot循环依赖原理、解决方案与最... 目录一、循环依赖的本质与危害1.1 什么是循环依赖?1.2 核心危害二、Spring的三级缓存机制2.1 三

C#中async await异步关键字用法和异步的底层原理全解析

《C#中asyncawait异步关键字用法和异步的底层原理全解析》:本文主要介绍C#中asyncawait异步关键字用法和异步的底层原理全解析,本文给大家介绍的非常详细,对大家的学习或工作具有一... 目录C#异步编程一、异步编程基础二、异步方法的工作原理三、代码示例四、编译后的底层实现五、总结C#异步编程

python3 gunicorn配置文件的用法解读

《python3gunicorn配置文件的用法解读》:本文主要介绍python3gunicorn配置文件的使用,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录python3 gunicorn配置文件配置文件服务启动、重启、关闭启动重启关闭总结python3 gun

关于pandas的read_csv方法使用解读

《关于pandas的read_csv方法使用解读》:本文主要介绍关于pandas的read_csv方法使用,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录pandas的read_csv方法解读read_csv中的参数基本参数通用解析参数空值处理相关参数时间处理相关

使用Python实现全能手机虚拟键盘的示例代码

《使用Python实现全能手机虚拟键盘的示例代码》在数字化办公时代,你是否遇到过这样的场景:会议室投影电脑突然键盘失灵、躺在沙发上想远程控制书房电脑、或者需要给长辈远程协助操作?今天我要分享的Pyth... 目录一、项目概述:不止于键盘的远程控制方案1.1 创新价值1.2 技术栈全景二、需求实现步骤一、需求

Java中Date、LocalDate、LocalDateTime、LocalTime、时间戳之间的相互转换代码

《Java中Date、LocalDate、LocalDateTime、LocalTime、时间戳之间的相互转换代码》:本文主要介绍Java中日期时间转换的多种方法,包括将Date转换为LocalD... 目录一、Date转LocalDateTime二、Date转LocalDate三、LocalDateTim

Go 语言中的select语句详解及工作原理

《Go语言中的select语句详解及工作原理》在Go语言中,select语句是用于处理多个通道(channel)操作的一种控制结构,它类似于switch语句,本文给大家介绍Go语言中的select语... 目录Go 语言中的 select 是做什么的基本功能语法工作原理示例示例 1:监听多个通道示例 2:带

鸿蒙中@State的原理使用详解(HarmonyOS 5)

《鸿蒙中@State的原理使用详解(HarmonyOS5)》@State是HarmonyOSArkTS框架中用于管理组件状态的核心装饰器,其核心作用是实现数据驱动UI的响应式编程模式,本文给大家介绍... 目录一、@State在鸿蒙中是做什么的?二、@Spythontate的基本原理1. 依赖关系的收集2.