[RIS]GRES: Generalized Referring Expression Segmentation

2024-08-29 21:28

本文主要是介绍[RIS]GRES: Generalized Referring Expression Segmentation,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

1. BaseInfo

TitleGRES: Generalized Referring Expression Segmentation
Adresshttps://arxiv.org/pdf/2306.00968
Journal/TimeCVPR2023
Author南洋理工
Codehttps://github.com/henghuiding/ReLA
Read20240829
TableVisonLanguage

2. Creative Q&A

  1. 考虑结果多目标和无目标,基于 Mask2Former,能够指向任意数量的目标类别
    在这里插入图片描述
  2. 数据集 gRefCOCO 构建,包含单目标、多目标和无目标。
  3. ReLA

3. Concrete

在这里插入图片描述
主要是多目标和无目标的改进。
prediction : 图像、文本、GT Mask、预测结果、有无目标。

        out = {'pred_logits': predictions_class[-1], # [B, Q, num_classes + 1]'pred_masks': tgt_mask, # [ B, num_classes + 1, H/4, W/4]'all_masks': outputs_mask,'nt_label': nt_label # [B, 2]}

3.1. Model

arch
将视觉和语言特征输入 ReLA 模块。
在这里插入图片描述

3.1.1. Input

图片+文本

3.1.2. Backbone

Swin-Transformer + BERT

3.1.3. Neck

3.1.4. Decoder

在 RelA 后就是很简单的 MLP

3.1.5. Loss

交叉熵损失

3.2. Training

3.2.1 Dataset

RefCOCO
RefCOCO+
G-Ref
gRefCOCO

3.3. Eval

cumulative IoU (cIoU) and Precision@X (Pr@X), we further introduce No-target accuracy (N-acc.), Target accuracy (T-acc.), and generalized IoU (gIoU) for GRES.

  1. 在 gRefCOCO 上的
    在这里插入图片描述

3.4. Ablation

  1. 数据集的必要性
  2. RIA 和 RLA 的必要性
  3. P 的数量 10 最佳

4. Reference

RES 系列 GRES: Generalized Referring Expression Segmentation 论文阅读笔记

5. Additional

有点吃显存。
简单读一下,后面 ReLA 还是没怎么看懂。后面再结合代码读的时候再详细写吧…

这篇关于[RIS]GRES: Generalized Referring Expression Segmentation的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1118931

相关文章

leetcode#10. Regular Expression Matching

题目 Implement regular expression matching with support for ‘.’ and ‘*’. '.' Matches any single character.'*' Matches zero or more of the preceding element.The matching should cover the entire input

LeetCode - 10. Regular Expression Matching

10. Regular Expression Matching Problem's Link  ---------------------------------------------------------------------------- Mean:  给定一个串s和一个自动机p(模糊字符只含有'.'和'*'),问串s是否能够和自动机p匹配. analyse:

Segmentation简记-Multi-stream CNN based Video Semantic Segmentation for Automated Driving

创新点 1.RFCN & MSFCN 总结 网络结构如图所示。输入视频得到图像分割结果。 简单粗暴

Segmentation简记5-AuxNet: Auxiliary tasks enhanced Semantic Segmentation for Automated Driving

创新点 1.分割网络为主任务,深度估计网络为辅任务 2.loss的设计 总结如图所示 网络结构如图所示 其实很容易理解。 backbone是基于ResNet50 分割网络是基于FCN8 深度估计网络与分割网络类似,最后一层是回归深度层。 最有意思的是两种任务的loss的合并。 分割的loss很常见:cross entropy 深度loss:mean absolute error 算法一:

DS简记1-Real-time Joint Object Detection and Semantic Segmentation Network for Automated Driving

创新点 1.更小的网络,更多的类别,更复杂的实验 2. 一体化 总结 终于看到一篇检测跟踪一体化的文章 网络结构如下: ResNet10是共享的Encoder,yolov2 是检测的Deconder,FCN8 是分割的Deconder。 其实很简单,论文作者也指出:Our work is closest to the recent MultiNet. We differ by focus

Segmentation简记3-UPSNet: A Unified Panoptic Segmentation Network

Segmentation简记3-UPSNet: A Unified Panoptic Segmentation Network 创新点总结实验 创新点 1.统一的全景分割网络 总结 uber的作品 网络结构如下: 还是比较简洁的。 Backbone 采用了原始mask rcnn。 Instance Segmentation Head 使用了最大的特征图,包括bbox回归,分

Segmentation简记2-RESIDUAL PYRAMID FCN FOR ROBUST FOLLICLE SEGMENTATION

创新点 与resnet结合,五层/level的分割由此带来的梯度更新问题,设计了两种方案。 总结 有点意思。看图吧,很明了。 细节图: 全流程图: 实验 Res-Seg-Net-horz: 在UNet上堆叠5个细节图中的结构,没有上采样层。 Res-Seg-Net-non-fixed: 普通方式的更新 Res-Seg-Net-fixed: 每一层的更新,只依据距离它最近的一

National Contest for Private Universities (NCPU), 2019 E. Generalized Pascal's Triangle

编辑代码 2000ms 262144K Generalized Pascal's Triangle Pascal's triangle is a triangular array in which each number can be calculated by the sum of the two numbers directly above that number as shown i

3D Deeply Supervised Network for Automatic Liver Segmentation from CT Volumes

下面博主详细翻译了该篇论文,可以当做详尽的参考,并认真学习。 【参考】论文笔记:3D Deeply Supervised Network for Automatic Liver Segmentation from CT 数据集: MICCAI-SLiver07[1] 数据预处理: 作者没有讲数据预处理的过程。 CRF 轮廓精细修正: 参考上述博主博客。 参考文献: [1]Heimann,

Liver Segmentation in CT based on ResUNet with 3D Probabilistic and Geometric Post Process

一、摘要 本文提出了使用具有3D概率和几何后期处理功能的ResUNet的新型肝分割框架。 我们的语义分割模型ResUNet在U-Net的上采样和下采样部分添加了残差单元和批处理规范化层,以构建更深的网络。 为了快速收敛,我们提出了一种新的损失函数DCE,该函数由Dice损失和交叉熵损失线性组合。 我们使用连续的几个CT图像作为训练和测试的输入,以探索更多的上下文信息。 基于ResUNet的初始分割