【语义分割】PANet Few-Shot Image Semantic Segmentation with Prototype Alignment 论文理解

本文主要是介绍【语义分割】PANet Few-Shot Image Semantic Segmentation with Prototype Alignment 论文理解,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

PANet Few-Shot Image Semantic Segmentation with Prototype Alignment 论文理解

  • 解决什么问题
  • 本文创新点\贡献
  • 前人方法
  • 本文IDEA来源
  • 方法
    • 方法概述
    • Alignment
    • Prototype learning
    • Non-parametric metric learning
    • Prototype alignment regularization (PAR)
  • 训练
  • 实验
    • PAR的分析
    • Generalization to weaker annotations
  • 总结

解决什么问题

少训练样本的分割


本文创新点\贡献

将prototype的提取和无参数的度量学习分开了

优点:

  1. 不需要额外学习参数,不容易过拟合

    啥意思,那一块不需要参数啊,度量学习?如何实现的呢?

  2. prototype嵌入和预测都是在计算好的特征图上进行的,没有额外的前向传播
  3. 简单易用,更弱的注释也可以,bbox或涂鸦?这尼玛还能分割了?

亮点

  1. 利用了prototypes上的度量学习,无参数
  2. 提出prototypes对齐正则化,充分利用support的知识
  3. 对于带有弱注释的少样本直接使用

前人方法

Few-shot learning

  • 输入放入神经网络,执行加权最近邻匹配来分类
  • 用一个向量特征来表示每个类
  • 独立的模组直接学习support特征和query特征的联系

Few-shot segmentation

  • 从support set生成一些用来调整query set的分割处理
  • 将提取的support特征和query对方到一起,然后decoder,来生成分割结果
  • 使用mask average pool从suppor set里提取前后景信息

本文IDEA来源

Prototypical networks for few-shot learning的延申


方法

在这里插入图片描述

方法概述

用同一个backbone来提取support和query的深度特征,然后使用masked average pooling从support的特征将不同的前景物体背景嵌入不同的prototypes中,每个prototype表示对应的类别,这样query图像的每个的像素通过参考离它的嵌入表达最近的特定类的prototype来标记,得到query的预测mask后;训练的时候,得到mask后,再将刚才提取的query feature和mask作为新的“support set”,将之前的support set作为新的“query set”,再用“support set”对“query set”做一波预测,然后再算一个loss

prototype紧凑且鲁棒的对每个语义类别进行表达;mask标记那块就是无参度量学习,通过和嵌入空间的逐像素匹配来执行分割

在这里插入图片描述
算 法 总 览 , 公 式 编 号 和 顺 序 相 同 算法总览,公式编号和顺序相同


Alignment

在这里插入图片描述
执行一个prototype对齐正则化,用query和他的mask建立新的support,然后用这个来预测原始的support set的分割,实验证明能鼓励query的prototype对齐他们的support的prototype,只有训练的时候这么做

反向再推一次,看看是否真的相似

图像说明
support的嵌入特征是圆形,query图像是三角形,对每个类学习prototype(蓝色和黄色的),query通过在嵌入空间中将他的特征和最近的prototype进行匹配,来进行分割,虚线就是匹配,右图进行了prototype对齐正则化,就是通过从support到query的反向对齐。


Prototype learning

方法的选择
使用support的mask注释分开学习前景和后景的prototypes,对于什么时候融合mask有两种策略,一种是早融合,一种是晚融合:

  • 早:在送入网络提取器之前,把mask和support图片融合
  • 晚:分别把mask和提取出来的前/后景的特征融合在一起

作者选择晚输入,能保证两个特征提取器的输入一致性(query是没有mask的)

操作
给定support set S i = { ( I c , k , M c , k ) } S_i = \{ (I_{c,k},M_{c,k})\} Si={(Ic,k,Mc,k)},用 F c , k F_{c,k} Fc,k表示图片的输出特征图, c c c表示类别的index, k = 1 , . . . , K k=1,...,K k=1,...,K是support图片的index, c c c类别的prototype用下式计算:
p c = 1 K ∑ k ∑ x , y F c , k ( x , y ) L [ M c , k ( x , y ) = c ] ∑ x , y L [ M c , k ( x , y ) = c ] p_c = \frac{1}{K}\sum_k\frac{\sum_{x,y}F^{(x,y)}_{c,k}L[M^{(x,y)}_{c,k}=c]}{\sum_{x,y}L[M^{(x,y)}_{c,k}=c]} pc=K1kx,yL[Mc,k(x,y)=c]x,yFc,k(x,y)<

这篇关于【语义分割】PANet Few-Shot Image Semantic Segmentation with Prototype Alignment 论文理解的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/532847

相关文章

认识、理解、分类——acm之搜索

普通搜索方法有两种:1、广度优先搜索;2、深度优先搜索; 更多搜索方法: 3、双向广度优先搜索; 4、启发式搜索(包括A*算法等); 搜索通常会用到的知识点:状态压缩(位压缩,利用hash思想压缩)。

AI hospital 论文Idea

一、Benchmarking Large Language Models on Communicative Medical Coaching: A Dataset and a Novel System论文地址含代码 大多数现有模型和工具主要迎合以患者为中心的服务。这项工作深入探讨了LLMs在提高医疗专业人员的沟通能力。目标是构建一个模拟实践环境,人类医生(即医学学习者)可以在其中与患者代理进行医学

【生成模型系列(初级)】嵌入(Embedding)方程——自然语言处理的数学灵魂【通俗理解】

【通俗理解】嵌入(Embedding)方程——自然语言处理的数学灵魂 关键词提炼 #嵌入方程 #自然语言处理 #词向量 #机器学习 #神经网络 #向量空间模型 #Siri #Google翻译 #AlexNet 第一节:嵌入方程的类比与核心概念【尽可能通俗】 嵌入方程可以被看作是自然语言处理中的“翻译机”,它将文本中的单词或短语转换成计算机能够理解的数学形式,即向量。 正如翻译机将一种语言

【C++高阶】C++类型转换全攻略:深入理解并高效应用

📝个人主页🌹:Eternity._ ⏩收录专栏⏪:C++ “ 登神长阶 ” 🤡往期回顾🤡:C++ 智能指针 🌹🌹期待您的关注 🌹🌹 ❀C++的类型转换 📒1. C语言中的类型转换📚2. C++强制类型转换⛰️static_cast🌞reinterpret_cast⭐const_cast🍁dynamic_cast 📜3. C++强制类型转换的原因📝

论文翻译:arxiv-2024 Benchmark Data Contamination of Large Language Models: A Survey

Benchmark Data Contamination of Large Language Models: A Survey https://arxiv.org/abs/2406.04244 大规模语言模型的基准数据污染:一项综述 文章目录 大规模语言模型的基准数据污染:一项综述摘要1 引言 摘要 大规模语言模型(LLMs),如GPT-4、Claude-3和Gemini的快

深入理解RxJava:响应式编程的现代方式

在当今的软件开发世界中,异步编程和事件驱动的架构变得越来越重要。RxJava,作为响应式编程(Reactive Programming)的一个流行库,为Java和Android开发者提供了一种强大的方式来处理异步任务和事件流。本文将深入探讨RxJava的核心概念、优势以及如何在实际项目中应用它。 文章目录 💯 什么是RxJava?💯 响应式编程的优势💯 RxJava的核心概念

如何通俗理解注意力机制?

1、注意力机制(Attention Mechanism)是机器学习和深度学习中一种模拟人类注意力的方法,用于提高模型在处理大量信息时的效率和效果。通俗地理解,它就像是在一堆信息中找到最重要的部分,把注意力集中在这些关键点上,从而更好地完成任务。以下是几个简单的比喻来帮助理解注意力机制: 2、寻找重点:想象一下,你在阅读一篇文章的时候,有些段落特别重要,你会特别注意这些段落,反复阅读,而对其他部分

论文阅读笔记: Segment Anything

文章目录 Segment Anything摘要引言任务模型数据引擎数据集负责任的人工智能 Segment Anything Model图像编码器提示编码器mask解码器解决歧义损失和训练 Segment Anything 论文地址: https://arxiv.org/abs/2304.02643 代码地址:https://github.com/facebookresear

深入理解数据库的 4NF:多值依赖与消除数据异常

在数据库设计中, "范式" 是一个常常被提到的重要概念。许多初学者在学习数据库设计时,经常听到第一范式(1NF)、第二范式(2NF)、第三范式(3NF)以及 BCNF(Boyce-Codd范式)。这些范式都旨在通过消除数据冗余和异常来优化数据库结构。然而,当我们谈到 4NF(第四范式)时,事情变得更加复杂。本文将带你深入了解 多值依赖 和 4NF,帮助你在数据库设计中消除更高级别的异常。 什么是

论文翻译:ICLR-2024 PROVING TEST SET CONTAMINATION IN BLACK BOX LANGUAGE MODELS

PROVING TEST SET CONTAMINATION IN BLACK BOX LANGUAGE MODELS https://openreview.net/forum?id=KS8mIvetg2 验证测试集污染在黑盒语言模型中 文章目录 验证测试集污染在黑盒语言模型中摘要1 引言 摘要 大型语言模型是在大量互联网数据上训练的,这引发了人们的担忧和猜测,即它们可能已