《Learning To Count Everything》CVPR2021

2024-09-06 02:04

本文主要是介绍《Learning To Count Everything》CVPR2021,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

摘要

论文提出了一种新的方法来解决视觉计数问题,即在给定类别中仅有少量标注实例的情况下,对任何类别的对象进行计数。将计数问题视为一个少样本回归任务,并提出了一种新颖的方法,该方法通过查询图像和查询图像中的少量示例对象来预测图像中所有感兴趣对象的存在密度图。此外,还提出了一种新颖的适应策略,使网络能够在测试时仅使用新类别中的少量示例对象来适应任何新的视觉类别。为了支持这一任务,作者还引入了一个包含147个对象类别、超过6000张图像的数据集,并在该数据集上进行了实验,证明了他们的方法优于现有的一些最先进的对象检测器和少样本计数方法。

概述

拟解决的问题:现有的视觉计数研究主要集中在单一特定类别上,如人、动物和细胞。而本文的目标是能够对任何类别的对象进行计数,即使只有该类别的少量标注实例。这包括处理大规模视觉类别的计数系统设计难题,以及缺乏足够大的、包含多个视觉类别的无约束计数数据集的问题。

创新之处

  1. 问题重新定义:将计数问题重新定义为少样本回归任务。
  2. FamNet架构:提出了一个名为Few Shot Adaptation and Matching Network (FamNet)的新架构,用于处理少样本计数任务。
  3. 少样本适应策略:开发了一种新颖的少样本适应方案,在测试时使用梯度下降更新来适应新类别。
  4. FSC-147数据集:引入了一个包含147个视觉类别、超过6000张图像的中等规模数据集,适合少样本计数任务。

方法

FamNet包括两个关键组件:

  1. 特征提取模块:使用预训练的网络来处理大量视觉类别。
  2. 密度预测模块:设计为与视觉类别无关,通过相关性图作为输入来预测密度图。

训练时,使用带有边界框和点注释的训练图像,通过最小化预测密度图和真实密度图之间的均方误差来进行。测试时,使用提出的少样本适应方案来进一步提高计数精度。

2.1 方法部分

特征提取:多尺度特征提取模块由预训练的 ResNet-50 主干的前四个块组成(这些块的参数在训练期间被冻结)。我们通过第三个和第四个块的卷积特征图来表示图像。我们还通过对来自第三个和第四个Resnet-50块的卷积特征映射执行ROI池来获得样本的多尺度特征。

密度预测:为了使密度预测模块与视觉类别无关,不使用直接从特征提取模块获得的特征进行密度预测。相反,我们只使用样本特征和图像特征之间的相关性图作为密度预测模块的输入。为了解决不同尺度的感兴趣的对象,我们将样本特征缩放到不同的尺度,并将缩放的样本特征与图像特征相关联,以获得多个相关图,每个尺度一个。对于我们所有的实验,我们使用 0.9 和 1.1 的尺度以及原始尺度。相关图被连接起来并输入到密度预测模块中。密度预测模块由五个卷积块和三个上采样层组成,放置在第一个、第二个和第三个卷积层之后。最后一层是一个 1×1 卷积层,用于预测 2D 密度图。预测密度图的大小与输入图像的大小相同。

2.2 适应策略

在少样本学习场景中,模型需要能够快速适应新的视觉类别,即使这些类别在训练阶段未曾见过。适应策略的目的是利用测试时提供的少量示例对象,通过快速的梯度下降过程调整模型参数,以提高对新类别的计数精度。

Min-Count Loss:这个损失函数确保每个示例对象的边界框内的预测密度值之和至少为1。这是基于每个边界框至少包含一个对象的假设。

  • 其中 B 是所有示例对象的边界框集合,Z_{b}​ 是在边界框 b 内从预测密度图中裁剪出的部分,\left \| Z_{b} \right \|_{1} 是 Z_{b}​ 中所有值的总和。

Perturbation Loss:这个损失函数受到基于相关滤波的跟踪算法的启发,旨在使预测密度图在示例对象位置附近的值呈高斯分布,从而更好地模拟对象的存在。

  • 其中 G_{h\times w}​ 是一个高斯窗口,大小为 h×w,模拟理想中的密度分布。

联合适应损失(Adaptation Loss):这是Min-Count Loss和Perturbation Loss的加权组合,用于测试时的参数更新。

适应过程

  • 在测试阶段,对于每张测试图像,使用提供的少量示例对象的边界框,计算上述适应损失。
  • 通过梯度下降法更新FamNet的密度预测模块的参数。这个过程通常涉及少量(如100步)的迭代更新,使用一个较小的学习率。
  • 这种适应过程仅在测试时进行,不涉及训练数据,目的是在面对新类别时快速调整模型以提高计数精度。

这篇关于《Learning To Count Everything》CVPR2021的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1140689

相关文章

简单的Q-learning|小明的一维世界(3)

简单的Q-learning|小明的一维世界(1) 简单的Q-learning|小明的一维世界(2) 一维的加速度世界 这个世界,小明只能控制自己的加速度,并且只能对加速度进行如下三种操作:增加1、减少1、或者不变。所以行动空间为: { u 1 = − 1 , u 2 = 0 , u 3 = 1 } \{u_1=-1, u_2=0, u_3=1\} {u1​=−1,u2​=0,u3​=1}

简单的Q-learning|小明的一维世界(2)

上篇介绍了小明的一维世界模型 、Q-learning的状态空间、行动空间、奖励函数、Q-table、Q table更新公式、以及从Q值导出策略的公式等。最后给出最简单的一维位置世界的Q-learning例子,从给出其状态空间、行动空间、以及稠密与稀疏两种奖励函数的设置方式。下面将继续深入,GO! 一维的速度世界 这个世界,小明只能控制自己的速度,并且只能对速度进行如下三种操作:增加1、减

leetcode#38. Count and Say

The count-and-say sequence is the sequence of integers with the first five terms as following: 1. 12. 113. 214. 12115. 111221 1 is read off as “one 1” or 11. 11 is read off

【git】Your branch is up-to-date 和 Everything up-to-date

1、git commit 之后,出现 On branch masterYour branch is up-to-date with 'github/master'.nothing to commit, working tree clean 继续 git push之后,出现 Everything up-to-date 2、网上大部分解决办法,都是分支问题,比如 http://blo

Learning Memory-guided Normality for Anomaly Detection——学习记忆引导的常态异常检测

又是一篇在自编码器框架中研究使用记忆模块的论文,可以看做19年的iccv的论文的衍生,在我的博客中对19年iccv这篇论文也做了简单介绍。韩国人写的,应该是吧,这名字听起来就像。 摘要abstract 我们解决异常检测的问题,即检测视频序列中的异常事件。基于卷积神经网络的异常检测方法通常利用代理任务(如重建输入视频帧)来学习描述正常情况的模型,而在训练时看不到异常样本,并在测试时使用重建误

Learning Temporal Regularity in Video Sequences——视频序列的时间规则性学习

Learning Temporal Regularity in Video Sequences CVPR2016 无监督视频异常事件检测早期工作 摘要 由于对“有意义”的定义不明确以及场景混乱,因此在较长的视频序列中感知有意义的活动是一个具有挑战性的问题。我们通过在非常有限的监督下使用多种来源学习常规运动模式的生成模型(称为规律性)来解决此问题。体来说,我们提出了两种基于自动编码器的方法,以

COD论文笔记 Adaptive Guidance Learning for Camouflaged Object Detection

论文的主要动机、现有方法的不足、拟解决的问题、主要贡献和创新点如下: 动机: 论文的核心动机是解决伪装目标检测(COD)中的挑战性任务。伪装目标检测旨在识别和分割那些在视觉上与周围环境高度相似的目标,这对于计算机视觉来说是非常困难的任务。尽管深度学习方法在该领域取得了一定进展,但现有方法仍面临有效分离目标和背景的难题,尤其是在伪装目标与背景特征高度相似的情况下。 现有方法的不足之处: 过于

One-Shot Imitation Learning

发表时间:NIPS2017 论文链接:https://readpaper.com/pdf-annotate/note?pdfId=4557560538297540609&noteId=2424799047081637376 作者单位:Berkeley AI Research Lab, Work done while at OpenAI Yan Duan†§ , Marcin Andrychow

Introduction to Deep Learning with PyTorch

1、Introduction to PyTorch, a Deep Learning Library 1.1、Importing PyTorch and related packages import torch# supports:## image data with torchvision## audio data with torchaudio## text data with t

One-Shot Imitation Learning with Invariance Matching for Robotic Manipulation

发表时间:5 Jun 2024 论文链接:https://readpaper.com/pdf-annotate/note?pdfId=2408639872513958656&noteId=2408640378699078912 作者单位:Rutgers University Motivation:学习一个通用的policy,可以执行一组不同的操作任务,是机器人技术中一个有前途的新方向。然而,