【论文解读】Count- and Similarity-aware R-CNN for Pedestrian Detection(基于计数和相似度感知的R-CNN用于行人检测)

本文主要是介绍【论文解读】Count- and Similarity-aware R-CNN for Pedestrian Detection(基于计数和相似度感知的R-CNN用于行人检测),希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

论文题目:Count- and Similarity-aware R-CNN for Pedestrian Detection
论文出处:European Conference on Computer Vision(ECCV)2020
论文链接:文章下载
代码链接:代码

一、创新点

  • 提出了计数和相似性分支网络——count-and-similarity branch(CSB)
  • 提出了计数加权检测损失——count-weighted detection loss(CW-loss)
  • 提出了新的NMS算法——count and similarity-aware NMS(CAS-NMS)

二、基准网络

采用Faster R-CNN作为基础框架,其工作原理为:

  • 第一阶段:使用区域建议网络(region proposal network,RPN)来产生建议框和置信度得分;
  • 第二阶段:也称为Fast R-CNN,从每个建议框中提取感兴趣区域(region of interest,RoI)特征,然后是一个检测分支,生成类别置信度得分和每个建议框的回归坐标。

在RPN和Fast R-CNN模块中,目标检测问题可以表述为分类损失和回归损失的联合最小化: L d e t = L r p n + L f r c L_{det} = L_{rpn} + L_{frc} Ldet=Lrpn+Lfrc
L c = 1 N c l s ∑ i L c l s ( p i , p i ∗ ) L_{c} = \frac 1{N_{cls}}\sum_iL_{cls}(p_i,p_i^*) Lc=Ncls1iLcls(pi,pi)
L r = λ 1 N r e g ∑ i L r e g ( l i , l i ∗ ) L_{r} = \lambda \frac 1{N_{reg}}\sum_iL_{reg}(l_i,l_i^*) Lr=λNreg1iLreg(li,li)
p i p_i pi表示建议框i为行人的预测概率, p i ∗ p_i^* pi是对应的真实标签; l i l_i li是建议框i的预测位置, l i ∗ l_i^* li是对应的真实位置。 λ \lambda λ是平衡参数。

三、新框架

3.1 动机

以前的遮挡检测算法都是利用行人的全身标注或者额外的可见区域表标注进行训练。
本文提出的框架不依赖于额外的可见区域监督,而是利用RoI内的行人计数信息,这些信息可以通过全身标注获得

3.2 框架分析

在这里插入图片描述

整个网络框架包括一个检测分支,一个计数分支和一个相似度分支。

  • 检测分支
    检测分支用来预测行人的概率 p i p_i pi及其位置 l i l_i li

  • 计数分支
    计数分支在Faster R-CNN的RPN和Fast R-CNN模块中对损失进行加权,用来生成计数加权检测损失

  • 相似度分支
    相似度分支用来计算重叠行人之间的相似性

    检测分支

    • 计数加权检测损失
      为了解决拥挤遮挡情况下,行人之间会高度重叠影响检测效果。在分类损失和回归损失中,引入了与建议框对应的真实标签成比例的权重 w i w_i wi,旨在对高度重叠的行人上发生的检测错误赋予更高的权重。计数加权损失函数 L d e t ′ L_{det}^{'} Ldet为:
      L c ′ = 1 N c l s ∑ i w i L c l s ( p i , p i ∗ ) L_c^{'} = \frac 1{N_{cls}}\sum_iw_iL_{cls}(p_i,p_i^*) Lc=Ncls1iwiLcls(pi,pi)
      L r ′ = λ 1 N r e g ∑ i w i L r e g ( l i , l i ∗ ) L_r^{'} = \lambda \frac 1{N_{reg}}\sum_iw_iL_{reg}(l_i,l_i^*) Lr=λNreg1iwiLreg(li,li)
      w i w_i wi是一个损失权重,其将更高的权重分配给大量真实边界框重叠的建议框。每个建议框
      b i b_i bi的权重可以从真实标签的数量 c I ∗ c_I^* cI中获得:
      w i = 1 + α ⋅ m a x ( c i ∗ − 1 , 0 ) w_i = 1 + \alpha · max(c_i^*-1,0) wi=1+αmax(ci1,0)
    • 建议框的计数
      一个建议框 b i b_i bi的真实标签数量 c i ∗ c_i^* ci取决于全身边界框的重叠数量。
      首先,计算 b i b_i bi与其重叠的所有真实边界框之间的交并比(IoU);
      然后, c i ∗ c_i^* ci被定义为: I o U ≥ t h ( 设 定 的 阈 值 ) IoU≥th(设定的阈值) IoUth()的真实边界框的数量。

    计数和相似度分支

    • 计数和相似度的结合使用
      • 在存在人群遮挡的情况下,会生成很多高度重叠的建议框并有较高的检测分数,当使用固定的阈值来进行NMS时,会导致错误抑制。在这种情况下,可以使用RoI的计数预测来获得重叠行人的数量并以此来调整阈值,从而降低错误抑制的出现。
      • 但是,在遮挡情况下,计数对于识别不同的建议框可能不是最优的,因为拥有较高置信度的几个建议框可能属于同一个行人实例。因此,理想的结果是能够识别出不同行人的不建议。
      • 利用相似性嵌入将RoI特征映射到低维表示中,获取重叠行人之间的不同表示
    • 建议框计数
      建议框 b i b_i bi的行人计数网络由三层全连接层组成,其中最后一层输出计数 c i c_i ci,其损失函数定义为:
      L c p = 1 N c p ∑ i = 1 N c p ∥ c i − c i ∗ ∥ 2 2 L_{cp} = \frac 1{N_{cp}}\sum_{i=1}^{N_{cp}}\lVert c_i-c_i^*\rVert_2^2 Lcp=Ncp1i=1Ncpcici22
      N c p N_{cp} Ncp表示建议框, c i c_i ci c i ∗ c_i^* ci分别表示预测的计数以及真实的计数。
    • 建议框相似度
      为了解决预测的计数来识别不同的建议框是次优的,引入了一种相似性嵌入分支,该分支将建议框 b i b_i bi的RoI特征映射到低维特征 F i F_i Fi中,相似性嵌入网络也是由三层全连接组成,最后一层输出嵌入特征 F i F_i Fi
      对于给定的建议框 b i b_i bi,首先选择 I o U ≥ t h IoU≥th IoUth的重叠建议框。 b j b_j bj是其中一个真实标签计数 c i ∗ ≥ 1 c_i^*≥1 ci1的重叠建议框,其嵌入特征为 F j F_j Fj。使用至少有一个真实标签计数的建议框训练相似性嵌入子网络,其损失函数为:
      L s e = ∑ i j ( y i j d i j 2 + ( 1 − y i j ) m a x ( ω − d i j , 0 ) 2 ) N s e L_{se} = \frac {\sum_{ij}(y_{ij}d_{ij}^2+(1-y_{ij})max(\omega-d_{ij},0)^2)}{N_{se}} Lse=Nseij(yijdij2+(1yij)max(ωdij,0)2)
      d i j = ∥ F i − F j ∥ 2 d_{ij} = \lVert F_i-F_j \rVert ^2 dij=FiFj2表示嵌入特征 F i F_i Fi F j F_j Fj之间的距离;
      y i j y_{ij} yij表示真实标签相似度,同一个真实边界框的建议框被标记为相似,即 y i j = 1 y_{ij}=1 yij=1
      N s e N_{se} Nse是训练相似度嵌入损失时使用的建议框数量。

    后处理机制

    遮挡情况下,由于建议框之间严重重叠,传统的NMS算法会导致正确的预测框丢失。为了解决这个问题,引入了通过计数和相似度感知进行后处理的NMS算法,称为CAS-NMS,它考虑了建议框之间的计数和相似度:

    • 首先,根据预测框的置信度分数进行排序;
    • 选择置信度分数最高的预测框 b H b_H bH
    • 假设 b j b_j bj是与 b H b_H bH I o U ≥ t h IoU≥th IoUth的一个预测框,其与 b H b_H bH对应一个不同行人的情况需要满足:(1) b H b_H bH中有多个行人;(2) b j b_j bj中至少有一个行人;(3) b j b_j bj b H b_H bH不相似,即距离较远;
    • CAS-NMS利用 b H b_H bH b j b_j bj的预测计数和相似度嵌入,将 b j b_j bj归类为一个重复建议框,当不满足上面的三种情况,则 b j b_j bj将被抑制。
    • 注意:由于相似度 d j H d_{jH} djH仅在第三个条件中被使用,因此只有满足前两个条件的预测框需要进行相似度计算。

四、实验验证

4.1 CityPersons数据集

  • 检测算法的比较
    在这里插入图片描述
    在这里插入图片描述
  • 消融实验
    在这里插入图片描述
  • 损失函数比较
    在这里插入图片描述
  • NMS比较
    在这里插入图片描述

4.2 CrowdHuman数据集(目标检测)&OCHuman数据集(实例分割)

在这里插入图片描述

五、总结

  • 在两阶段行人检测框架基础上增加了两个并行子网络,用来获取行人计数和建议框相似性。其中,行人计数和提议相似性信息都来自于训练行人检测器的标准全身标注。
  • 引入一个计数加权的检测损失函数,对高重叠情况下的检测错误赋予更高的权值。
  • 引入了一个计数和相似度感知的NMS策略来识别不同的建议。

注意:本博客的初衷是用做个人笔记并进行交流探讨,由于个人能力有限,若存在解读错误问题,或者您在阅读本文有不理解的地方,欢迎指正交流。

这篇关于【论文解读】Count- and Similarity-aware R-CNN for Pedestrian Detection(基于计数和相似度感知的R-CNN用于行人检测)的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/188754

相关文章

SpringBoot使用Apache Tika检测敏感信息

《SpringBoot使用ApacheTika检测敏感信息》ApacheTika是一个功能强大的内容分析工具,它能够从多种文件格式中提取文本、元数据以及其他结构化信息,下面我们来看看如何使用Ap... 目录Tika 主要特性1. 多格式支持2. 自动文件类型检测3. 文本和元数据提取4. 支持 OCR(光学

MySQL中时区参数time_zone解读

《MySQL中时区参数time_zone解读》MySQL时区参数time_zone用于控制系统函数和字段的DEFAULTCURRENT_TIMESTAMP属性,修改时区可能会影响timestamp类型... 目录前言1.时区参数影响2.如何设置3.字段类型选择总结前言mysql 时区参数 time_zon

MySQL中的锁和MVCC机制解读

《MySQL中的锁和MVCC机制解读》MySQL事务、锁和MVCC机制是确保数据库操作原子性、一致性和隔离性的关键,事务必须遵循ACID原则,锁的类型包括表级锁、行级锁和意向锁,MVCC通过非锁定读和... 目录mysql的锁和MVCC机制事务的概念与ACID特性锁的类型及其工作机制锁的粒度与性能影响多版本

Redis过期键删除策略解读

《Redis过期键删除策略解读》Redis通过惰性删除策略和定期删除策略来管理过期键,惰性删除策略在键被访问时检查是否过期并删除,节省CPU开销但可能导致过期键滞留,定期删除策略定期扫描并删除过期键,... 目录1.Redis使用两种不同的策略来删除过期键,分别是惰性删除策略和定期删除策略1.1惰性删除策略

Redis与缓存解读

《Redis与缓存解读》文章介绍了Redis作为缓存层的优势和缺点,并分析了六种缓存更新策略,包括超时剔除、先删缓存再更新数据库、旁路缓存、先更新数据库再删缓存、先更新数据库再更新缓存、读写穿透和异步... 目录缓存缓存优缺点缓存更新策略超时剔除先删缓存再更新数据库旁路缓存(先更新数据库,再删缓存)先更新数

C#反射编程之GetConstructor()方法解读

《C#反射编程之GetConstructor()方法解读》C#中Type类的GetConstructor()方法用于获取指定类型的构造函数,该方法有多个重载版本,可以根据不同的参数获取不同特性的构造函... 目录C# GetConstructor()方法有4个重载以GetConstructor(Type[]

基于Qt实现系统主题感知功能

《基于Qt实现系统主题感知功能》在现代桌面应用程序开发中,系统主题感知是一项重要的功能,它使得应用程序能够根据用户的系统主题设置(如深色模式或浅色模式)自动调整其外观,Qt作为一个跨平台的C++图形用... 目录【正文开始】一、使用效果二、系统主题感知助手类(SystemThemeHelper)三、实现细节

综合安防管理平台LntonAIServer视频监控汇聚抖动检测算法优势

LntonAIServer视频质量诊断功能中的抖动检测是一个专门针对视频稳定性进行分析的功能。抖动通常是指视频帧之间的不必要运动,这种运动可能是由于摄像机的移动、传输中的错误或编解码问题导致的。抖动检测对于确保视频内容的平滑性和观看体验至关重要。 优势 1. 提高图像质量 - 清晰度提升:减少抖动,提高图像的清晰度和细节表现力,使得监控画面更加真实可信。 - 细节增强:在低光条件下,抖

烟火目标检测数据集 7800张 烟火检测 带标注 voc yolo

一个包含7800张带标注图像的数据集,专门用于烟火目标检测,是一个非常有价值的资源,尤其对于那些致力于公共安全、事件管理和烟花表演监控等领域的人士而言。下面是对此数据集的一个详细介绍: 数据集名称:烟火目标检测数据集 数据集规模: 图片数量:7800张类别:主要包含烟火类目标,可能还包括其他相关类别,如烟火发射装置、背景等。格式:图像文件通常为JPEG或PNG格式;标注文件可能为X

AI hospital 论文Idea

一、Benchmarking Large Language Models on Communicative Medical Coaching: A Dataset and a Novel System论文地址含代码 大多数现有模型和工具主要迎合以患者为中心的服务。这项工作深入探讨了LLMs在提高医疗专业人员的沟通能力。目标是构建一个模拟实践环境,人类医生(即医学学习者)可以在其中与患者代理进行医学