R-FCN: Object Detection via Region-based Fully Convolutional Networks论文阅读笔记

本文主要是介绍R-FCN: Object Detection via Region-based Fully Convolutional Networks论文阅读笔记,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

R-FCN: Object Detection via Region-based Fully Convolutional Networks论文阅读笔记
作者做此笔记仅为学习,如有侵权请联系作者删除博文,谢谢!
提出position-sensitive score maps(位置敏感分数图),以解决图像分类中的平移不变性与目标检测中的平移敏感性之间的困境。
为了将平移敏感性引入全卷积网络,作者在全卷积网络的输出位置添加一系列特定的卷积层用于生成position-sensitive的score map,每个score map保存目标的空间位置信息。然后再添加ROI Pooling层,该层后面不再跟卷积层或全连接层。这样整个网络不仅可以end-to-end训练,而且所有层的计算都是在整个图像上共享的。
在这里插入图片描述
图1中 k的平方 代表有k的平方个bin(也就是有多少个不同颜色的长方体),每个bin的通道是C+1(C是数据集的类别数),
在这里插入图片描述
通过区域提议网络(RPN)提取候选区域,其本身就是一个全卷积架构。之后,在RPN和R-FCN之间的共享特征。有了RoIs之后,R-FCN将RoIs分为目标类别或者背景。在R-FCN中所有可学习的参数在卷积层并在整个图像上计算。最后一个卷积层为每个类别产生一组KxK个position-sensitive score maps,因此具有k x k x(C+ 1)个通道的输出层,其中包含C个对象类别(背景为+1)。k x k个score maps对应于描述相对位置的k x k个空间网格。例如k=3时,这9个score maps对一个对象类别的 {top-left, top-center, top-right, …, bottom-right}进行编码。(利用RPN提取的RoI,其位置信息有(x,y,w,h),然后被划分为k x k个bins,每个bin对应score map上的一个区域。然后对这个区域进行pooling操作—也就是下面的这个分支(图2中灰色部分))
R-FCN以位置敏感( position-sensitive)的RoI池化层结束。该层聚合最后一个卷积层的输出,并为每个RoI生成分数。position-sensitive 的roi层进行选择性池化,并且k×k个组块中的每一个仅聚合k×k个score maps中一个score map的响应。通过端到端的训练,这个RoI层可以管理最后一个卷积层来学习专门的位置敏感分数图。
在这里插入图片描述
主干网络:ResNet-101中的最后一个卷积块是2048维,我们附加一个随机初始化的1024维的1×1卷积层来降维(准确地说,这增加了表1中的深度)。然后,我们应用k x k(C+1)通道卷积层来生成分数图。
Position-sensitive score maps & Position-sensitive RoI pooling.为了将位置信息显示的编码到每个RoI中,用规则网格将每个RoI矩形分成k×k个bin。对于大小为w×h的RoI矩形,组块的大小为≈w/k×h/k。在我们的方法中,最后的卷积层的目的是为每个类别产生k x k个score maps。在第(i,j)个组块(bin)(0≤i,j≤k−1)中,我们定义了一个位置敏感的RoI池化操作,它只在第(i,j)个score map中进行池化:
在这里插入图片描述
然后将k x k 个位置敏感的分数在RoI上vote(we simply vote by averaging the scores),为每一个RoI产生一个(C + 1)维的向量。然后,计算跨类别的softmax响应。用于评估训练时的交叉熵损失以及在推断期间的RoI的排名。
以类似的方式进一步解决边界框回归。除了上面的k2(C+1)维卷积层,在边界框回归上附加了一个4k x k维平行卷积层。在这组4k x k维映射上执行位置敏感的RoI池化,为每个RoI生成一个4k x k维的向量。然后通过平均voting聚合到4维向量中。这个4维向量将边界框参数化为t=(t_x,t_y,t_w,t_h),参见[6]中的参数化。为简单起见,执行类别不可知的边界框回归,但类别特定的对应部分(即,具有4k2C维输出层)是适用的。
总的网络:首先输入图像经过一个全卷积网络(比如ResNet),然后一方面在最后一个卷积层后面添加特殊的卷积层生成position-sensitive的score map,另一方面全卷积网络的某个卷积层(可能是最后一个卷积层)输出作为RPN网络的输入,RPN网络最后生成ROI。最后的POI Pooling层将前面的socre map和ROI作为输入,输出类别信息。另外回归部分和分类部分是并列的。

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

这篇关于R-FCN: Object Detection via Region-based Fully Convolutional Networks论文阅读笔记的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/727047

相关文章

Java中Object类的常用方法小结

《Java中Object类的常用方法小结》JavaObject类是所有类的父类,位于java.lang包中,本文为大家整理了一些Object类的常用方法,感兴趣的小伙伴可以跟随小编一起学习一下... 目录1. public boolean equals(Object obj)2. public int ha

深入探讨Java 中的 Object 类详解(一切类的根基)

《深入探讨Java中的Object类详解(一切类的根基)》本文详细介绍了Java中的Object类,作为所有类的根类,其重要性不言而喻,文章涵盖了Object类的主要方法,如toString()... 目录1. Object 类的基本概念1.1 Object 类的定义2. Object 类的主要方法3. O

JAVA智听未来一站式有声阅读平台听书系统小程序源码

智听未来,一站式有声阅读平台听书系统 🌟 开篇:遇见未来,从“智听”开始 在这个快节奏的时代,你是否渴望在忙碌的间隙,找到一片属于自己的宁静角落?是否梦想着能随时随地,沉浸在知识的海洋,或是故事的奇幻世界里?今天,就让我带你一起探索“智听未来”——这一站式有声阅读平台听书系统,它正悄悄改变着我们的阅读方式,让未来触手可及! 📚 第一站:海量资源,应有尽有 走进“智听

Retrieval-based-Voice-Conversion-WebUI模型构建指南

一、模型介绍 Retrieval-based-Voice-Conversion-WebUI(简称 RVC)模型是一个基于 VITS(Variational Inference with adversarial learning for end-to-end Text-to-Speech)的简单易用的语音转换框架。 具有以下特点 简单易用:RVC 模型通过简单易用的网页界面,使得用户无需深入了

AI hospital 论文Idea

一、Benchmarking Large Language Models on Communicative Medical Coaching: A Dataset and a Novel System论文地址含代码 大多数现有模型和工具主要迎合以患者为中心的服务。这项工作深入探讨了LLMs在提高医疗专业人员的沟通能力。目标是构建一个模拟实践环境,人类医生(即医学学习者)可以在其中与患者代理进行医学

【学习笔记】 陈强-机器学习-Python-Ch15 人工神经网络(1)sklearn

系列文章目录 监督学习:参数方法 【学习笔记】 陈强-机器学习-Python-Ch4 线性回归 【学习笔记】 陈强-机器学习-Python-Ch5 逻辑回归 【课后题练习】 陈强-机器学习-Python-Ch5 逻辑回归(SAheart.csv) 【学习笔记】 陈强-机器学习-Python-Ch6 多项逻辑回归 【学习笔记 及 课后题练习】 陈强-机器学习-Python-Ch7 判别分析 【学

系统架构师考试学习笔记第三篇——架构设计高级知识(20)通信系统架构设计理论与实践

本章知识考点:         第20课时主要学习通信系统架构设计的理论和工作中的实践。根据新版考试大纲,本课时知识点会涉及案例分析题(25分),而在历年考试中,案例题对该部分内容的考查并不多,虽在综合知识选择题目中经常考查,但分值也不高。本课时内容侧重于对知识点的记忆和理解,按照以往的出题规律,通信系统架构设计基础知识点多来源于教材内的基础网络设备、网络架构和教材外最新时事热点技术。本课时知识

论文翻译:arxiv-2024 Benchmark Data Contamination of Large Language Models: A Survey

Benchmark Data Contamination of Large Language Models: A Survey https://arxiv.org/abs/2406.04244 大规模语言模型的基准数据污染:一项综述 文章目录 大规模语言模型的基准数据污染:一项综述摘要1 引言 摘要 大规模语言模型(LLMs),如GPT-4、Claude-3和Gemini的快

论文阅读笔记: Segment Anything

文章目录 Segment Anything摘要引言任务模型数据引擎数据集负责任的人工智能 Segment Anything Model图像编码器提示编码器mask解码器解决歧义损失和训练 Segment Anything 论文地址: https://arxiv.org/abs/2304.02643 代码地址:https://github.com/facebookresear

数学建模笔记—— 非线性规划

数学建模笔记—— 非线性规划 非线性规划1. 模型原理1.1 非线性规划的标准型1.2 非线性规划求解的Matlab函数 2. 典型例题3. matlab代码求解3.1 例1 一个简单示例3.2 例2 选址问题1. 第一问 线性规划2. 第二问 非线性规划 非线性规划 非线性规划是一种求解目标函数或约束条件中有一个或几个非线性函数的最优化问题的方法。运筹学的一个重要分支。2