ProNet:Learning to propose object-specific Boxes for Cascaded Neural Networks

本文主要是介绍ProNet:Learning to propose object-specific Boxes for Cascaded Neural Networks,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

ProNet: Learning to propose object-specific Boxes for Cascaded Neural Networks


1.本篇的目的是在只给定图像级训练标注(image-level annotation)的情况下分类和定位目标(Classify and locate object);
2.论文采用的是完全卷积网络的结构来同时进行分类和定位。完全卷积网络是将标准的CNN的最后两层全连接层改成了卷积层,这样它可以接收任意大小的输入,然后输出一个score map,score map上的每个元素对应原图像上的一个矩形box(感受野),采样的步长(Sampling stride)和盒子的大小(box size)取决于FCN的网络结构。如果固定box的大小,则FCN面临的困难是对不同尺度目标的处理(dealing with multi-scale object)。
3.论文使用multi-stream和multi-scale结构来处理不同尺度目标的问题,multi-stream是多输入流,所有的输入流共享参数,但输入是不同尺度大小的图像。multi-scale FCN是采用图像级的标注进行训练的,而不是目标的标注(object-level),如何训练的还不太清楚。但从另一个角度来看也是先提出一些可能包含目标的promising box,然后通过一个级联的结构进行对promissing boxes进行验证筛选,这样的一个propose,然后zoom(放大)验证的pipeling称为ProNet。
4.ProNet的框架图:


ProNet有两个基本组成单元:Object-specific box proposal unit和verification unit
4.1 Proposal的生成
(1)我们框架的第一步是要生成object-specific的proposal,即对于一个输入图像I,和目标类别c,希望学习到一个proposal分值函数(proposal score function):
  
其中表示一个矩形图像区域的左上角和右下角的位置坐标。
(2)论文使用完全卷积网络FCN,对于一个3通道的W*H的图像,输出的特征图,C是类别数,特征图中的每一个元素表示原图的一个图像区域对某一特定类别的激活(activation response);
(3)用多输入流FCN来处理尺度问题(Scale adaption with multi-stream FCNs):FCN的一个问题是卷积核和感受野的大小通常是固定的,但图像中物体的尺度可能是变化的,论文中采用多输入流来处理尺度问题。将FCN扩展成多个输入流,每个输入流共享参数和预训练模型。给定一个输入输入图像I,先对I进行尺度变换,生成I的多个尺度图像,每个流的输出特征图对应原图像的一个尺度,如下图所示:


      LSE pooling:(log-sum-exp)
      
其中C是类别数,K是FCN的输入流数,M是所有这样元素的总和,r是超参数。
LSE pooling可以作为一个层来实现,连接在K-streams FCN的最后一层的后面,经过LSE pooling层后,每幅图像得到一个C维的向量(C*1*1)。
(4)计算proposal的分值(Computing the proposal scores):FCNs训练好后,就可以从特征图计算机proposal的分值了。具体地从单个FCN的最后一层开始,最后一层特征图上的每个神经元,它的感受野作为位置1(Location1),这个神经元的激活值就是这个proposal的分值。假设卷积层的采样步长为,最大池化层的核大小为,则总体采样步长D为:
   
其中C表示所有的卷积层,M表示所有的最大池化层。
5.ProNet结构:


6.看完后自己存在疑惑的地方:这个Multi-Stream FCN如何训练的,Verification CNN如何训练的?

这篇关于ProNet:Learning to propose object-specific Boxes for Cascaded Neural Networks的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/827811

相关文章

深入探讨Java 中的 Object 类详解(一切类的根基)

《深入探讨Java中的Object类详解(一切类的根基)》本文详细介绍了Java中的Object类,作为所有类的根类,其重要性不言而喻,文章涵盖了Object类的主要方法,如toString()... 目录1. Object 类的基本概念1.1 Object 类的定义2. Object 类的主要方法3. O

【Python报错已解决】AttributeError: ‘list‘ object has no attribute ‘text‘

🎬 鸽芷咕:个人主页  🔥 个人专栏: 《C++干货基地》《粉丝福利》 ⛺️生活的理想,就是为了理想的生活! 文章目录 前言一、问题描述1.1 报错示例1.2 报错分析1.3 解决思路 二、解决方法2.1 方法一:检查属性名2.2 步骤二:访问列表元素的属性 三、其他解决方法四、总结 前言 在Python编程中,属性错误(At

MonoHuman: Animatable Human Neural Field from Monocular Video 翻译

MonoHuman:来自单目视频的可动画人类神经场 摘要。利用自由视图控制来动画化虚拟化身对于诸如虚拟现实和数字娱乐之类的各种应用来说是至关重要的。已有的研究试图利用神经辐射场(NeRF)的表征能力从单目视频中重建人体。最近的工作提出将变形网络移植到NeRF中,以进一步模拟人类神经场的动力学,从而动画化逼真的人类运动。然而,这种流水线要么依赖于姿态相关的表示,要么由于帧无关的优化而缺乏运动一致性

简单的Q-learning|小明的一维世界(3)

简单的Q-learning|小明的一维世界(1) 简单的Q-learning|小明的一维世界(2) 一维的加速度世界 这个世界,小明只能控制自己的加速度,并且只能对加速度进行如下三种操作:增加1、减少1、或者不变。所以行动空间为: { u 1 = − 1 , u 2 = 0 , u 3 = 1 } \{u_1=-1, u_2=0, u_3=1\} {u1​=−1,u2​=0,u3​=1}

简单的Q-learning|小明的一维世界(2)

上篇介绍了小明的一维世界模型 、Q-learning的状态空间、行动空间、奖励函数、Q-table、Q table更新公式、以及从Q值导出策略的公式等。最后给出最简单的一维位置世界的Q-learning例子,从给出其状态空间、行动空间、以及稠密与稀疏两种奖励函数的设置方式。下面将继续深入,GO! 一维的速度世界 这个世界,小明只能控制自己的速度,并且只能对速度进行如下三种操作:增加1、减

error while loading shared libraries: libnuma.so.1: cannot open shared object file:

腾讯云CentOS,安装Mysql时: 1.yum remove libnuma.so.1 2.yum install numactl.x86_64

java基础总结12-面向对象8(Object类)

1 Object类介绍 Object类在JAVA里面是一个比较特殊的类,JAVA只支持单继承,子类只能从一个父类来继承,如果父类又是从另外一个父类继承过来,那他也只能有一个父类,父类再有父类,那也只能有一个,JAVA为了组织这个类组织得比较方便,它提供了一个最根上的类,相当于所有的类都是从这个类继承,这个类就叫Object。所以Object类是所有JAVA类的根基类,是所有JAVA类的老祖宗

A Comprehensive Survey on Graph Neural Networks笔记

一、摘要-Abstract 1、传统的深度学习模型主要处理欧几里得数据(如图像、文本),而图神经网络的出现和发展是为了有效处理和学习非欧几里得域(即图结构数据)的信息。 2、将GNN划分为四类:recurrent GNNs(RecGNN), convolutional GNNs,(GCN), graph autoencoders(GAE), and spatial–temporal GNNs(S

王立平--Object-c

object-c通常写作objective-c或者obj-c,是根据C语言所衍生出来的语言,继承了C语言的特性,是扩充C的面向对象编程语言。它主要使用于MacOSX和GNUstep这两个使用OpenStep标准的系统,而在NeXTSTEP和OpenStep中它更是基本语言。Objective-C可以在gcc运作的系统写和编译,因为gcc含Objective-C的编译器。在MA

OpenSNN推文:神经网络(Neural Network)相关论文最新推荐(九月份)(一)

基于卷积神经网络的活动识别分析系统及应用 论文链接:oalib简介:  活动识别技术在智能家居、运动评估和社交等领域得到广泛应用。本文设计了一种基于卷积神经网络的活动识别分析与应用系统,通过分析基于Android搭建的前端采所集的三向加速度传感器数据,对用户的当前活动进行识别。实验表明活动识别准确率满足了应用需求。本文基于识别的活动进行卡路里消耗计算,根据用户具体的活动、时间以及体重计算出相应活