ProNet:Learning to propose object-specific Boxes for Cascaded Neural Networks

本文主要是介绍ProNet:Learning to propose object-specific Boxes for Cascaded Neural Networks,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

ProNet: Learning to propose object-specific Boxes for Cascaded Neural Networks


1.本篇的目的是在只给定图像级训练标注(image-level annotation)的情况下分类和定位目标(Classify and locate object);
2.论文采用的是完全卷积网络的结构来同时进行分类和定位。完全卷积网络是将标准的CNN的最后两层全连接层改成了卷积层,这样它可以接收任意大小的输入,然后输出一个score map,score map上的每个元素对应原图像上的一个矩形box(感受野),采样的步长(Sampling stride)和盒子的大小(box size)取决于FCN的网络结构。如果固定box的大小,则FCN面临的困难是对不同尺度目标的处理(dealing with multi-scale object)。
3.论文使用multi-stream和multi-scale结构来处理不同尺度目标的问题,multi-stream是多输入流,所有的输入流共享参数,但输入是不同尺度大小的图像。multi-scale FCN是采用图像级的标注进行训练的,而不是目标的标注(object-level),如何训练的还不太清楚。但从另一个角度来看也是先提出一些可能包含目标的promising box,然后通过一个级联的结构进行对promissing boxes进行验证筛选,这样的一个propose,然后zoom(放大)验证的pipeling称为ProNet。
4.ProNet的框架图:


ProNet有两个基本组成单元:Object-specific box proposal unit和verification unit
4.1 Proposal的生成
(1)我们框架的第一步是要生成object-specific的proposal,即对于一个输入图像I,和目标类别c,希望学习到一个proposal分值函数(proposal score function):
  
其中表示一个矩形图像区域的左上角和右下角的位置坐标。
(2)论文使用完全卷积网络FCN,对于一个3通道的W*H的图像,输出的特征图,C是类别数,特征图中的每一个元素表示原图的一个图像区域对某一特定类别的激活(activation response);
(3)用多输入流FCN来处理尺度问题(Scale adaption with multi-stream FCNs):FCN的一个问题是卷积核和感受野的大小通常是固定的,但图像中物体的尺度可能是变化的,论文中采用多输入流来处理尺度问题。将FCN扩展成多个输入流,每个输入流共享参数和预训练模型。给定一个输入输入图像I,先对I进行尺度变换,生成I的多个尺度图像,每个流的输出特征图对应原图像的一个尺度,如下图所示:


      LSE pooling:(log-sum-exp)
      
其中C是类别数,K是FCN的输入流数,M是所有这样元素的总和,r是超参数。
LSE pooling可以作为一个层来实现,连接在K-streams FCN的最后一层的后面,经过LSE pooling层后,每幅图像得到一个C维的向量(C*1*1)。
(4)计算proposal的分值(Computing the proposal scores):FCNs训练好后,就可以从特征图计算机proposal的分值了。具体地从单个FCN的最后一层开始,最后一层特征图上的每个神经元,它的感受野作为位置1(Location1),这个神经元的激活值就是这个proposal的分值。假设卷积层的采样步长为,最大池化层的核大小为,则总体采样步长D为:
   
其中C表示所有的卷积层,M表示所有的最大池化层。
5.ProNet结构:


6.看完后自己存在疑惑的地方:这个Multi-Stream FCN如何训练的,Verification CNN如何训练的?

这篇关于ProNet:Learning to propose object-specific Boxes for Cascaded Neural Networks的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/827811

相关文章

Deep Learning复习笔记0

Key Concept: Embedding: learned dense, continuous, low-dimensional representations of object 【将难以表示的对象(如图片,文本等)用连续的低维度的方式表示】 RNN: Recurrent Neural Network -> for processing sequential data (time se

Python: create object

# encoding: utf-8# 版权所有 2024 涂聚文有限公司# 许可信息查看:# 描述:# Author : geovindu,Geovin Du 涂聚文.# IDE : PyCharm 2023.1 python 3.11# Datetime : 2024/6/15 18:59# User : geovindu# Product :

【进阶篇-Day5:JAVA常用API的使用(Math、BigDecimal、Object、包装类等)】

目录 1、API的概念2、Object类2.1 Object类的介绍2.2 Object的toString()方法2.3 Object的equals()方法2.4 Objects概述 3、Math类4、System类5、BigDecimal类6、包装类6.1 包装类的概念6.2 几种包装类(1)手动转换包装类:(2)自动转换包装类:(3)Integet常用方法:(4)练习: 1

玩转Web之Json(四)---json与(Object/List/Map)的相互转化

在做web应用时,经常需要将json转化成Object/list/map或者将Object/List/map转化成json,通过简单封装可以在写代码是减轻很多负担。本文将给出json转化的一系列方法。 闲话不 多说,直接上代码: 先是Object /List /Map转化为Json /* 功能 :将一个对象转成json数组* 参数 :object对象* retu

GIM: Learning Generalizable Image Matcher From Internet Videos

【引用格式】:Shen X, Yin W, Müller M, et al. GIM: Learning Generalizable Image Matcher From Internet Videos[C]//The Twelfth International Conference on Learning Representations. 2023. 【网址】:https://arxiv.or

Selenium使用Page Object实现页面自动测试

原文转自:https://blog.csdn.net/zhenyu5211314/article/details/13632083 Page Object模式是Selenium中的一种测试设计模式,主要是将每一个页面设计为一个Class,其中包含页面中需要测试的元素(按钮,输入框,标题等),这样在Selenium测试页面中可以通过调用页面类来获取页面元素,这样巧妙的避免了当页面元素id或者位置变

【专业英语 复习】第8章 Communications and Networks

1. 单选题   One of the most dramatic changes in connectivity and communications in the past few years has been ____. A. widespread use of mobile devices with wireless Internet connectivity   B. chat ro

论文《Tree Decomposed Graph Neural Network》笔记

【TDGNN】本文提出了一种树分解方法来解决不同层邻域之间的特征平滑问题,增加了网络层配置的灵活性。通过图扩散过程表征了多跳依赖性(multi-hop dependency),构建了TDGNN模型,该模型可以灵活地结合大感受场的信息,并利用多跳依赖性进行信息聚合。 本文发表在2021年CIKM会议上,作者学校:Vanderbilt University,引用量:59。 CIKM会议简介:全称C

tessy 单元测试 TDE 界面 数据无法填充:the test object interface is incomplete

目录 1,失败现象 2,失败原因 3,解决办法 1,失败现象         函数名字前的图标高度缩小为正常的一半,TDE界面的数据无法填充。错误提示为题目中的英文。 2,失败原因         TIE界面,此函数的参数的 passing 方向有 unknown,未正确识别。 3,解决办法         将 interface 栏的所有参数的 passing 和

5.How Fast Should You Be When Learning?(你应该用多快的速度学习? (一))

Normally when I talk about learing quickly, I’m using speed as a synonym for efficiency.Use more effective methods and you’ll learn more in less time.All else being equal, that means you’re learing fa