Light-Head R-CNN解读

2024-08-24 18:08
文章标签 解读 cnn head light

本文主要是介绍Light-Head R-CNN解读,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

最近对检测很有兴趣哎,这些天写了好几个相关博客了,下一步准备写SSD和YOLO了,近段时间要把检测吃透

Light-Head R-CNN: In Defense of Two-Stage Object Detector,名字很有趣,守护two stage检测器的尊严。

Motivation

region-free的方法如YOLO,SSD,速度是很快,但是总体来说精度上还是不如两段的region-based系列的Faster rcnn(及加速版R-FCN),那我们想要精度最高速度最快,就有两个做法了,提升region-free系列的精度(这个等我再二刷SSD后再想想有木有什么思路),另一个就是提升region-based系列的速度了,本文就是后者。

首先Faster rcnn为什么还是很慢,在我上一篇博客R-FCN解读中已经提过,它的第二阶段每个proposal是不共享计算的,fc大量的参数和计算严重拖了速度(其实faster rcnn+res101已经做了努力,在res5c有个global pool到2014*1*1,不然第二阶段第一个fc参数参数更多。kaiming论文是C5作为fc6 fc7的,C5后面也依然有global pool,最后分类肯定要有一个全连接的,global pool之后参数也少很多(2048*1*1*C,不然就是2048*7*7*C))。而R-FCN就在着力于解决这个第二阶段的问题,通过生成一个k^2(C+1) channel的score map和PSRoIpooling可以去掉第二阶段的隐层fc,加速了很多。

但是R-FCN生成的score map是和C相关的,在MSCOCO上有81类需要生成7*7*81=3969个channel的score map,这个是耗时耗内存的。所以本文想生成一个thin 的feature map,这样可以显著加速还可以腾出“时间”在后面的rcnn部分做点文章提升精度。

Approach

在Resnet101 res5c后利用大的可分离卷积,生成(α * p * p)channel的feature map,α本文取10,p和其他框架一致取7,这个最终只有10*7*7=490,而且与类别数C无关,大大减少了计算量,第二阶段的rcnn 子网络,本文为了提升精度,相比R-FCN多了一个隐层fc,这是thin feature map为它省来的计算空间,所以速度依然很快。

这里写图片描述

Basic feature extractor.

两种设置,一种是ResNet101,设为L,一种是自己设计的简单的Xception网络,设为S

thin feature map

参考论文Large Kernel Matters – Improve Semantic Segmentation by Global Convolutional Network
本文设置k=15, Cmid = 64 for setting S,and Cmid = 256 for setting L

这里写图片描述

Ablation experiment

thin feature map

首先说明直接把feature map变为thin feature map有什么影响啊?
做法就是直接把R-FCN得到的feature map用1*1的卷积降维到490,然后由于channel减少和类别树无关了,不能像R-FCN直接vote了(R-FCN vote后得到(C+1)*1*1,然后可以直接softmax,而本文vote的话得到10*1*1,不能直接softmax,所以加个10*1*1*C的全连接分类,加个10*1*1*4*C的全连接回归,图中那个fc应该是cls和loc都有的)。B1是直接复现的R-FCN,B2是改了点配置(1, 图片尺度和anchor scale增多 2, 回归的loss比重扩大1倍 3, 只选前256个loss大的样本进行反向传播)
从表中可以看到,channel变少了那么多后,精度并没有损失太多,把PSRoIpooing换成roipooling情况是一样的,甚至有些提升(因为PSRoIpooing后channel变成10channel了,而RoIPooling后channel还是490,参数多了些精度有些许提升)。而且这地方channel变少后集成FPN很方便,因为fpn会在很多level的feature上通过3*3卷积生成这个(C+1)*k*k channel的feature map,十分耗内存和计算,详见我的另一篇博客FPN解读
这里写图片描述
这里写图片描述

large separable convolution

把粗暴的1*1降维换成Large separable convolution,k=15, Cmid = 256,其他和R-FCN一样

这里写图片描述

R-CNN subnet

我们在R-CNN subnet中多加了一个2048channel的隐层fc(无dropout,注意区别于前面的实验是直接加个10*1*1*C的全连接分类(对应表格第3行的数据),这里要有个10*1*1*2048的隐层fc,然后再有个2048*C的全连接分类,loc类似),这个隐层fc是2048和1024 channel都差不多,参数变化很少,精度速度影响也不大。
从表上看到最终提升了2个点左右,而且注意由于用了thin feature map,速度是比它们快的。
这里写图片描述

High Accuracy and High Speed

本文把PSRoIpooling改成和RoIalign那样的插值,然后加上和其他model的同样配置和数据增强,精度是可以达到state-of-art的

这里写图片描述

然后速度方面,把base model换成自己设计的”S”,速度也是可以秒掉SSD、YOLO等region-free以追求速度为主的model,同时精度和它们相当

这里写图片描述

这里写图片描述

下一步是不是要精度达到region-based,速度达到region-free呢,期待中(实力暂时不够,只能期待了)

部分代码

# light head
# large kernel
conv_new_1 = mx.sym.Convolution(data=relu1, kernel=(15, 1), pad=(7, 0), num_filter=256, name="conv_new_1", lr_mult=3.0)
relu_new_1 = mx.sym.Activation(data=conv_new_1, act_type='relu', name='relu1')
conv_new_2 = mx.sym.Convolution(data=relu_new_1, kernel=(1, 15), pad=(0, 7), num_filter=10*7*7, name="conv_new_2", lr_mult=3.0)
relu_new_2 = mx.sym.Activation(data=conv_new_2, act_type='relu', name='relu2')
conv_new_3 = mx.sym.Convolution(data=relu1, kernel=(1, 15), pad=(0, 7), num_filter=256, name="conv_new_3", lr_mult=3.0)
relu_new_3 = mx.sym.Activation(data=conv_new_3, act_type='relu', name='relu3')
conv_new_4 = mx.sym.Convolution(data=relu_new_3, kernel=(15, 1), pad=(7, 0), num_filter=10*7*7, name="conv_new_4", lr_mult=3.0)
relu_new_4 = mx.sym.Activation(data=conv_new_4, act_type='relu', name='relu4')
light_head = mx.symbol.broadcast_add(name='light_head', *[relu_new_2, relu_new_4])
# PSROIPooling
roi_pool = mx.contrib.sym.PSROIPooling(name='roi_pool', data=light_head, rois=rois, group_size=7, pooled_size=7, output_dim=10, spatial_scale=0.0625)
# 隐层fc
fc_new_1 = mx.symbol.FullyConnected(name='fc_new_1', data=roi_pool, num_hidden=2048)
fc_new_1_relu = mx.sym.Activation(data=fc_new_1, act_type='relu', name='fc_new_1_relu')
# 分类和回归
cls_score = mx.symbol.FullyConnected(name='cls_score', data=fc_new_1_relu, num_hidden=num_classes)
bbox_pred = mx.symbol.FullyConnected(name='bbox_pred', data=fc_new_1_relu, num_hidden=num_reg_classes * 4)

参考:
terrychenism/Deformable-ConvNets

这篇关于Light-Head R-CNN解读的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1103215

相关文章

MCU7.keil中build产生的hex文件解读

1.hex文件大致解读 闲来无事,查看了MCU6.用keil新建项目的hex文件 用FlexHex打开 给我的第一印象是:经过软件的解释之后,发现这些数据排列地十分整齐 :02000F0080FE71:03000000020003F8:0C000300787FE4F6D8FD75810702000F3D:00000001FF 把解释后的数据当作十六进制来观察 1.每一行数据

Java ArrayList扩容机制 (源码解读)

结论:初始长度为10,若所需长度小于1.5倍原长度,则按照1.5倍扩容。若不够用则按照所需长度扩容。 一. 明确类内部重要变量含义         1:数组默认长度         2:这是一个共享的空数组实例,用于明确创建长度为0时的ArrayList ,比如通过 new ArrayList<>(0),ArrayList 内部的数组 elementData 会指向这个 EMPTY_EL

Spring 源码解读:自定义实现Bean定义的注册与解析

引言 在Spring框架中,Bean的注册与解析是整个依赖注入流程的核心步骤。通过Bean定义,Spring容器知道如何创建、配置和管理每个Bean实例。本篇文章将通过实现一个简化版的Bean定义注册与解析机制,帮助你理解Spring框架背后的设计逻辑。我们还将对比Spring中的BeanDefinition和BeanDefinitionRegistry,以全面掌握Bean注册和解析的核心原理。

GPT系列之:GPT-1,GPT-2,GPT-3详细解读

一、GPT1 论文:Improving Language Understanding by Generative Pre-Training 链接:https://cdn.openai.com/research-covers/languageunsupervised/language_understanding_paper.pdf 启发点:生成loss和微调loss同时作用,让下游任务来适应预训

深度学习实战:如何利用CNN实现人脸识别考勤系统

1. 何为CNN及其在人脸识别中的应用 卷积神经网络(CNN)是深度学习中的核心技术之一,擅长处理图像数据。CNN通过卷积层提取图像的局部特征,在人脸识别领域尤其适用。CNN的多个层次可以逐步提取面部的特征,最终实现精确的身份识别。对于考勤系统而言,CNN可以自动从摄像头捕捉的视频流中检测并识别出员工的面部。 我们在该项目中采用了 RetinaFace 模型,它基于CNN的结构实现高效、精准的

LLM系列 | 38:解读阿里开源语音多模态模型Qwen2-Audio

引言 模型概述 模型架构 训练方法 性能评估 实战演示 总结 引言 金山挂月窥禅径,沙鸟听经恋法门。 小伙伴们好,我是微信公众号《小窗幽记机器学习》的小编:卖铁观音的小男孩,今天这篇小作文主要是介绍阿里巴巴的语音多模态大模型Qwen2-Audio。近日,阿里巴巴Qwen团队发布了最新的大规模音频-语言模型Qwen2-Audio及其技术报告。该模型在音频理解和多模态交互

文章解读与仿真程序复现思路——电力自动化设备EI\CSCD\北大核心《考虑燃料电池和电解槽虚拟惯量支撑的电力系统优化调度方法》

本专栏栏目提供文章与程序复现思路,具体已有的论文与论文源程序可翻阅本博主免费的专栏栏目《论文与完整程序》 论文与完整源程序_电网论文源程序的博客-CSDN博客https://blog.csdn.net/liang674027206/category_12531414.html 电网论文源程序-CSDN博客电网论文源程序擅长文章解读,论文与完整源程序,等方面的知识,电网论文源程序关注python

速通GPT-3:Language Models are Few-Shot Learners全文解读

文章目录 论文实验总览1. 任务设置与测试策略2. 任务类别3. 关键实验结果4. 数据污染与实验局限性5. 总结与贡献 Abstract1. 概括2. 具体分析3. 摘要全文翻译4. 为什么不需要梯度更新或微调⭐ Introduction1. 概括2. 具体分析3. 进一步分析 Approach1. 概括2. 具体分析3. 进一步分析 Results1. 概括2. 具体分析2.1 语言模型

跟我一起玩《linux内核设计的艺术》第1章(四)——from setup.s to head.s,这回一定让main滚出来!(已解封)

看到书上1.3的大标题,以为马上就要见着main了,其实啊,还早着呢,光看setup.s和head.s的代码量就知道,跟bootsect.s没有可比性,真多……这确实需要包括我在内的大家多一些耐心,相信见着main后,大家的信心和干劲会上一个台阶,加油! 既然上篇已经玩转gdb,接下来的讲解肯定是边调试边分析书上的内容,纯理论讲解其实我并不在行。 setup.s: 目标:争取把setup.

ElasticSearch 6.1.1 通过Head插件,新建索引,添加文档,及其查询数据

ElasticSearch 6.1.1 通过Head插件,新建索引,添加文档,及其查询; 一、首先启动相关服务: 二、新建一个film索引: 三、建立映射: 1、通过Head插件: POST http://192.168.1.111:9200/film/_mapping/dongzuo/ {"properties": {"title": {"type":