SENet 阅读

2023-10-16 07:20
文章标签 阅读 senet

本文主要是介绍SENet 阅读,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

摘要:

卷积神经网络的核心是卷积操作,能够通过在每层使用区域感受野融合空间以及通道维度的信息来构建信息特征。本文里,作者聚焦于通道关系,提出了一个新的结构单元 SE(Squeeze Excitation) block,通过建模通道之间的依赖,适应性地校准通道特征。 相比于现有性能优越的CNN,SENet 在只增加轻微复杂度的同时获得了显著的性能提升。

源码: https://github.com/hujie-frank/SENet

论文:[1709.01507] Squeeze-and-Excitation Networks (arxiv.org)

介绍:

大部分现有的研究工作都聚焦于融合学习机制给网络,捕获空间关系加强CNN生成特征表示的能力,我们提出一个不同方向的网络设计---通道关系。 致力于通过模拟卷积特征的通道依赖关系,提高网络生成特征表示的质量。 提出了一种机制,允许网络进行特征重新校准,通过这种机制,它可以学会使用全局信息,有选择地强调信息特征,并抑制不太有用的特征。

 SE block结构如上,Ftr将输入特征X(H' W' C')映射为U(H,W,C)。

SE块通过简单的堆叠可以构建网络,而且在网络体系结构的深度范围内可以作为原始块的drop-in替换。虽然这个块是通用的,但他在网络不同深度起了不同的作用。网络浅层它以与类无关的方式激活信息特征,加强共享的低水平表示,在深层,它以高度与类相关的方式响应不同输入。因此,SE块进行特征重校准的好处可以通过网络积累起来。

2 相关工作

3 SQUEEZE and EXCITATION BLOCKS

Ftr看作一个卷积算子,v=[v2,v2,,,vC] 表示学到的过滤核的集合,vC表示第c个滤波器的参数,输出U可以写作:

X=[X',,,,,XC‘],uc(H*W)

是一个2-D空间核,表示作用于X的相应通道的的一个vc的单独通道。因为输出通过所有所有通道计算,所以通道依赖被隐含地潜入了vc,但是与滤波器捕获的局部空间关系纠缠在一起。 卷积建模的通道关系(除了顶层)都是局部以及隐含的,我们想提供一个方法在两步内能接触全局信息并重新校准滤波器相应,因此在馈入下一次transform前,进行squeeze, excitation。

3.1 squeeze global information embedding

通过squeeze 将全局空间信息压到一个通道描述符中,通过全局平均池化按通道的处理。就可以得到

 3.2 Excitation: Adaptive Recalibration

为了捕获通道依赖,必须依据两个准则:1)灵活(必须能学习通道间的非线性融合)2)能学习一种非互斥关系,因为我们想确保多个信道可以被强调。

所以我们选择一个简单的门限机制:

 激活函数使用RELU,和signmoid.用两个完全连接层实现门限,降低维度且帮助提高泛化性。

 输出U通过s的放缩得到。 通过标量sc和特征图uc的通道乘法获得。

激励操作将输入z映射为通道权重的集合。因此,SE块引入了依据输入变化的动态关系,可以被看作一种通道的自注意力,使其中的关系不受限于卷积核响应的局部感受野。

3.3 例示

SE块可以插入一些标准结构的非线性层后,他的灵活性也意味着它可以被直接加在标准卷积以外的变化。

比如加入inception 网络,这里的Fr可以看作一个完整的inception 模块,如图

也可以被看作残差模块的的一个非线性分支。

或许该权重还能用于网络剪枝。

 

 

这篇关于SENet 阅读的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/219951

相关文章

JAVA智听未来一站式有声阅读平台听书系统小程序源码

智听未来,一站式有声阅读平台听书系统 🌟 开篇:遇见未来,从“智听”开始 在这个快节奏的时代,你是否渴望在忙碌的间隙,找到一片属于自己的宁静角落?是否梦想着能随时随地,沉浸在知识的海洋,或是故事的奇幻世界里?今天,就让我带你一起探索“智听未来”——这一站式有声阅读平台听书系统,它正悄悄改变着我们的阅读方式,让未来触手可及! 📚 第一站:海量资源,应有尽有 走进“智听

论文阅读笔记: Segment Anything

文章目录 Segment Anything摘要引言任务模型数据引擎数据集负责任的人工智能 Segment Anything Model图像编码器提示编码器mask解码器解决歧义损失和训练 Segment Anything 论文地址: https://arxiv.org/abs/2304.02643 代码地址:https://github.com/facebookresear

软件架构模式:5 分钟阅读

原文: https://orkhanscience.medium.com/software-architecture-patterns-5-mins-read-e9e3c8eb47d2 软件架构模式:5 分钟阅读 当有人潜入软件工程世界时,有一天他需要学习软件架构模式的基础知识。当我刚接触编码时,我不知道从哪里获得简要介绍现有架构模式的资源,这样它就不会太详细和混乱,而是非常抽象和易

【阅读文献】一个使用大语言模型的端到端语音概要

摘要 ssum框架(Speech Summarization)为了 从说话人的语音提出对应的文本二题出。 ssum面临的挑战: 控制长语音的输入捕捉 the intricate cross-mdoel mapping 在长语音输入和短文本之间。 ssum端到端模型框架 使用 Q-Former 作为 语音和文本的中介连接 ,并且使用LLMs去从语音特征正确地产生文本。 采取 multi-st

你读文献的方式可能错了!掌握这些技巧,让阅读事半功倍!

我是娜姐 @迪娜学姐 ,一个SCI医学期刊编辑,探索用AI工具提效论文写作和发表。 科研新手如何精读一篇论文? 很多科研新手,一上来就疯狂下载几十上百篇文献。囫囵吞枣看完了,还是什么都不知道,大脑一片空白。究竟该如何读文献收获最大? 大佬说,要积极阅读、频繁阅读。 什么是积极阅读? 相比被动阅读,积极阅读是指在阅读之前准备好问题、设置阅读目标、保持批判性,收获更多、进步更大的一种阅读

一键部署Phi 3.5 mini+vision!多模态阅读基准数据集MRR-Benchmark上线,含550个问答对

小模型又又又卷起来了!微软开源三连发!一口气发布了 Phi 3.5 针对不同任务的 3 个模型,并在多个基准上超越了其他同类模型。 其中 Phi-3.5-mini-instruct 专为内存或算力受限的设备推出,小参数也能展现出强大的推理能力,代码生成、多语言理解等任务信手拈来。而 Phi-3.5-vision-instruct 则是多模态领域的翘楚,能同时处理文本和视觉信息,图像理解、视频摘要

深入理解计算机系统阅读笔记-第四章

第四章 处理器体系结构 一个处理器支持的指令和指令的字节级编码称为它的ISA(instruction-set architecture,指令集体系结构)。不同家族处理器有不同的ISA。ISA在编译器编写者和处理器设计人员之间提供了一个概念抽象层,编译器编写者只需要知道允许哪些指令,以及他们是如何编码的;而处理器设计者,必须建造出执行这些指令的处理器。 ISA模型看上去是顺序执行的,实际上同时处

Kafka源码阅读最最最简单的入门方法

大数据技术与架构 点击右侧关注,大数据开发领域最强公众号! 暴走大数据 点击右侧关注,暴走大数据! 1 消息处理入口 以下是Kafka消息处理的入口,即客户端发送到服务端消息处理方法。 /** * Top-level method that handles all requests and multiplexes to the right api */ def handle(r

Spark源码阅读的正确打开方式

Spark发展至今,应该说已经非常成熟了。是大数据计算领域不得不学习的框架。尤其是Spark在稳定性和社区发展的成熟度方面,吊打其他的大数据处理框架。 Spark至今只经历过1.x、2.x和3.x三个大版本的变化,在核心实现上,我们在Github能看到的最早的实现是0.5版本,这个版本只有1万多行代码,就把Spark的核心功能实现了。 当然我们不可能从这么古老的版本看,假如你接触过Spar

个性化阅读体验:Spring Boot框架的图书推荐解决方案

第5章 系统详细设计 5.1前台首页功能模块 图书个性化推荐系统,在前台首页可以查看首页、图书信息、好书推荐、留言反馈、个人中心、后台管理等内容,如图5-1所示。 图5-1首页功能界面图 学生注册、登录,在学生注册页面可以填写学号、密码、学生姓名、性别、出生日期、联系电话、班级等信息进行注册、登录,如图5-2所示。 图5-2学生注册、登录界面图 图书信息,在图书信息页面通过查看图书