Visual Convolutional Neural Network论文关键点

2024-08-26 14:32

本文主要是介绍Visual Convolutional Neural Network论文关键点,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

前言:这篇论文是2013年11月发表在CVPR上的,当时正值卷积神经网络在计算机视觉任务中初放光彩。17年刚刚接触深度学习的时候看过这篇论文,当时也是在组会上讲过。以下就是大概的讲解思路。但是当时看这篇论文没有太大的感觉,觉得这篇论文只是做了一个非常简单的事情,所以主要是从宏观上说明了一下可视化卷积神经网络的作用。前两天偶然翻出来这篇论文,却觉得论文里有些地方挺有意思的,果然论文和人颇有相似,讲究的是对的时间遇到对的人。这里先把当时讲的一些要点摘抄过来,有时间回看一遍,再做整理。

这篇论文的主要思路是: 将产生的特征通过反卷积技术,重构出对应的输入刺激,而重构的刺激只会显示真正有用东西,作者就可以通过分析这些信息来分析模型,实现模型调优。

论文背景介绍

神经网络发展很迅速, 尤其是卷积神经网络在图像处理方面发挥了很大的作用,当输入一张图片到卷积网中时,网络会逐级产生特征,但究竟是图片中的哪一部分刺激网络产生了特定特征,没法直接得到。一般来说,卷积第一层还可以大概看到图像的特征,但是随着卷积层数的加深,卷积出来的图像已经面目全非了。
这篇论文就是通过反卷积技术,让深层次的神经网络也能展示出来他的特征。
具体的流程如下图:
在这里插入图片描述

可视化卷积神经网络的用处

至此,这篇论文里的关键技术难点已经讲完了,作者提出来这个反卷积,主要是用来干什么呢?

作者主要用反卷积做出了以下几个结果。

  1. 当然就是最主要的目的: 特征的可视化。他把每层的图像都反卷积出来, 然后观察, 发现:
    1)每组重构特征都有很强的关联性。
    2)层次越高,特征越稳定。第一层只学到了边缘。第二层学到了稍微复杂的图案, 比如说圆形, 丁字形, 角度, 曲线等。第三层开始学到一个具体纹理。第四层甚至最高层学到了更加完整的特征, 比如说狗脸, 人脸等。
    3)图像中关键的特征被夸大

  2. 作者还研究了特征在训练过程中的演化。 在训练过程中, 作者从把每一层的输出特征反向卷积,可以发现, 在迭代开始的时候,每一层都发生很大的变化,但是经过一定的迭代次数,低层首先区域稳定,高层需要更多的迭代次数才能区域稳定。
    这也表明了, 只有所有层都收敛时, 分类模型才能用。

  3. 特征不变性。也就是说把图片进行平移,旋转,缩放。观察不同层的特征不变性能力。可以看到, 在第一层, 很小的变化都会导致其明显的变化, 层数越高, 平移和缩放对最终结果的影响比较小。总体来说, 卷积网无法对旋转操作产生不变性,除非物体本身具有很强的对称性。

  4. 结构的优化.第一层混合了大量的高频和低频信息, 缺少中频信息, 第二层产生了混乱无用的特征。新的模型不但保留了一二层绝大部分有用的特征, 还提高了最终的分类性能。

  5. 遮挡敏感性。分类器到底使用了什么信息实现分类? 是图像中具体位置的像素值, 还是图像的背景?为了回答这个问题, 作者使用了一个灰色的矩形对输入图像的每个部分进行遮挡, 并测试在不同遮挡情况下, 分类器的输出结果。可以看到当关键区域发生遮挡时, 分类器的性能急剧下降。 而且当遮挡发生在关键物体的位置时, 响应强度急剧下降。另外,用这种方法可以找出途中哪部分的特征是最关键的。在第五层的时候, 遮挡眼睛和鼻子等部位会使识别率更低, 但是在第七层的时候, 随机遮挡图片和遮挡眼睛、 鼻子等部位都是一样的。 作者猜想可能是更高层更关注狗的品种等更深层次的问题。

总结:

这篇论文最重要的贡献是提出了反卷积的这个概念, 直观展示了 CNN 如何工作, 这些可视
化技术不仅描述了 CNN 内部的工作原理,同时对神经网络结构的优化提供了深刻的见解。
除此之外, 反卷积除了用于可视化之外,后来的学者还利用反卷积做了:
1) 图片的无监督学习
2) FCN 网络中的上采样
3) GAN 中的图片生成。

这篇关于Visual Convolutional Neural Network论文关键点的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1108832

相关文章

poj 2349 Arctic Network uva 10369(prim or kruscal最小生成树)

题目很麻烦,因为不熟悉最小生成树的算法调试了好久。 感觉网上的题目解释都没说得很清楚,不适合新手。自己写一个。 题意:给你点的坐标,然后两点间可以有两种方式来通信:第一种是卫星通信,第二种是无线电通信。 卫星通信:任何两个有卫星频道的点间都可以直接建立连接,与点间的距离无关; 无线电通信:两个点之间的距离不能超过D,无线电收发器的功率越大,D越大,越昂贵。 计算无线电收发器D

AI hospital 论文Idea

一、Benchmarking Large Language Models on Communicative Medical Coaching: A Dataset and a Novel System论文地址含代码 大多数现有模型和工具主要迎合以患者为中心的服务。这项工作深入探讨了LLMs在提高医疗专业人员的沟通能力。目标是构建一个模拟实践环境,人类医生(即医学学习者)可以在其中与患者代理进行医学

如何在Visual Studio中调试.NET源码

今天偶然在看别人代码时,发现在他的代码里使用了Any判断List<T>是否为空。 我一般的做法是先判断是否为null,再判断Count。 看了一下Count的源码如下: 1 [__DynamicallyInvokable]2 public int Count3 {4 [__DynamicallyInvokable]5 get

论文翻译:arxiv-2024 Benchmark Data Contamination of Large Language Models: A Survey

Benchmark Data Contamination of Large Language Models: A Survey https://arxiv.org/abs/2406.04244 大规模语言模型的基准数据污染:一项综述 文章目录 大规模语言模型的基准数据污染:一项综述摘要1 引言 摘要 大规模语言模型(LLMs),如GPT-4、Claude-3和Gemini的快

论文阅读笔记: Segment Anything

文章目录 Segment Anything摘要引言任务模型数据引擎数据集负责任的人工智能 Segment Anything Model图像编码器提示编码器mask解码器解决歧义损失和训练 Segment Anything 论文地址: https://arxiv.org/abs/2304.02643 代码地址:https://github.com/facebookresear

论文翻译:ICLR-2024 PROVING TEST SET CONTAMINATION IN BLACK BOX LANGUAGE MODELS

PROVING TEST SET CONTAMINATION IN BLACK BOX LANGUAGE MODELS https://openreview.net/forum?id=KS8mIvetg2 验证测试集污染在黑盒语言模型中 文章目录 验证测试集污染在黑盒语言模型中摘要1 引言 摘要 大型语言模型是在大量互联网数据上训练的,这引发了人们的担忧和猜测,即它们可能已

OmniGlue论文详解(特征匹配)

OmniGlue论文详解(特征匹配) 摘要1. 引言2. 相关工作2.1. 广义局部特征匹配2.2. 稀疏可学习匹配2.3. 半稠密可学习匹配2.4. 与其他图像表示匹配 3. OmniGlue3.1. 模型概述3.2. OmniGlue 细节3.2.1. 特征提取3.2.2. 利用DINOv2构建图形。3.2.3. 信息传播与新的指导3.2.4. 匹配层和损失函数3.2.5. 与Super

BERT 论文逐段精读【论文精读】

BERT: 近 3 年 NLP 最火 CV: 大数据集上的训练好的 NN 模型,提升 CV 任务的性能 —— ImageNet 的 CNN 模型 NLP: BERT 简化了 NLP 任务的训练,提升了 NLP 任务的性能 BERT 如何站在巨人的肩膀上的?使用了哪些 NLP 已有的技术和思想?哪些是 BERT 的创新? 1标题 + 作者 BERT: Pre-trainin

[论文笔记]LLM.int8(): 8-bit Matrix Multiplication for Transformers at Scale

引言 今天带来第一篇量化论文LLM.int8(): 8-bit Matrix Multiplication for Transformers at Scale笔记。 为了简单,下文中以翻译的口吻记录,比如替换"作者"为"我们"。 大语言模型已被广泛采用,但推理时需要大量的GPU内存。我们开发了一种Int8矩阵乘法的过程,用于Transformer中的前馈和注意力投影层,这可以将推理所需

MonoHuman: Animatable Human Neural Field from Monocular Video 翻译

MonoHuman:来自单目视频的可动画人类神经场 摘要。利用自由视图控制来动画化虚拟化身对于诸如虚拟现实和数字娱乐之类的各种应用来说是至关重要的。已有的研究试图利用神经辐射场(NeRF)的表征能力从单目视频中重建人体。最近的工作提出将变形网络移植到NeRF中,以进一步模拟人类神经场的动力学,从而动画化逼真的人类运动。然而,这种流水线要么依赖于姿态相关的表示,要么由于帧无关的优化而缺乏运动一致性