论文笔记:How transferable are features in deep neural networks?

2024-04-21 16:08

本文主要是介绍论文笔记:How transferable are features in deep neural networks?,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

https://blog.csdn.net/weixin_37904412/article/details/80984405
典型的神经网络:第一层通用,最后一层具体
对于神经网络中层的表示,有以下问题:

  1. 我们可以量化模型的某一层的特征到底是通用的还是具体的吗?
  2. 转换是在某一层上突然发生,还是在几层上展开?
  3. 这种转换发生在网络的什么地方:网络顶端,网络中间,还是网络底端?

如果网络中的特征是通用的,我们能够将它们用于迁移学习。

通常,迁移学习的方法是首先训练基础网络,然后将其前n层的参数复制到目标网络的前n层中。然后,目标网络中剩余的层进行随机初始化,并针对目标任务进行训练。这里有两种选择:
a)在目标任务中对目标网络所有的参数进行微调;
b)将迁移过来的参数固定,在训练期间不发生更改,仅仅对随机初始化的参数进行训练。

是否需要微调目标网络前n层的参数取决于目标数据集的大小和前n层中的参数数量。如果目标数据集很小且参数数量很大,那么微调可能会导致过拟合,因此前n层的这些参数通常会被固定;如果目标数据集很大或参数数量很少,那么过拟合不是问题,可以微调网络的所有参数到新任务上,以提高性能。当然,如果目标数据集非常大,则几乎不需要迁移学习,因为可以在目标数据集上从头开始学习低层次的特征。

论文将比较两种技术:
对所有参数(包括前n层的参数)进行微调
固定前n层的参数不变

论文的工作:

  1. 定义了一种方法来衡量某一层是通用的或具体的程度,即该层的特征从一个任务迁移到另一个任务的程度
  2. 当使用迁移的特征,而没有进行微调时会导致网络性能下降。这一现象有两个原因:(i)特征本身的特异性;(ii)在相邻层上的神经元之间存在共适应性,从基础网络中将它们分离会导致难以优化。
  3. 当基本任务和目标任务的差异很大时,发现迁移的特征会降低网络的性能
  4. 在相对较大的ImageNet数据集中,对低层的网络权重进行随机初始化 VS 迁移低层网络的权重 后者的表现更好
  5. 用迁移的特征初始化网络,可以在微调后的新数据集上提高泛化性能。即使经过大量微调,基数据集的效果仍然存在

Gabor filter:Gabor函数是一个用于边缘提取的线性滤波器
https://www.cnblogs.com/arxive/p/4990754.html
color blobs:色斑

在这里插入图片描述
论文的结论是通过实验来得到的,实验是通过固定前n层网络来判断第n层是通用还是特有。

这篇关于论文笔记:How transferable are features in deep neural networks?的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/923491

相关文章

vue解决子组件样式覆盖问题scoped deep

《vue解决子组件样式覆盖问题scopeddeep》文章主要介绍了在Vue项目中处理全局样式和局部样式的方法,包括使用scoped属性和深度选择器(/deep/)来覆盖子组件的样式,作者建议所有组件... 目录前言scoped分析deep分析使用总结所有组件必须加scoped父组件覆盖子组件使用deep前言

AI hospital 论文Idea

一、Benchmarking Large Language Models on Communicative Medical Coaching: A Dataset and a Novel System论文地址含代码 大多数现有模型和工具主要迎合以患者为中心的服务。这项工作深入探讨了LLMs在提高医疗专业人员的沟通能力。目标是构建一个模拟实践环境,人类医生(即医学学习者)可以在其中与患者代理进行医学

【学习笔记】 陈强-机器学习-Python-Ch15 人工神经网络(1)sklearn

系列文章目录 监督学习:参数方法 【学习笔记】 陈强-机器学习-Python-Ch4 线性回归 【学习笔记】 陈强-机器学习-Python-Ch5 逻辑回归 【课后题练习】 陈强-机器学习-Python-Ch5 逻辑回归(SAheart.csv) 【学习笔记】 陈强-机器学习-Python-Ch6 多项逻辑回归 【学习笔记 及 课后题练习】 陈强-机器学习-Python-Ch7 判别分析 【学

系统架构师考试学习笔记第三篇——架构设计高级知识(20)通信系统架构设计理论与实践

本章知识考点:         第20课时主要学习通信系统架构设计的理论和工作中的实践。根据新版考试大纲,本课时知识点会涉及案例分析题(25分),而在历年考试中,案例题对该部分内容的考查并不多,虽在综合知识选择题目中经常考查,但分值也不高。本课时内容侧重于对知识点的记忆和理解,按照以往的出题规律,通信系统架构设计基础知识点多来源于教材内的基础网络设备、网络架构和教材外最新时事热点技术。本课时知识

论文翻译:arxiv-2024 Benchmark Data Contamination of Large Language Models: A Survey

Benchmark Data Contamination of Large Language Models: A Survey https://arxiv.org/abs/2406.04244 大规模语言模型的基准数据污染:一项综述 文章目录 大规模语言模型的基准数据污染:一项综述摘要1 引言 摘要 大规模语言模型(LLMs),如GPT-4、Claude-3和Gemini的快

论文阅读笔记: Segment Anything

文章目录 Segment Anything摘要引言任务模型数据引擎数据集负责任的人工智能 Segment Anything Model图像编码器提示编码器mask解码器解决歧义损失和训练 Segment Anything 论文地址: https://arxiv.org/abs/2304.02643 代码地址:https://github.com/facebookresear

数学建模笔记—— 非线性规划

数学建模笔记—— 非线性规划 非线性规划1. 模型原理1.1 非线性规划的标准型1.2 非线性规划求解的Matlab函数 2. 典型例题3. matlab代码求解3.1 例1 一个简单示例3.2 例2 选址问题1. 第一问 线性规划2. 第二问 非线性规划 非线性规划 非线性规划是一种求解目标函数或约束条件中有一个或几个非线性函数的最优化问题的方法。运筹学的一个重要分支。2

【C++学习笔记 20】C++中的智能指针

智能指针的功能 在上一篇笔记提到了在栈和堆上创建变量的区别,使用new关键字创建变量时,需要搭配delete关键字销毁变量。而智能指针的作用就是调用new分配内存时,不必自己去调用delete,甚至不用调用new。 智能指针实际上就是对原始指针的包装。 unique_ptr 最简单的智能指针,是一种作用域指针,意思是当指针超出该作用域时,会自动调用delete。它名为unique的原因是这个

查看提交历史 —— Git 学习笔记 11

查看提交历史 查看提交历史 不带任何选项的git log-p选项--stat 选项--pretty=oneline选项--pretty=format选项git log常用选项列表参考资料 在提交了若干更新,又或者克隆了某个项目之后,你也许想回顾下提交历史。 完成这个任务最简单而又有效的 工具是 git log 命令。 接下来的例子会用一个用于演示的 simplegit

记录每次更新到仓库 —— Git 学习笔记 10

记录每次更新到仓库 文章目录 文件的状态三个区域检查当前文件状态跟踪新文件取消跟踪(un-tracking)文件重新跟踪(re-tracking)文件暂存已修改文件忽略某些文件查看已暂存和未暂存的修改提交更新跳过暂存区删除文件移动文件参考资料 咱们接着很多天以前的 取得Git仓库 这篇文章继续说。 文件的状态 不管是通过哪种方法,现在我们已经有了一个仓库,并从这个仓