神经网络训练中小知识点记录

2024-03-06 17:32

本文主要是介绍神经网络训练中小知识点记录,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

  1. Faster RCNN和SSD有什么不同,为什么SSD快?
    不做region proposal,而且是one-stage
  2. 训练加速的办法
    加大bacth size,或者先adam再SGD
  3. 加大batch size需要调节哪些超参数
    加大学习率,加大epoch
  4. pascal voc数据集坐标从1开始,而不是从0开始,也许采用的是matlab的格式。
  5. 数据扩增:如随机翻转、随机裁剪、颜色抖动等。注意:对图像所做的任何操作都必须对边界框同样执行,如果翻转图像,还必须对应地翻转真值框的坐标。因为卷积具有平移不变性,因此数据增强一般使用的是复杂的策略:翻转、裁切、放缩。考虑到实现的方便性,常见的是使用翻转,若网络允许的话,也会加入一些随机放缩到一组特定尺寸中的某个。
  6. 例如在yolo中,数据扩增的流程如下:
    第一步:加载原始图像
    第二步:随机增加、或者减去原始图片大小的20%来选择新的宽度和高度
    第三步:按照新大小裁剪图像,如果新图像在一个或多个边上大于原始图像,则用0填充。
    第四步:将图像resize到416*416,使其成为正方形
    第五步:随机翻转图像的色调、饱和度曝光(亮度)
    第六步:通过移动和缩放边界框坐标来调整边界框,以适应前面所做的裁剪和调整大小,以及水平翻转等操作。
  7. 旋转是常见数据扩增技术,但是这是很麻烦的,因为牵涉到旋转边界框。所以通常不采用旋转来扩增数据。
  8. SSD采用的数据扩增流程是:
    第一步:随机裁剪一个图像区域,使该区域中物体的最小IOU为0.1/0.3/0.5/0.7/0.9,IOU越小,模型越难检测到物体。
    第二步:使用“缩小”增强,将图像变小,从而构建包含小物体的训练数据,这对于模型更好的处理小物体很有用。
  9. 数据扩增中的随机裁剪可能导致物体的部分或者全部落在裁剪图像之外。因此只希望保留中心位于该裁剪区域某个位置的边界框,不希望保留中心位于裁剪区域之外的框。
  10. 理解网络架构背后的概念、洞察力比架构本身更重要
  11. 再调整超参数上(如内核大小、损失函数的加权因子等)耗费太多时间不值得,因为对性能的提升微乎其微。
  12. 为每个图层指定名称,便于查找。
  13. 单元测试,查看迭代后是否更新权重。
  14. VGG的设计经验:每进行一次尺寸上的下采样(减少),就要增加2倍的卷积核数量。

对于不平衡的样本,需要从数据和算法两个层面解决:

  1. 在数据上:数据重采样(上采样,复制或者数据扩充使得样本少类与样本最多的类一致,下采样,比如在每个batch中保证政府比例相等),累呗平衡采样(将样本归类,将所有类扩充到与样本最多的类一致后随机打乱,方法与数据重采样中的上采样类似)
  2. 在算法上:代价敏感

模型集成

  1. 数据层面:测试阶段数据增广(对同一张图像增广成n张,将n张输入到模型得到n个结果进行集成)、简易集成法。
  2. 模型层面:单模型集成(多层特征融合,将多层特征融合,网络快照法)、多模型集成(多模型生成,同一模型不同初始化、同一模型不同训练轮数、不同目标函数、不同网络结构,多模型集成,直接平均,投票法,丢跌法(将集成结果作为新的特征训练另一个模型)

网络参数初始化

  1. 全零初始化:但是当全零初始化时,导致网络输出全部相同,梯度更新完全相同,模型无法训练
  2. 随机初始化:实际应用,通常将随机参数服从均匀分布或者是高斯分布

目标函数(损失函数)

  1. 分类任务:交叉熵损失函数是常用的,合页损失函数、坡道损失函数、中心损失函数
  2. 回归任务:L1损失函数、L2损失函数

网络正则化(保证泛化能力的同时,避免过拟合)

  1. L2正则化,L1正则化(相较于L2正则化,L1正则化能产生更加稀疏的参数)、Elastic网络正则化(L1和L2按照比例混合)
  2. 随机失活,注意训练阶段和测试阶段的区别,需要乘上系数
  3. 增加训练数据,使用更多的数据扩充方式
  4. 加入随机噪声

超参数设定与网络训练

  1. 超参数设定:输入数据的像素大小、卷积层参数设定(卷积核大小、卷积操作的步长、卷积核个数、通常卷积核大小为奇数,一般是3或者5,卷积核个数一般为2的次幂)、池化层参数设定
  2. 网络训练:在每轮训练前将训练集顺序打乱,是因为信息论中从不相似的事件中学习总是比从相似事件中学习更具有信息量,学习率设定,初始不宜过大,后续需要减缓,是否使用Batch Normalization,优化算法的选择(SGD、基于动量的SGD、Nesterov、Adagrad、Adadelta、RMSProp、Adam等)

这篇关于神经网络训练中小知识点记录的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/780819

相关文章

关于Spring @Bean 相同加载顺序不同结果不同的问题记录

《关于Spring@Bean相同加载顺序不同结果不同的问题记录》本文主要探讨了在Spring5.1.3.RELEASE版本下,当有两个全注解类定义相同类型的Bean时,由于加载顺序不同,最终生成的... 目录问题说明测试输出1测试输出2@Bean注解的BeanDefiChina编程nition加入时机总结问题说明

将sqlserver数据迁移到mysql的详细步骤记录

《将sqlserver数据迁移到mysql的详细步骤记录》:本文主要介绍将SQLServer数据迁移到MySQL的步骤,包括导出数据、转换数据格式和导入数据,通过示例和工具说明,帮助大家顺利完成... 目录前言一、导出SQL Server 数据二、转换数据格式为mysql兼容格式三、导入数据到MySQL数据

关于rpc长连接与短连接的思考记录

《关于rpc长连接与短连接的思考记录》文章总结了RPC项目中长连接和短连接的处理方式,包括RPC和HTTP的长连接与短连接的区别、TCP的保活机制、客户端与服务器的连接模式及其利弊分析,文章强调了在实... 目录rpc项目中的长连接与短连接的思考什么是rpc项目中的长连接和短连接与tcp和http的长连接短

Oracle查询优化之高效实现仅查询前10条记录的方法与实践

《Oracle查询优化之高效实现仅查询前10条记录的方法与实践》:本文主要介绍Oracle查询优化之高效实现仅查询前10条记录的相关资料,包括使用ROWNUM、ROW_NUMBER()函数、FET... 目录1. 使用 ROWNUM 查询2. 使用 ROW_NUMBER() 函数3. 使用 FETCH FI

Python MySQL如何通过Binlog获取变更记录恢复数据

《PythonMySQL如何通过Binlog获取变更记录恢复数据》本文介绍了如何使用Python和pymysqlreplication库通过MySQL的二进制日志(Binlog)获取数据库的变更记录... 目录python mysql通过Binlog获取变更记录恢复数据1.安装pymysqlreplicat

Servlet中配置和使用过滤器的步骤记录

《Servlet中配置和使用过滤器的步骤记录》:本文主要介绍在Servlet中配置和使用过滤器的方法,包括创建过滤器类、配置过滤器以及在Web应用中使用过滤器等步骤,文中通过代码介绍的非常详细,需... 目录创建过滤器类配置过滤器使用过滤器总结在Servlet中配置和使用过滤器主要包括创建过滤器类、配置过滤

正则表达式高级应用与性能优化记录

《正则表达式高级应用与性能优化记录》本文介绍了正则表达式的高级应用和性能优化技巧,包括文本拆分、合并、XML/HTML解析、数据分析、以及性能优化方法,通过这些技巧,可以更高效地利用正则表达式进行复杂... 目录第6章:正则表达式的高级应用6.1 模式匹配与文本处理6.1.1 文本拆分6.1.2 文本合并6

python与QT联合的详细步骤记录

《python与QT联合的详细步骤记录》:本文主要介绍python与QT联合的详细步骤,文章还展示了如何在Python中调用QT的.ui文件来实现GUI界面,并介绍了多窗口的应用,文中通过代码介绍... 目录一、文章简介二、安装pyqt5三、GUI页面设计四、python的使用python文件创建pytho

基本知识点

1、c++的输入加上ios::sync_with_stdio(false);  等价于 c的输入,读取速度会加快(但是在字符串的题里面和容易出现问题) 2、lower_bound()和upper_bound() iterator lower_bound( const key_type &key ): 返回一个迭代器,指向键值>= key的第一个元素。 iterator upper_bou

图神经网络模型介绍(1)

我们将图神经网络分为基于谱域的模型和基于空域的模型,并按照发展顺序详解每个类别中的重要模型。 1.1基于谱域的图神经网络         谱域上的图卷积在图学习迈向深度学习的发展历程中起到了关键的作用。本节主要介绍三个具有代表性的谱域图神经网络:谱图卷积网络、切比雪夫网络和图卷积网络。 (1)谱图卷积网络 卷积定理:函数卷积的傅里叶变换是函数傅里叶变换的乘积,即F{f*g}