神经网络训练中小知识点记录

本文主要是介绍神经网络训练中小知识点记录，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

Faster RCNN和SSD有什么不同，为什么SSD快？
不做region proposal，而且是one-stage
训练加速的办法
加大bacth size，或者先adam再SGD
加大batch size需要调节哪些超参数
加大学习率，加大epoch
pascal voc数据集坐标从１开始，而不是从0开始，也许采用的是matlab的格式。
数据扩增：如随机翻转、随机裁剪、颜色抖动等。注意：对图像所做的任何操作都必须对边界框同样执行，如果翻转图像，还必须对应地翻转真值框的坐标。因为卷积具有平移不变性，因此数据增强一般使用的是复杂的策略：翻转、裁切、放缩。考虑到实现的方便性，常见的是使用翻转，若网络允许的话，也会加入一些随机放缩到一组特定尺寸中的某个。
例如在yolo中，数据扩增的流程如下：
第一步：加载原始图像
第二步：随机增加、或者减去原始图片大小的20%来选择新的宽度和高度
第三步：按照新大小裁剪图像，如果新图像在一个或多个边上大于原始图像，则用0填充。
第四步：将图像resize到416*416，使其成为正方形
第五步：随机翻转图像的色调、饱和度曝光（亮度）
第六步：通过移动和缩放边界框坐标来调整边界框，以适应前面所做的裁剪和调整大小，以及水平翻转等操作。
旋转是常见数据扩增技术，但是这是很麻烦的，因为牵涉到旋转边界框。所以通常不采用旋转来扩增数据。
SSD采用的数据扩增流程是：
第一步：随机裁剪一个图像区域，使该区域中物体的最小IOU为0.1/0.3/0.5/0.7/0.9，IOU越小，模型越难检测到物体。
第二步：使用“缩小”增强，将图像变小，从而构建包含小物体的训练数据，这对于模型更好的处理小物体很有用。
数据扩增中的随机裁剪可能导致物体的部分或者全部落在裁剪图像之外。因此只希望保留中心位于该裁剪区域某个位置的边界框，不希望保留中心位于裁剪区域之外的框。
理解网络架构背后的概念、洞察力比架构本身更重要
再调整超参数上（如内核大小、损失函数的加权因子等）耗费太多时间不值得，因为对性能的提升微乎其微。
为每个图层指定名称，便于查找。
单元测试，查看迭代后是否更新权重。
VGG的设计经验：每进行一次尺寸上的下采样（减少），就要增加2倍的卷积核数量。

对于不平衡的样本，需要从数据和算法两个层面解决：

在数据上：数据重采样（上采样，复制或者数据扩充使得样本少类与样本最多的类一致，下采样，比如在每个batch中保证政府比例相等），累呗平衡采样（将样本归类，将所有类扩充到与样本最多的类一致后随机打乱，方法与数据重采样中的上采样类似）
在算法上：代价敏感

模型集成

数据层面：测试阶段数据增广（对同一张图像增广成n张，将n张输入到模型得到n个结果进行集成）、简易集成法。
模型层面：单模型集成（多层特征融合，将多层特征融合，网络快照法）、多模型集成（多模型生成，同一模型不同初始化、同一模型不同训练轮数、不同目标函数、不同网络结构，多模型集成，直接平均，投票法，丢跌法（将集成结果作为新的特征训练另一个模型）

网络参数初始化

全零初始化：但是当全零初始化时，导致网络输出全部相同，梯度更新完全相同，模型无法训练
随机初始化：实际应用，通常将随机参数服从均匀分布或者是高斯分布

目标函数（损失函数）

分类任务：交叉熵损失函数是常用的，合页损失函数、坡道损失函数、中心损失函数
回归任务：L1损失函数、L2损失函数

网络正则化（保证泛化能力的同时，避免过拟合）

L2正则化，L1正则化（相较于L2正则化，L1正则化能产生更加稀疏的参数）、Elastic网络正则化（L1和L2按照比例混合）
随机失活，注意训练阶段和测试阶段的区别，需要乘上系数
增加训练数据，使用更多的数据扩充方式
加入随机噪声

超参数设定与网络训练

超参数设定：输入数据的像素大小、卷积层参数设定（卷积核大小、卷积操作的步长、卷积核个数、通常卷积核大小为奇数，一般是3或者5，卷积核个数一般为2的次幂）、池化层参数设定
网络训练：在每轮训练前将训练集顺序打乱，是因为信息论中从不相似的事件中学习总是比从相似事件中学习更具有信息量，学习率设定，初始不宜过大，后续需要减缓，是否使用Batch Normalization，优化算法的选择（SGD、基于动量的SGD、Nesterov、Adagrad、Adadelta、RMSProp、Adam等）

这篇关于神经网络训练中小知识点记录的文章就介绍到这儿，希望我们推荐的文章对编程师们有所帮助！