训练结果到底好不好【神经网络模型优化】如何根据 训练和验证 准确度 / 损失 曲线诊断优化我们的学习模型

本文主要是介绍训练结果到底好不好【神经网络模型优化】如何根据 训练和验证 准确度 / 损失 曲线诊断优化我们的学习模型,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

在进行深度学习神经网络的训练过程中,为了提高网络模型的准去度,这里就其中的一些技巧进行概要描述大。

然而在实际中,在原理和方法几乎定型的时候,我们往往需要针对自己的任务和自己设计的神经网络进行debug才能达到不错的效果,这也就是一个不断调试不断改进的一个过程。这其实也类似于制造业里面的制造工艺。

咱们古人练就长生不老丹,便是典型的调参过程。

(题外话:长生不老丹里面一味非常重要的药材叫霍山石斛,我家就是种植销售霍山石斛的,哈哈哈哈哈啊哈哈)

那么到底如何去Debug呢?

以下的内容部分来自CS231n课程,以及汇总了自己在训练神经网络中遇到的很多问题。

让我们先谈点简单的,如果不考虑debug,采取什么方式可以提升我们的训练精度呢?

吴恩达曾提出了这几点:

  • 寻找更多的数据
  • 让网络层数更深一些
  • 在神经网络中采取一些新的方法
  • 训练的时间更长点(更多的迭代次数)
  • 改变batch-size
  • 尝试使用正则化技术(权重衰减)
  • 权衡结果的偏置和方差(bias and variance)
  • 使用更多的GPU

以上这些方法是神经网络本身的通用的方法,而具体细化到自己所在的任务时,我们需要对我们此刻所做的任务进行单独的Debug,来寻找问题所在。

如何Debug?和编写程序类似,神经网络中的超参数相当于我们的代码,而神经网络的输出信息相当于代码执行的结果。

超参数:超参数是训练神经网络必不可少的变量,常见的超参数有:

  • 学习率(如何设置学习率)
  • batchsize
  • 权重衰减系数
  • dropout系数
  • 选择适用的优化器
  • 是否使用batch-normalization
  • 神经网络设计的结构(比如神经网络的层数,卷积的大小等等)

如何去调整这些参数呢?当然是通过观察神经网络的输出信息来做出相应的修改,而观察神经网络输出信息的利器就是可视化。

输出信息可视化

观察训练过程中各种参数的变化是非常重要的,首先最重要的当属损失曲线(loss curves)。

损失曲线

上图所示是一个比较“理想”的损失曲线变化图,在训练开始阶段损失值下降幅度很大,说明学习率合适且进行梯度下降过程,在学习到一定阶段后,损失曲线趋于平稳,损失变化没有一开始那么明显。曲线中的毛刺是因为batch-size的关系,设置越大,毛刺越小,毕竟每个batch-size的数据相当于不同的个体。

上图也是一个正确的损失曲线,虽然看到变化趋势并不是很明显,但仍然可以看出曲线在慢慢下降,这个过程其实是一个fune-turning的阶段。承接于上一幅图的损失曲线,这幅图的损失值已经很小了,虽然毛刺很多,但是总体趋势是对的。

那么什么才是有问题的去曲线呢?借用CS231n中的PPT:

上图中,左上角的图像是显然的学习不到任何东西(可能这样看起来比较困难,可以适当smooth一下),而第二个则是典型的过拟合现象;第三个是更严重的过拟合;第四个损失值没有趋于平稳,很有可能是没有训练够;第五个经历了比较长的iterate才慢慢收敛,显然是初始化权重太小了;而最后一个越学习损失值越大,很有可能是“梯度向上”了。

除此之外,其实上图还可以发现更多的错误:左上一和二:没有对数据集进行洗牌,也就是每次训练都是采用同一个顺序对数据集进行读取;右上一:训练的过程中突然发现曲线消失了,为什么?因为遇到了nan值(在图中是显示不出来的),但我们要意识到这个问题,这个问题很有可能是模型设置的缘故;最后一个图显示较小比例的val集设置会导致统计不准确,比较好的val设置比例是0.2。

上图左边的曲线图可以明显看到,一共训练了五次(五条曲线),但是在训练过程中却发现“很难”收敛,也就是神经网络学地比较困难。为什么呢?原因很简单,很有可能使我们在softmax层之前加入了非线性激活函数(比如RELU),本来softmax函数希望我们输入负数或者正数(负数输入时Softmax期望输出比较小,而输入正数时softmax其实输出比较大),但是relu只有0和1,那么输入到softmax会造成信息的丢失,造成学习异常困难。

总结下,如果你认为你的神经网络设计没有明显错误的,但损失曲线显示仍然很奇怪,那么很有可能:

  • 损失函数采用的有问题
  • 训练的数据的载入方式可能有问题
  • 优化器(optimizer)可能有问题
  • 一些其他的超参数设置可能有问题

总而言之,损失曲线是观察神经网络是否有问题的一大利器,我们在训练过程中非常有必要去观察我们的损失曲线的变化,越及时越好!

正则化

除了损失函数曲线,准确率曲线也是我们观察的重点,准确率曲线不仅可以观察到我们的神经网络是否往正确方向前进,更主要的是:观察损失和准确率的关系。因为我们在衡量一个任务的时候使用的评价标准(metric)和使用的损失函数往往是不相同的,比较典型的例子是:

图像分割中的IOU评价标准DICE损失函数

"Dice" is a a metric for model evaluation equal to intersection(A,B)/(A+B). Similar to IoU (IoU = intersection(A,B)/union(A,B)), it is used to assess a quality of image segmentation models. "Accuracy" is not really good for this task. For example, in this competition, you can quite easily get 99.9% accuracy of predicted pixels, but the performance of the models may be not as great as you think. Meanwhile, such metrics as dice or IoU can describe your models reasonably well, therefore they are most often used to asses publicly available models. The implementation of the metric used for score evaluation in this competition takes some time and requires additional post-processing, such as mask splitting. Therefore, it is not so common for quick model evaluation. Also, sometimes "soft dice" (dice with multiplication instead of intersection) is used as a loss function during training of image segmentation models.

当然,还有随机失活和权重衰减两个比较重要的超参数,这两个参数通过观察损失曲线观察是不明显滴,只有通过特定的评价标准曲线,设置好标准再进行比较,才可以判断出是否需要添加。

标准化和批标准化

标准化可能已经是训练神经网络的一个标准流程了,不论是在数据中进行标准化处理还是在网络中添加批标准化层,都是一种标准化的方法(两种使用一种即可)。

但是标准化技术通常只用于分类(以及衍生的一些应用),但并不适合与那种对输入图像大小比较敏感以及风格迁移生成类的任务,不要问为什么,结果会给你答案。

 

参考: https://oldpan.me/

           https://www.zhihu.com/question/62599196

           https://www.learnopencv.com/batch-normalization-in-deep-networks/

这篇关于训练结果到底好不好【神经网络模型优化】如何根据 训练和验证 准确度 / 损失 曲线诊断优化我们的学习模型的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/563421

相关文章

Vue3 的 shallowRef 和 shallowReactive:优化性能

大家对 Vue3 的 ref 和 reactive 都很熟悉,那么对 shallowRef 和 shallowReactive 是否了解呢? 在编程和数据结构中,“shallow”(浅层)通常指对数据结构的最外层进行操作,而不递归地处理其内部或嵌套的数据。这种处理方式关注的是数据结构的第一层属性或元素,而忽略更深层次的嵌套内容。 1. 浅层与深层的对比 1.1 浅层(Shallow) 定义

HarmonyOS学习(七)——UI(五)常用布局总结

自适应布局 1.1、线性布局(LinearLayout) 通过线性容器Row和Column实现线性布局。Column容器内的子组件按照垂直方向排列,Row组件中的子组件按照水平方向排列。 属性说明space通过space参数设置主轴上子组件的间距,达到各子组件在排列上的等间距效果alignItems设置子组件在交叉轴上的对齐方式,且在各类尺寸屏幕上表现一致,其中交叉轴为垂直时,取值为Vert

Ilya-AI分享的他在OpenAI学习到的15个提示工程技巧

Ilya(不是本人,claude AI)在社交媒体上分享了他在OpenAI学习到的15个Prompt撰写技巧。 以下是详细的内容: 提示精确化:在编写提示时,力求表达清晰准确。清楚地阐述任务需求和概念定义至关重要。例:不用"分析文本",而用"判断这段话的情感倾向:积极、消极还是中性"。 快速迭代:善于快速连续调整提示。熟练的提示工程师能够灵活地进行多轮优化。例:从"总结文章"到"用

Spring Security基于数据库验证流程详解

Spring Security 校验流程图 相关解释说明(认真看哦) AbstractAuthenticationProcessingFilter 抽象类 /*** 调用 #requiresAuthentication(HttpServletRequest, HttpServletResponse) 决定是否需要进行验证操作。* 如果需要验证,则会调用 #attemptAuthentica

大模型研发全揭秘:客服工单数据标注的完整攻略

在人工智能(AI)领域,数据标注是模型训练过程中至关重要的一步。无论你是新手还是有经验的从业者,掌握数据标注的技术细节和常见问题的解决方案都能为你的AI项目增添不少价值。在电信运营商的客服系统中,工单数据是客户问题和解决方案的重要记录。通过对这些工单数据进行有效标注,不仅能够帮助提升客服自动化系统的智能化水平,还能优化客户服务流程,提高客户满意度。本文将详细介绍如何在电信运营商客服工单的背景下进行

HDFS—存储优化(纠删码)

纠删码原理 HDFS 默认情况下,一个文件有3个副本,这样提高了数据的可靠性,但也带来了2倍的冗余开销。 Hadoop3.x 引入了纠删码,采用计算的方式,可以节省约50%左右的存储空间。 此种方式节约了空间,但是会增加 cpu 的计算。 纠删码策略是给具体一个路径设置。所有往此路径下存储的文件,都会执行此策略。 默认只开启对 RS-6-3-1024k

【前端学习】AntV G6-08 深入图形与图形分组、自定义节点、节点动画(下)

【课程链接】 AntV G6:深入图形与图形分组、自定义节点、节点动画(下)_哔哩哔哩_bilibili 本章十吾老师讲解了一个复杂的自定义节点中,应该怎样去计算和绘制图形,如何给一个图形制作不间断的动画,以及在鼠标事件之后产生动画。(有点难,需要好好理解) <!DOCTYPE html><html><head><meta charset="UTF-8"><title>06

学习hash总结

2014/1/29/   最近刚开始学hash,名字很陌生,但是hash的思想却很熟悉,以前早就做过此类的题,但是不知道这就是hash思想而已,说白了hash就是一个映射,往往灵活利用数组的下标来实现算法,hash的作用:1、判重;2、统计次数;

使用opencv优化图片(画面变清晰)

文章目录 需求影响照片清晰度的因素 实现降噪测试代码 锐化空间锐化Unsharp Masking频率域锐化对比测试 对比度增强常用算法对比测试 需求 对图像进行优化,使其看起来更清晰,同时保持尺寸不变,通常涉及到图像处理技术如锐化、降噪、对比度增强等 影响照片清晰度的因素 影响照片清晰度的因素有很多,主要可以从以下几个方面来分析 1. 拍摄设备 相机传感器:相机传

Andrej Karpathy最新采访:认知核心模型10亿参数就够了,AI会打破教育不公的僵局

夕小瑶科技说 原创  作者 | 海野 AI圈子的红人,AI大神Andrej Karpathy,曾是OpenAI联合创始人之一,特斯拉AI总监。上一次的动态是官宣创办一家名为 Eureka Labs 的人工智能+教育公司 ,宣布将长期致力于AI原生教育。 近日,Andrej Karpathy接受了No Priors(投资博客)的采访,与硅谷知名投资人 Sara Guo 和 Elad G