内涵:半监督学习之Temporal Ensembling For Semi-supervised Learning

2024-06-05 23:32

本文主要是介绍内涵:半监督学习之Temporal Ensembling For Semi-supervised Learning,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

一、 引言

  这篇文章是ICLR2017的一篇文章,是半监督学习领域的一篇经典文章,以这篇文章作为进入半监督学习的一个切入点。
  在这篇文章中,作者的将其工作描述为self-ensembling,而具体来讲有两点:1. Π model 2. temporal ensembling。

We describe two ways to implement self-ensembling, Π-model和temporal ensembling.

二、Π model

  Π model的思路来源比较直接,就是我们如何去使用无标签数据来进行模型训练。思考这个问题,先从有标签数据是如何学习来看,对于有标签数据的使用过程是这样的:

  1. 我们已经获得了数据的标签
  2. 我们可以轻易的通过网络的预测值和标签值构造一个损失函数,通常为交叉熵损失函数或者最小平方误差损失函数。
  3. 通过迭代训练不断的使该函数趋于一个更小的值。

  无标签数据之所以难以利用,是因为按照我们上述传统的思路,第一点没有,就无法进行第二步,从而无法进行第三步。但上述三步中,第三步是目的,第二部是关键,而第一步没有就没有,前提是我们第二部构造的损失函数,可以不借鉴标签值。
  因此学者提出了一个一致性约束假设:

对于无标签数据,模型或数据加一定扰动,预测结果一致

  而这个约束就可以抽象为一个loss函数
m i n ( f ( x ) − f ∗ ( x ∗ ) ) min(f(x)-f^{*}(x^{*})) min(f(x)f(x))

注:*代表数据或者模型经过扰动
  可以看到这个损失函数是没有涉及到标签值,它只是要求我们预测两次,并前后两次分别做了数据扰动和模型扰动。这个思想很直观,而Πmodel正是这个思想的实现。
在这里插入图片描述
  在Πmodel的结构简图里面可以清楚的看到我们刚刚提到的几个要素:数据扰动通过stochastic augmentation(随机增强)来体现,而模型扰动则通过network with dropout(随机dropout)来体现,一致性Loss则对应于简图中的squared difference。除此之外有一个需要注意的点,有标签loss和无标签loss的权重函数是一个随迭代次数变化的函数。前期会侧重于有标签Loss,而后期则会慢慢往无标签Loss上偏移。
  更详细的流程可以参看下图。
在这里插入图片描述
  Πmodel的性能提升还是很明显的,在SVHN数据集上的效果,错误率相比benchmark(全集为73257张,标定500张)从18.44%下降至6.65%,全集的错误率为2.88%。在CIFAR-10数据集上,相比benchmark(全集为50000,标定4000张),从18.63%下降至12.36%,全集错误率为6.05%。可以看到Πmodel还是有相当大的提升的,在未标定:标定比例为10:1的情形下,可以达到全集提升的50%~75%以上的一个提升比例。
  但Πmodel也会带来一个缺点,就是一个batch里面每张图片会前向处理两次,而这会导致训练耗时的上升。文章中提到的另外一个创新点:temporaral ensembling带来的一个好处可以弥补这种缺陷。

二、Temporal ensembling

  如上所述,Π model的引入事实上是一种非常直观的一致性假设的具体实现。在介绍Temporal ensembling是怎么做之前,试着也尽量以一种更加容易接受的思想来引入该操作。
  再回到半监督学习一开始无标签的困境上来看,我们在无标签的情形下,除了可以通过一致性假设来构造损失函数,我们还可以从原来的预测值-标签值的传统思路出发,但我们这里是给无标签的数据一个伪标签。再来看这个公式:
m i n ( f ( x ) − f ∗ ( x ∗ ) ) min(f(x)-f^{*}(x^{*})) min(f(x)f(x))
  我们可以把Πmodel中一个batch里面两次预测中的一个作为另外一个的伪标签,这个伪标签可能害怕它不准,但抛开性能好坏,这也算作是一种打伪标签的方式,先接受这一点。而Temporal ensembling则是给我们一种能够更好的一种打伪标签的方式。这个就用到了ensembling learning(集成学习)的思想。本文称之为self-ensembling,之所以self,是因为不同的模型来自于自己,只不过是不同epoch的模型,具体的是通过滑动平均,来将当前的伪标签值与之前的epoch的标签预测值都做一个投票,只不过,越靠近当前的epoch,其权重会越大。
在这里插入图片描述
  结合了以往所有epoch得到的伪标签值显然是一个更好的打标签方式。而且它带来的一个好处是每一个batch不用同一张图片预测两次,但是为了记录当前epoch下,每一张测试图片对应的伪标签值,需要一个N大小的空间来存储(N对应于训练数据的大小)。因此再计算复杂度和空间复杂度上算是典型的空间换时间吧。
在这里插入图片描述
  虽然作者将Π model也作为self-ensembling,但总感觉两者的并无直接关联。Temporal ensembling则是一种直观的self-ensembling思想。但这个只是说法上的一种理解,暂且搁置,来看temporal ensembling的效果:在SVHN数据集上,相比Πmodel进一步提升了1.53%(6.65%-5.12%),在CIFAR-10数据集上,相比Πmodel进一步提升了0.2%(12.36%-12.16%)。可以看到提升相对来讲,并不明显。我认为这可以从以下两点理解:第一点,对于本身已经准确率80%,甚至90%以上的模型,再大范围的提高确实存在难度;另外一方面,对于无标签数据与有标签数据完全同源,因此以有监督模型去给无标签数据打伪标签,也会有90%左右的正确性,相对而言,这个伪标签的质量已经是不错的,因此这种再集成可能效果就不明显了。但无论是从Temporal ensembling这种self-ensembling思想还是后面作者的一些辅助实验都应该相信,在实际任务中,Temporal ensembling还是有很大的潜力的。

三、额外实验

  在作者已经证明了自己该篇论文的操作的效果之后,又做了两个实验,这两个实验还是很有意义的:第一个实验更加贴近于实际工业界的应用场景,并且显示出了Temporal ensembling的巨大潜力。而第二个实验则显示出本文的操作在抵御训练集中脏数据的意外收获。
  第一个实验:作者使用了CIRAR-100数据集为例,加入50倍的数据量的TINY Images(随机抽样,也即两者并无类别关联)。竟然超越了CIRAR100全集有监督的性能。而且在该实验中Temporal ensembling贡献不小,进一步提升了,达到了2.17%个点,显示了其潜力。这点可以理解为面对一个完全不同源,甚至类别任务都不同的数据,显然靠有监督模型打伪造标签质量欠佳,在模型是臭皮匠的情形下,此时集成学习的潜力就会展现的比较明显。另外一个有意义的点,就是Tiny Image这个与主任务毫不相关的数据集,竟然可以发挥如此功效(但前提是量很大,有50倍的数据加入)。这里其实就表明了,其实这篇文章始于半监督,但终于了一种比较通用的正则化。也就是从某种意义上来讲,半监督其本质可以作为一种正则化手段。
在这里插入图片描述
  如果在接受了半监督是一种通用的正则化手段,那么接下来第二个实验就好理解了,标准的监督学习,如果数据集中脏数据会比较大,则可能会越学越坏,因为到了训练后期,模型已经在强行拟合了。而对于半监督,其正则化的效果可以有效的抵御这种过拟合。但是当然这个实验的现实意义不大,因为不可能有那个训练集脏标签数据的比例能够达到20%甚至更多的程度。但可以通过这个实验可以放大半监督正则化的本质。再有就是可以从另外一个角度来看,一种不太好的打为标签方式,有20%打的错的,此时就体现出了Temporal ensembling打标签的厉害之处。(像论文的基础实验,88,95这种的准确率,Temporal ensembling就体现的优势不大)
在这里插入图片描述

五、总结

  通过这篇文章,其实对于一直以来做的都是监督学习的人来讲,就可以了解到半监督的处理无标签数据问题的两种思想:一致性正则化和打伪标签。从某种意义上,这两者是相通的。
  如果从一致性正则化的角度,很容易设计出例如Πmodel的技术框架;如果从打伪标签的角度理解,通过Temporal sembling则可以获得更好的标签。且原始模型的效果越差,例如80%以下,或者新加入的无标签数据与原始有标签数据之间的域gap越大,Temporal sembling的潜力会发掘的更加彻底。
  其实这篇文章到最后会发现,半监督更像一个通用的正则化手段,它添加的数据甚至和原始问题完全不同也可以。这倒是一个很有意思的现象。
  最后的话,就是一个半监督的实际使用问题了。半监督实际使用的时候,极大可能发生在产业界,它的情形很有可能是如下情形:我已经有一个2w的数据训练的一个模型,效果是85%,但现场又采集了10w张新的数据,数据标定的周期可能会比较长,但客户催着要优化版本,这个时候算法人员一个明智的选择是一边让标定人员标定着,一边让模型半监督训练着,如果半监督的提升效果只有1%,那么即使这10w张全集标定完,也不太可能达到产品90%的指标。此时就要即使调整策略,一方面不要对这10W张数据报太多希望,也即数据线可能基本饱和了(当然你可以采集更多的数据,保险起见),在数据饱和的情况下,你就可以大张旗鼓的去优化一些网络结构了,比如attention结构、nonlocal结构等等。这其实是一个很有用的信息,因为在数据未饱和的情况下,如果去做一些网络优化,可能会出现,前期,小数据量情况下一些网络结构确实有效,但当标定的数据加上后,数据量上来了,这些网络结构就无效了。因此半监督可以用50~75%的全集效果来快速的估计数据是否达到饱和,从而放心大胆的终止数据这条线,开始问题的细分析以及一些更加精巧的网络结构的实验。这在产业界中其实是很有意义的一件事情。

六、附录

  1. 论文地址
    链接:https://pan.baidu.com/s/1UdtSmi5HZfdgI4ao8QB9uQ
    提取码:0naw
  2. 代码地址
    https://github.com/s-laine/tempens

这篇关于内涵:半监督学习之Temporal Ensembling For Semi-supervised Learning的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1034477

相关文章

HarmonyOS学习(七)——UI(五)常用布局总结

自适应布局 1.1、线性布局(LinearLayout) 通过线性容器Row和Column实现线性布局。Column容器内的子组件按照垂直方向排列,Row组件中的子组件按照水平方向排列。 属性说明space通过space参数设置主轴上子组件的间距,达到各子组件在排列上的等间距效果alignItems设置子组件在交叉轴上的对齐方式,且在各类尺寸屏幕上表现一致,其中交叉轴为垂直时,取值为Vert

Ilya-AI分享的他在OpenAI学习到的15个提示工程技巧

Ilya(不是本人,claude AI)在社交媒体上分享了他在OpenAI学习到的15个Prompt撰写技巧。 以下是详细的内容: 提示精确化:在编写提示时,力求表达清晰准确。清楚地阐述任务需求和概念定义至关重要。例:不用"分析文本",而用"判断这段话的情感倾向:积极、消极还是中性"。 快速迭代:善于快速连续调整提示。熟练的提示工程师能够灵活地进行多轮优化。例:从"总结文章"到"用

【前端学习】AntV G6-08 深入图形与图形分组、自定义节点、节点动画(下)

【课程链接】 AntV G6:深入图形与图形分组、自定义节点、节点动画(下)_哔哩哔哩_bilibili 本章十吾老师讲解了一个复杂的自定义节点中,应该怎样去计算和绘制图形,如何给一个图形制作不间断的动画,以及在鼠标事件之后产生动画。(有点难,需要好好理解) <!DOCTYPE html><html><head><meta charset="UTF-8"><title>06

学习hash总结

2014/1/29/   最近刚开始学hash,名字很陌生,但是hash的思想却很熟悉,以前早就做过此类的题,但是不知道这就是hash思想而已,说白了hash就是一个映射,往往灵活利用数组的下标来实现算法,hash的作用:1、判重;2、统计次数;

零基础学习Redis(10) -- zset类型命令使用

zset是有序集合,内部除了存储元素外,还会存储一个score,存储在zset中的元素会按照score的大小升序排列,不同元素的score可以重复,score相同的元素会按照元素的字典序排列。 1. zset常用命令 1.1 zadd  zadd key [NX | XX] [GT | LT]   [CH] [INCR] score member [score member ...]

【机器学习】高斯过程的基本概念和应用领域以及在python中的实例

引言 高斯过程(Gaussian Process,简称GP)是一种概率模型,用于描述一组随机变量的联合概率分布,其中任何一个有限维度的子集都具有高斯分布 文章目录 引言一、高斯过程1.1 基本定义1.1.1 随机过程1.1.2 高斯分布 1.2 高斯过程的特性1.2.1 联合高斯性1.2.2 均值函数1.2.3 协方差函数(或核函数) 1.3 核函数1.4 高斯过程回归(Gauss

【学习笔记】 陈强-机器学习-Python-Ch15 人工神经网络(1)sklearn

系列文章目录 监督学习:参数方法 【学习笔记】 陈强-机器学习-Python-Ch4 线性回归 【学习笔记】 陈强-机器学习-Python-Ch5 逻辑回归 【课后题练习】 陈强-机器学习-Python-Ch5 逻辑回归(SAheart.csv) 【学习笔记】 陈强-机器学习-Python-Ch6 多项逻辑回归 【学习笔记 及 课后题练习】 陈强-机器学习-Python-Ch7 判别分析 【学

系统架构师考试学习笔记第三篇——架构设计高级知识(20)通信系统架构设计理论与实践

本章知识考点:         第20课时主要学习通信系统架构设计的理论和工作中的实践。根据新版考试大纲,本课时知识点会涉及案例分析题(25分),而在历年考试中,案例题对该部分内容的考查并不多,虽在综合知识选择题目中经常考查,但分值也不高。本课时内容侧重于对知识点的记忆和理解,按照以往的出题规律,通信系统架构设计基础知识点多来源于教材内的基础网络设备、网络架构和教材外最新时事热点技术。本课时知识

线性代数|机器学习-P36在图中找聚类

文章目录 1. 常见图结构2. 谱聚类 感觉后面几节课的内容跨越太大,需要补充太多的知识点,教授讲得内容跨越较大,一般一节课的内容是书本上的一章节内容,所以看视频比较吃力,需要先预习课本内容后才能够很好的理解教授讲解的知识点。 1. 常见图结构 假设我们有如下图结构: Adjacency Matrix:行和列表示的是节点的位置,A[i,j]表示的第 i 个节点和第 j 个

Node.js学习记录(二)

目录 一、express 1、初识express 2、安装express 3、创建并启动web服务器 4、监听 GET&POST 请求、响应内容给客户端 5、获取URL中携带的查询参数 6、获取URL中动态参数 7、静态资源托管 二、工具nodemon 三、express路由 1、express中路由 2、路由的匹配 3、路由模块化 4、路由模块添加前缀 四、中间件