读《A survey on semi-supervised learning》（一）

本文主要是介绍读《A survey on semi-supervised learning》（一），希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

摘要

半监督学习是机器学习的一个分支，涉及使用有标记和无标记的数据来执行某些学习任务。它在概念上介于监督学习和非监督学习之间，允许在许多用例中利用大量未标记的数据，并通常结合较小的标记数据集。近年来，该领域的研究遵循了机器学习的一般趋势，重点关注基于神经网络的模型和生成学习。关于这一主题的文献在数量和范围上也有所扩大，现在包括了广泛的理论、算法和应用。然而，最近没有收集和组织这些知识的调查，阻碍了研究人员和工程师利用这些知识的能力。为了填补这一空白，我们提出了半监督学习方法的最新概述，包括早期工作以及最新的进展。我们主要关注半监督分类，大部分半监督学习研究都是在这里进行的。我们的调查旨在该领域的研究人员和实践者以及更高级的读者提供对过去20年发展的主要方法和算法的坚实理解，重点是最突出的和当前相关的工作。此外，我们提出了一种新的半监督分类算法分类法，阐明了将未标记数据纳入训练过程的不同概念和方法方法。最后，我们展示了大多数半监督学习算法的基本假设是如何紧密联系在一起的，以及它们是如何与众所周知的半监督聚类假设相关联的。

引入

在机器学习中，传统上有两个主要任务：监督学习和无监督学习。在监督学习中，一个是由一些输入x和相应的输出值y组成的一组数据点。我们的目标是构建一个分类器或回归器，用于估计之前未见过的输入的输出值。另一方面，在无监督学习中，不提供具体的输出值。相反，我们会试着从输入中推断一些潜在的结构。例如，在无监督聚类中，目标是从给定的输入（如实数向量）推断到类的映射，这样类似的输入就映射到同一类。

半监督学习是机器学习的一个分支，旨在结合这两个任务。通常，半监督学习算法试图通过利用通常与另一任务相关的信息来提高这两项任务中的一项的性能。例如，在处理分类问题时，可能会使用标签未知的额外数据点来帮助分类过程。另一方面，对于聚类方法，学习过程可能受益于某些数据点属于同一类的知识。

与机器学习的一般情况一样，大部分关于半监督学习的研究都集中在分类上。半监督分类方法特别适用于标记数据匮乏的场景。在这种情况下，很难构造可靠的监督分类器。这种情况发生在标签数据昂贵或难以获得的应用领域，如计算机辅助诊断、药物发现和词性标注。如果有足够的未标记数据，并且在对数据分布有一定假设的情况下，未标记数据可以帮助构建更好地分类器。在实践中，半监督学习方法也被应用于不存在明显缺乏标记数据的场景：如果未标记的数据点提供了与预测相关的额外信息，它们可以潜在地用于实现改进的分类性能。

在很多的学习方法中，每一种都有自己的特点、优点和缺点。Zhu在2005年发表了该地区的最新总和调查报告，最后一次更新实在2008年（见朱（2008））。Chapelle等人（2006b）的书和Zhu和Goldberg的介绍性书（2009）也为研究半监督学习的早期工作提供了良好的基础。最近，Subramanya和Talukdar（2014）概述了几种基于图的技术，Triguero等人（2015）回顾并分析了伪标签技术，这是一类半监督学习方法。

自Zhu（2008）的调查发表以来，半监督学习领域发生了一些重要的发展。在整个领域，新的学习方法被提出来，现有的方法被扩展、改进和更深入地分析。此外，由于将无监督损失项简单地纳入神经网络地成本函数，用于监督学习地（深度）神经网络（Goldfellow 2017）的普及，促使半监督学习新的方法出现。最后，开发不会降低性能的鲁棒半监督学习方法，以及评估半监督学习方法的实际用途，也受到了越来越多的关注。

在本综述中，我们旨在为读者提供半监督学习研究领域的现状的全面概述，包括早期工作和最近的进展，并提供关键算法和方法的解释。我们为半监督分类方法提供了一种新的分类法，它捕获了每组方法的基本假设，以及它们与现有监督方法的关联方式。在此，我们提供了半监督学习的视角，允许更彻底地理解不同地方法和它们之间地练习。此外，我们阐明了半监督学习的基本假设，并展示了它们如何与所谓的聚类假设相联系。

虽然我们的目的时提供半监督学习的全面调查，我们不可能涵盖每一种方法存在。由于关于这个主题的文献非常多，这不仅超出了本文的范围，而且也偏离了我们希望提供给读者的关键见解。相反，我们关注的是过去20年来该领域最具影响力的工作和最重要的发展。

本文的其余结构部分如下。半监督学习的基本概念和假设涵盖在第2节，在那里我们也与聚类联系。在第3节中，我们介绍了半监督学习方法的分类，这构成了我们下面调查的概念基础。归纳方法将在第4节到第6节中介绍。我们首先考虑包装方法（第4节），然后是无监督预处理（第5节），最后，我们涵盖了本质半监督方法（第6节）。第7节涵盖了转导方法，这构成了我们分类学的第二个主要分支。半监督回归和聚类在第8节中讨论。最后，在第9节中，我们为半监督学习的未来提供了一些展望。

背景

在传统的监督学习问题中，我们给出了一个有 $l$ 标记的数据点的有序集合 $D_L=((x_i,y_i))^l_{i=1}$ 。每个数据点 $(x_i,y_i)$ 由来自给定输入空间 $\chi$ 的对象 $x_i \in \chi$ 组成，并有一个关联的标签 $y_i$ ，其中 $y_i$ 在回归问题中为实值，在分类问题中为分类值。基于这些数据点的集合（通常称为训练数据），监督学习方法试图推断出一个函数，该函数可以成功地确定某些以前未见过的输入 $x^*$ 的标签 $y^*$ 。