本文主要是介绍弱监督学习,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!
弱监督学习是指数据集的标签是不可靠的,如(x,y),y对于x的标记是不可靠的。这里的不可靠是指标记不正确、多种标记、标记不充分、局部标记等。针对监督信息不完整或不明确对象的学习问题统称为弱监督学习。
监督学习技术通过学习大量训练样本来构建预测模型,其中每个训练样本都有一个标签标明其真值输出。尽管当前的技术已经取得了巨大的成功,但是值得注意的是,由于数据标注过程的高成本,很多任务很难获得如全部真值标签这样的强监督信息。因此,能够使用弱监督的机器学习技术是可取的。
通常来说,弱监督可以分为三类。第一类是不完全监督(incomplete supervision),即,只有训练集的一个(通常很小的)子集是有标签的,其他数据则没有标签。第二类是不确切监督(inexact supervision),即只有粗粒度的标签。第三种是不准确的监督(inaccurate supervision),模型给出的标签不总是真值。
不完全监督
不完全监督考虑那些我们只拥有少量有标注数据的情况,这些有标注数据并不足以训练出好的模型,但是我们拥有大量未标注数据可供使用。形式化表达为,模型的任务是从训练数据集中学习,其中训练集中有 l 个有标注训练样本(即给出 的样本)和 u = m - l 个未标注样本;其他条件与具有强监督的监督学习相同。将 l 个有标注示例称为「标注数据」,将 u 个未标注示例称为「未标注数据」。
能够实现此目标的主要两类技巧,即主动学习和半监督学习 :
不确切监督
不确切监督关注于给定了监督信息,但信息不够精确的场景。一个典型的场景是仅有粗粒度的标签信息可用。
形式化表达为,该任务是从训练数据集中学习,其中被称为一个包。
,是一个示例,m_i 是示例 X_i 的数量,。
X_i 是一个 positive 包,即 y_i=Y,如果存在 x_ip 是正的,同时是未知的。其目标是为未见过的包预测标签。该方法被称为多示例学习.
不准确监督
不准确监督关注于监督信息不总是真值的场景,也就是说,有部分信息会出现错误。在实践中,基本的思想是识别潜在的误分类样本 ,然后尝试进行修正。
参考:
[1] https://www.jiqizhixin.com/articles/2018-03-05
这篇关于弱监督学习的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!