机器学习与数据挖掘(2):学习的可能性

2024-08-24 11:08

本文主要是介绍机器学习与数据挖掘(2):学习的可能性,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

误差理论

① 偏倚(bias)和方差(variance)

在讨论线性回归时,我们用一次线性函数对训练样本进行拟合(如图1所示);然而,我们可以通过二次多项式函数对训练样本进行拟合(如图2所示),函数对样本的拟合程序看上去更“好”;当我们利用五次多项式函数对样本进行拟合(如图3所示),函数通过了所有样本,成为了一次“完美”的拟合。

这里写图片描述
这里写图片描述
这里写图片描述

图3建立的模型,在训练集中通过x可以很好的预测y,然而,我们却不能期望该模型能够很好的预测训练集外的数据。换句话说,这个模型没有很好的泛化能力。因此,模型的泛化误差(generalization error)不仅包括其在样本上的期望误差,还包括在训练集上的误差。

图1和图3中的模型都有较大的泛化误差,然而他们的误差原因却不相同。图1建立了一个线性模型,但是该模型并没有精确的捕捉到训练集数据的结构,我们称图1有较大的偏倚(bias),也称欠拟合;图3通过5次多项式函数很好的对样本进行了拟合,然而,如果将建立的模型进行泛化,并不能很好的对训练集之外数据进行预测,我们称图3有较大的方差(variance),也称过拟合。

通常,在偏倚和方差之间,这样一种规律:如果模型过于简单,其具有大的偏倚,而如果模型过于复杂,它就有大的方差。调整模型的复杂度,建立适当的误差模型,就变得极其重要了。

② 预备知识

首先我们先介绍两个非常有用的引理:

引理1

一致限(the union bound)令 A1,A2,A3,A4,,Ak 为k个不同的事件(不一定相互独立),那么有:

P(A1A2Ak)P(A1)++P(Ak)

一致限说明:k个事件中任一个事件发生的概率小于等于这k个事件发生的概率和(等号成立的条件为这k个事件相两两互斥)。

引理2

Hoeffding不等式(Hoeffding’s inequality)令 Z1,Z2,Z3,Z4,,Zm 为m个独立同分布的随机变量,由参数为 ϕ 的伯努利分布(特殊的二项分布,即 P(Zi=1)=ϕ, P(Zi=0)=1ϕ )生成。令, ϕ^=1mmi=1Zi 为这些随机变量的均值,对于任意 γ>0 有:

P(|ϕϕ^|>γ)2e2γ2m

P(|ϕϕ^|γ)>12e2γ2m

Hoeffding刻画的是某个事件的真实概率及其m个独立重复试验中观察到的频率之间的差异,更准确的将,它是应用于m个不同的伯努利实验。

在机器学习中,引理2称为Chernoff边界(Chernoff bound),它说明:假设我们用随机变量的均值 ϕ^ 去估计参数 ϕ ,估计的参数和实际参数的差超过一个特定数值的概率有一确定的上界,并且随着样本量m的增大, ϕ^ ϕ 很接近的概率也越来越大。

通过以上两个引理,我们能够引出机器学习中很重要结论。

为简单起见,我们只讨论二分类问题,即类标签为 y{0,1}

假设给定的训练集为 S={(x(i),y(i));i=1,,m} ,且各训练样本 (x(i),y(i)) 独立同分布,皆为某个特定分布D生成。对于一个假设函数(hypothesis),定义训练误差(training error)(也称为经验风险(empirical risk)或经验误差(empiriacal error))为:

ϵ^=1mi=1m#{h(x(i))y(i)}

训练误差为模型在训练样本中的错分类的比例,如果我们要强调 ϵ^ 是依赖训练集的,也可以将其写作 ϵ^s(h)

我们再定义泛化误差(generalization error)

ϵ(h)=P(x,y)D(h(x)y)

这里得到的是一个概率,表示通过特定的分布D生成的样本 (x,y) 中的y与通过预测函数h(x)生成的结果不同的概率。

注意,我们假设训练集的数据是通过某种分布D生成的,我们以此为依据来衡量假设函数。这里的假设有时称为PAC(probablyapproximately correct)假设。

在线性分类中,假设函数 hθ(x)=1{θTx0} 中参数如何得来?其中一个方法就是调整参数 θ ,使得训练误差最小,即:

θ^=argminθε^(hθ)

这篇关于机器学习与数据挖掘(2):学习的可能性的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1102303

相关文章

HarmonyOS学习(七)——UI(五)常用布局总结

自适应布局 1.1、线性布局(LinearLayout) 通过线性容器Row和Column实现线性布局。Column容器内的子组件按照垂直方向排列,Row组件中的子组件按照水平方向排列。 属性说明space通过space参数设置主轴上子组件的间距,达到各子组件在排列上的等间距效果alignItems设置子组件在交叉轴上的对齐方式,且在各类尺寸屏幕上表现一致,其中交叉轴为垂直时,取值为Vert

Ilya-AI分享的他在OpenAI学习到的15个提示工程技巧

Ilya(不是本人,claude AI)在社交媒体上分享了他在OpenAI学习到的15个Prompt撰写技巧。 以下是详细的内容: 提示精确化:在编写提示时,力求表达清晰准确。清楚地阐述任务需求和概念定义至关重要。例:不用"分析文本",而用"判断这段话的情感倾向:积极、消极还是中性"。 快速迭代:善于快速连续调整提示。熟练的提示工程师能够灵活地进行多轮优化。例:从"总结文章"到"用

【前端学习】AntV G6-08 深入图形与图形分组、自定义节点、节点动画(下)

【课程链接】 AntV G6:深入图形与图形分组、自定义节点、节点动画(下)_哔哩哔哩_bilibili 本章十吾老师讲解了一个复杂的自定义节点中,应该怎样去计算和绘制图形,如何给一个图形制作不间断的动画,以及在鼠标事件之后产生动画。(有点难,需要好好理解) <!DOCTYPE html><html><head><meta charset="UTF-8"><title>06

学习hash总结

2014/1/29/   最近刚开始学hash,名字很陌生,但是hash的思想却很熟悉,以前早就做过此类的题,但是不知道这就是hash思想而已,说白了hash就是一个映射,往往灵活利用数组的下标来实现算法,hash的作用:1、判重;2、统计次数;

零基础学习Redis(10) -- zset类型命令使用

zset是有序集合,内部除了存储元素外,还会存储一个score,存储在zset中的元素会按照score的大小升序排列,不同元素的score可以重复,score相同的元素会按照元素的字典序排列。 1. zset常用命令 1.1 zadd  zadd key [NX | XX] [GT | LT]   [CH] [INCR] score member [score member ...]

【测试】输入正确用户名和密码,点击登录没有响应的可能性原因

目录 一、前端问题 1. 界面交互问题 2. 输入数据校验问题 二、网络问题 1. 网络连接中断 2. 代理设置问题 三、后端问题 1. 服务器故障 2. 数据库问题 3. 权限问题: 四、其他问题 1. 缓存问题 2. 第三方服务问题 3. 配置问题 一、前端问题 1. 界面交互问题 登录按钮的点击事件未正确绑定,导致点击后无法触发登录操作。 页面可能存在

【机器学习】高斯过程的基本概念和应用领域以及在python中的实例

引言 高斯过程(Gaussian Process,简称GP)是一种概率模型,用于描述一组随机变量的联合概率分布,其中任何一个有限维度的子集都具有高斯分布 文章目录 引言一、高斯过程1.1 基本定义1.1.1 随机过程1.1.2 高斯分布 1.2 高斯过程的特性1.2.1 联合高斯性1.2.2 均值函数1.2.3 协方差函数(或核函数) 1.3 核函数1.4 高斯过程回归(Gauss

【学习笔记】 陈强-机器学习-Python-Ch15 人工神经网络(1)sklearn

系列文章目录 监督学习:参数方法 【学习笔记】 陈强-机器学习-Python-Ch4 线性回归 【学习笔记】 陈强-机器学习-Python-Ch5 逻辑回归 【课后题练习】 陈强-机器学习-Python-Ch5 逻辑回归(SAheart.csv) 【学习笔记】 陈强-机器学习-Python-Ch6 多项逻辑回归 【学习笔记 及 课后题练习】 陈强-机器学习-Python-Ch7 判别分析 【学

系统架构师考试学习笔记第三篇——架构设计高级知识(20)通信系统架构设计理论与实践

本章知识考点:         第20课时主要学习通信系统架构设计的理论和工作中的实践。根据新版考试大纲,本课时知识点会涉及案例分析题(25分),而在历年考试中,案例题对该部分内容的考查并不多,虽在综合知识选择题目中经常考查,但分值也不高。本课时内容侧重于对知识点的记忆和理解,按照以往的出题规律,通信系统架构设计基础知识点多来源于教材内的基础网络设备、网络架构和教材外最新时事热点技术。本课时知识

线性代数|机器学习-P36在图中找聚类

文章目录 1. 常见图结构2. 谱聚类 感觉后面几节课的内容跨越太大,需要补充太多的知识点,教授讲得内容跨越较大,一般一节课的内容是书本上的一章节内容,所以看视频比较吃力,需要先预习课本内容后才能够很好的理解教授讲解的知识点。 1. 常见图结构 假设我们有如下图结构: Adjacency Matrix:行和列表示的是节点的位置,A[i,j]表示的第 i 个节点和第 j 个