西瓜书第一二章

2023-11-09 09:30
文章标签 西瓜 第一二

本文主要是介绍西瓜书第一二章,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

第一章

机器学习: 人的“经验”对应计算机中的“数据”,让计算机来学习这些经验数据,生成一个算法模型,在面对新的情况中,计算机便能作出有效的判断,这便是机器学习。

机器学习研究的主要内容:学习算法。从数据中产生模型(model)的算法。

Mitchell 给出一个更形式化的定义:假设用 P 来评估计算机在任务 T 上的性能,若一个程序利用经验 E 在 T 中任务上取得了性能上的改善,则我们说关于 P 和 T,改程序对 E 进行了学习。

  • P:计算机程序在某任务类T上的性能。
  • T:计算机程序希望实现的任务类。
  • E:表示经验,即历史的数据集。

分类、回归和聚类是机器学习的三大任务。分类和回归都是预测任务,区别在于预测值是离散还是连续;聚类将训练集中的数据分成若干组(簇),以帮助发现一些数据内在的规律。

泛化能力(generalization):学得模型适用于新样本的能力。能够反映出样本空间的特性的训练集越有可能经过学习得到具有强泛化能力的模型。

第二章

过拟合(overfitting):学习能力过于强大,把训练样本自身的一些特点当成所有潜在样本都会有的一般性质,导致泛化能力下降
欠拟合(underfitting):学习能力太差,对训练样本的一般性质尚未学好

评估方法:

1、留出法:将数据集D划分为两个互斥的集合,一个作为训练集S,一个作为测试集T,即D=S∪T且S∩T=∅。

2、交叉验证法:将数据集D划分为k个大小相同的互斥子集,每次用k-1个子集的并集作为训练集,余下的子集作为测试集。

可进行k次训练和测试,最终返回k个测试结果的均值

交叉验证法评估结果的稳定性很大程度上取决于k的取值,k最常用的取值是10,此时称为10折交叉验证,其他常用5,20;

3、自助法:留出法和交叉验证都保留了一部分样本用于测试,导致训练集实际上比 D 小,这会引入因训练样本规模不同而导致的估计偏差。自助法(boostrapping)是一种解决方案。

我们通过对有 m 个样本的 D 进行 m 次采样得到 D’,用 D’ 作为训练集,D\D’ 作为测试集。显然,有些样本在 D’ 中出现多次,有些一次也不出现。

样本在 m 次采样中都不被采样到的概率为 ( 1 − 1 m ) m (1-\frac{1}{m})^m (1m1)m ,取极限得到其概率为 1 e = 0.368 \frac{1}{e}=0.368 e1=0.368,即 D 中约有 37% 的样本未出现在 D’ 中。依旧有不曾出现在训练集中的样本用于测试,这样的测试结果成为“包外估计”。

优点:在数据集较小难以划分 T 和 S 时很有用;同时能够产生多个不同的训练集,对集成学习有帮助

缺点:自助法产生的数据集改变了初始数据集的分布(样本出现的次数发生改变),会引入估计偏差

因此在样本数量足够时,多采用留出法和交叉验证法。

评估指标:
准确率 = 所有预测对的 / 所有样本 = (真阳性 + 真阴性)/ (真阳+真阴+假阳+假阴) 
敏感度(召回率) = 好人被预测对的 / 所有真实是好人 = 真阳 / (真阳 + 假阴)
特异度 = 坏人被预测对的 / 所有真实是坏人 = 真阴 / (真阴 + 假阳) 
准确率 = TP / TP + NP 
F分数 = 准确率和召回率的调和平均数
ROC曲线 同时关注特异度和敏感度,使得两者和最大

首先,召回率和精准率是基于好人的标准上的。F分数也只是关注辨识好人的能力。

其次,分析好人标准于同时影响敏感度与特异度。已经知道好人标准会影响敏感度(召回率),同时,好人标准也会影响特异度,因为好人的标准越高,就越多坏人可以被认出来,特异度就变高(真阴变多,假阳减少),但是召回率就变低,因为有些不是特别好的好人可能也被当为坏人了。相反,好人标准变低,坏人容易被认为好人(真阴减少,假阳变多),特异度就变低,同时召回率就升高了(真阳变多,假阴变少)。

最后分析ROC曲线的实际意义。这个好人标准,就是机器学习中所说的阈值,调节阈值
实例

这篇关于西瓜书第一二章的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/375302

相关文章

机器学习(西瓜书)第 4 章决策树

4.1 决策树基本流程 决策树模型 基本流程 在第⑵种情形下,我们把当前结点标记为叶结点,并将其类别设定为该结点所含样本最多的类别;在第⑶种情形下,同样把当前结点标记为叶结点,但将其类别设定为其父结点所含样本最多的类别.注意这两种情形的处理实质不同:情形⑵是在利用当前结点的后验分布,而情形⑶则是把父结点的样本分布作为当前结点的先验分布. 基本算法 由算法4 .2可看出,决策树学习

《西瓜书》第六章 公式6.6 凸二次规划问题

1. 凸优化问题 对于一般的非线性规划,若目标函数是凸函数,约束集合 D D D 是凸集,则称该非线性规划是凸规划。 若上述约束规划中只含有不等式约束,又 c i ( x ) ( i ∈ I ) c_i(x)(i∈I) ci​(x)(i∈I)是凸函数,则约束集 D D D 是凸集。 对于混合约束问题,若 c i ( x ) ( i ∈ E ) c_i(x)(i∈E) ci​(x)(i∈E

《西瓜书》第六章 SVM支持向量机 笔记

文章目录 6.1 间隔与支持向量6.1.1 超平面6.1.2 支持向量6.1.3 间隔6.1.4 最大间隔 6.2 对偶问题6.2.1 凸二次规划6.2.2 对偶问题6.2.3 支持向量机的一个重要性质 6.3 核函数6.3.1 支持向量展开式6.3.2 核函数定理6.3.3 常用的核函数6.3.4 核函数特点 6.4 软间隔与正则化6.4.1 硬间隔6.4.2 软间隔6.4.3 替代损失6

《西瓜书》第四章 决策树 笔记

文章目录 4.1 基本流程4.1.1 组成4.1.2 目的4.1.3 策略4.1.4 算法 4.2 划分选择4.2.1信息增益-ID3决策树4.2.1.1 信息熵4.2.1.1 信息增益 4.2.2 增益率-C4.5决策树4.2.3 基尼指数-CART决策树4.2.3.1 基尼值4.2.3.2 基尼指数 4.3 剪枝处理4.3.1 预剪枝4.3.2 后剪枝 4.4 连续与缺失值4.4.1

《西瓜书》第三章 线性模型 手写版笔记

《西瓜书》第三章 线性模型 手写版笔记 文章目录 《西瓜书》第三章 线性模型 手写版笔记3.0 知识点总览3.1 线性回归(Linear Regression)求解的推导过程3.1.1 单变量线性回归3.1.2 多变量线性回归3.1.3 对数线性回归 3.2 逻辑回归(Logistic Regression)3.3 线性判别(LDA)3.4 多分类学习的拆分策略3.5 处理类别不平衡问题三

机器学习西瓜书笔记(九) 第九章聚类+代码

第九章 第九章聚类9.1 聚类任务小结 9.2 性能度量小结 9.3 距离计算小结 9.4 原型聚类9.4.1 k均值算法9.4.2 学习向量量化9.4.3 高斯混合聚类小结 9.5 密度聚类小结 9.6 层次聚类小结 代码K-means层次聚类DBSCAN 总结 第九章聚类 9.1 聚类任务 在"无监督学习"中,训练样本的标记信息是未知的,目标是通过对无标记训练样本的学习来

机器学习西瓜书笔记(八) 第八章集成学习+代码

第八章 第8章集成学习8.1 个体与集成小结个体学习(Individual Learning)集成学习(Ensemble Learning)比较 8.2 Boosting小结 8.3 Bagging与随机森林8.3.1 Bagging8.3.2随机森林小结 8.4 结合策略8.4.1 平均法8.4.2 投票法8.4.3 学习法小结 8.5多样性8.5.1 误差-分歧分解8.5.2 多样性度量

【机器学习】西瓜书第二章——模型评估与选择

参考资料:[1]周志华.机器学习[M].清华大学出版社,2016. 一、经验误差与过拟合 通常我们把分类错误的样本数占样本总数的比例称为“错误率”(erroe rate),即如果在 m m m 个样本中有 a a a 个样本分类错误,则错误率 E = a / m E=a/m E=a/m;相应地, 1 − a / m 1-a/m 1−a/m 称为“精度”(accuracy)。 更一般地,

西瓜书——决策树

决策树(DT)是用于分类和回归的非参数监督学习方法。目标是创建一个模型,通过学习从数据特征推断出的简单决策规则来预测目标变量的值。 例如,在下面的示例中,决策树从数据中学习以使用一组if-then-else决策规则来近似正弦曲线。树越深,决策规则越复杂,模型越适合。 决策树的一些优点是: 易于理解和解释。树木可以看到。需要很少的数据准备。其他技术通常需要数据规范化,需要创建虚拟变

【西瓜书】第一二章笔记

耽于学业,选择速记,后续再补。本笔记质量不高,敬请谅解。 关键词: 监督学习(Supervised Learning):一种机器学习范式,其中模型在带有标签的数据集上进行训练。标签提供了正确的答案,算法通过对比预测结果与实际标签,调整模型参数以最小化误差。监督学习主要包括分类和回归两种任务。 模型(Model):在机器学习中,模型是用来表示输入数据与输出结果之间关系的数学结构。模型可