【西瓜书】1.绪论

2024-06-05 00:04
文章标签 绪论 西瓜

本文主要是介绍【西瓜书】1.绪论,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

1.基本术语

(1)数据集不带最后一列:样本/示例/特征向量

        带最后一列:样例

(2)表头不带最后一列:属性/特征,属性空间/特征空间/样本空间/输入空间

         表头最后一列:标记/输出,标记空间/输出空间

(3)训练集:训练示例、训练样本、训练例

         测试集:测试示例、测试样本、测试例

(4)学习任务:分类(二分类/多分类)、回归、聚类

          分类和回归为监督学习,聚类为无监督学习

2.假设空间

(1)归纳:特殊到一般(泛化)

        演绎:一般到特殊(特化)

(2)从样例中学习是归纳学习

(3)假设空间样本空间标记空间的映射,是属性所有可能的取值组合构成的空间

(4)假设空间大小:sum(属性的取值数+1)+1,第一个+1表示取通配符*,第二个+1表示∅这种极端情况

(5)搜索假设空间:自顶向下(一般到特殊)、自底向上(特殊到一般)

        搜索过程中删除和正例不一致的假设

(6)假设空间的子集中,与训练集一致的空间的集合为版本空间,版本空间中的所有树都能将所有样本判断正确。版本空间包含了所有可能的决策树,这些决策树能够完美地对训练集进行分类,即没有误分类的样本。

3.归纳偏好

(1)版本空间中不同的模型在训练集上表现一致,选哪个去预测测试集?

(2)根据偏好选择比如特殊的、一般的、或根据领域知识决定某个属性取某某的(与特征选择不同)。

(3)原则:奥卡姆剃刀(选简单的平滑的)、没有免费的午餐(具体问题具体分析)

这篇关于【西瓜书】1.绪论的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1031506

相关文章

【自然语言处理】第一章绪论

第一章 绪论 文章目录 第一章 绪论1. 什么是自然语言2. 自然语言处理的定义2.1 自然语言处理NLP2.2 计算语言学CL2.3 NLP与CL 3. 自然语言处理的研究内容3.1 研究对象3.2 研究层次3.3 研究问题3.4 研究内容3.4.1 资源建设3.4.2 基础研究3.4.3 应用技术研究3.4.4 应用系统 4. 自然语言处理的流派5. 自然语言处理的挑战

机器学习(西瓜书)第 4 章决策树

4.1 决策树基本流程 决策树模型 基本流程 在第⑵种情形下,我们把当前结点标记为叶结点,并将其类别设定为该结点所含样本最多的类别;在第⑶种情形下,同样把当前结点标记为叶结点,但将其类别设定为其父结点所含样本最多的类别.注意这两种情形的处理实质不同:情形⑵是在利用当前结点的后验分布,而情形⑶则是把父结点的样本分布作为当前结点的先验分布. 基本算法 由算法4 .2可看出,决策树学习

《西瓜书》第六章 公式6.6 凸二次规划问题

1. 凸优化问题 对于一般的非线性规划,若目标函数是凸函数,约束集合 D D D 是凸集,则称该非线性规划是凸规划。 若上述约束规划中只含有不等式约束,又 c i ( x ) ( i ∈ I ) c_i(x)(i∈I) ci​(x)(i∈I)是凸函数,则约束集 D D D 是凸集。 对于混合约束问题,若 c i ( x ) ( i ∈ E ) c_i(x)(i∈E) ci​(x)(i∈E

《西瓜书》第六章 SVM支持向量机 笔记

文章目录 6.1 间隔与支持向量6.1.1 超平面6.1.2 支持向量6.1.3 间隔6.1.4 最大间隔 6.2 对偶问题6.2.1 凸二次规划6.2.2 对偶问题6.2.3 支持向量机的一个重要性质 6.3 核函数6.3.1 支持向量展开式6.3.2 核函数定理6.3.3 常用的核函数6.3.4 核函数特点 6.4 软间隔与正则化6.4.1 硬间隔6.4.2 软间隔6.4.3 替代损失6

《西瓜书》第四章 决策树 笔记

文章目录 4.1 基本流程4.1.1 组成4.1.2 目的4.1.3 策略4.1.4 算法 4.2 划分选择4.2.1信息增益-ID3决策树4.2.1.1 信息熵4.2.1.1 信息增益 4.2.2 增益率-C4.5决策树4.2.3 基尼指数-CART决策树4.2.3.1 基尼值4.2.3.2 基尼指数 4.3 剪枝处理4.3.1 预剪枝4.3.2 后剪枝 4.4 连续与缺失值4.4.1

《西瓜书》第三章 线性模型 手写版笔记

《西瓜书》第三章 线性模型 手写版笔记 文章目录 《西瓜书》第三章 线性模型 手写版笔记3.0 知识点总览3.1 线性回归(Linear Regression)求解的推导过程3.1.1 单变量线性回归3.1.2 多变量线性回归3.1.3 对数线性回归 3.2 逻辑回归(Logistic Regression)3.3 线性判别(LDA)3.4 多分类学习的拆分策略3.5 处理类别不平衡问题三

机器学习西瓜书笔记(九) 第九章聚类+代码

第九章 第九章聚类9.1 聚类任务小结 9.2 性能度量小结 9.3 距离计算小结 9.4 原型聚类9.4.1 k均值算法9.4.2 学习向量量化9.4.3 高斯混合聚类小结 9.5 密度聚类小结 9.6 层次聚类小结 代码K-means层次聚类DBSCAN 总结 第九章聚类 9.1 聚类任务 在"无监督学习"中,训练样本的标记信息是未知的,目标是通过对无标记训练样本的学习来

【数据库系统概论】绪论----数据库系统概论(三)

1.2.7 关系模型     关系模型是目前最重要的一种数据模型。  一、关系模型的数据结构     关系模型是由一组关系组成的,每个关系的数据结构是一张规范化的二维表。 关系:一个关系通常对应一张表 元组:表中一行即为一个元组 属性:一列 码:某个属性组可以唯一确定一个元组 域:属性的取值范围 分量:元组中的一个属性值 关系模式:用表模型来描述:关系名(属性1,属

【数据库系统概论】绪论----数据库系统概论(二)

1.2数据模型 上接18页 1.2.4 最常用的数据模型 最常用的逻辑数据模型有: 层次模型网状模型关系模型面向对象模型对象关系模型         层次模型和网状模型统称为格式化模型,20世纪70年代比较流行,后来逐渐被关系模型逐渐取代。         数据结构,数据操作和完整性约束三方面完整的描述了一个数据模型。         数据结构是刻画模型性质的最本质方面。

【数据库系统概论】绪论----数据库系统概论(一)

1.1 数据库系统概论 1.1.1 数据库系统概论         1. 数据             描述事物的符号记录称为是数据;               数据的解释叫做语义,他与数据时密不可分的;              记录是计算机中表示和储存数据的一种格式或者一个方法;         2. 数据库              把数据以一定的格式存放在计算机储存设备上