有监督学习简介——阿里云课堂随堂笔记

2023-10-17 18:50

本文主要是介绍有监督学习简介——阿里云课堂随堂笔记,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

有监督学习算法

有监督学习(Supervised learning):利用一组已知类别的样本来训练模型,使其达到性能要求。

特点为输入数据(训练数据)均是一个明确的标识或结果(标签)。即我们提供样例”教“计算机如何学习。

分类:Classification

分类:就是通过已有的数据集(训练集)的学习,得到一个目标函数f(模型),把每个属性集x映射到目标属性y(类),且y必须是离散的(若y是连续的,则属于回归算法)。

通过对已知类别训练集的分析,从中发现分类规则,依次预测新数据的类型。

分类算法:

  • 按原理分类:
    • 基于统计的:如贝叶斯分类
    • 基于规则的:如决策树算法
    • 基于神经网络的:神经网络算法
    • 基于距离的:KNN(K最近邻)
  • 常用评估指标:
    • 精确率:预测结果与实际结果的比例
    • 召回率:预测结果中某类结果的正确覆盖率
    • F1-Score:统计量,综合评估分类模型,取值0-1之间,越大越好

KNN

KNN:k-NearestNeighbour,分类算法最简单的算法之一,其核心思想是如果离某一个样本最近的k个样本中大多数属于某一个类别,则该样本也属于这个类别,并具有这个类别上样本的特性。

KNN不但可以预测分类,还可以做回归分析(预测具体的值)。

有N个已知分类结果的样本点,对新记录r使用KNN将其分类的步骤:

  1. 确定k值,确定计算距离的公式,如欧氏距离
    • 确定k的取值,确定距离公式
      • 欧氏距离公式:两点间的距离
      • 曼哈顿距离:绝对值距离,横纵坐标差值绝对值的和
      • 余弦相似度:dij = cos(0A,0B),向量值计算
    • k的取值不宜过大,使用交叉验证确定
  2. 计算r和其他样本点之间的距离dir,其中i∈(1,N)
    • 计算r和所有样本点的距离
  3. 得到目前和r最接近的k个样本,作为KNN距的训练样本
    • 圈定符合条件的k条记录
    • 使用确定的距离计算公式计算所有点
    • 将距离升序排序,得到top K 个的值,选入KNN样本
  4. 将k个样本中最多归属类别的分类标签赋予新记录r,分类结束。
    • 统计k个样本中各分类的数量,从而确定新纪录r的分类

实现伪码

repeat计算已知类别数据集中的点与当前需预测点之间的距离按照距离递增排序
until 样本点遍历完成
返回前K个样本点
统计k个样本点中出现频率最高的类别标签

KNN优缺点

  • 优点:
    1. 原理简单、容易理解、容易实现
    2. 重新训练代价低
    3. 时间、空间复杂度取决于训练集(一般不算太大)
  • 缺点:
    1. KNN属于lazy-learning 算法,得到结果的及时性差
    2. k值对结果影响大(试想K=1或K=N的极端情况)
    3. 不同类记录相差较大时容易误差
    4. 样本点较多时,计算量较大
    5. 相对于决策树,结果的可解释性不强

决策树

构建流程

  1. 准备工作

    • 明确自变量和因变量
    • 确定信息度量的方式
    • 确定终止条件
  2. 选择特征

    • 得到当前待处理子集
    • 计算所有特征信息度量
    • 得到当前最佳分类特征
  3. 创建分支

    • 根据选中特征将当前记录分为不同分支,分支的个数取决于算法
  4. 是否终止

    • 判断是否满足终止条件

      满足则退出循环、不满足则继续递归调用

  5. 结果生成

    • 判断是否需要剪枝

      需要则进行适当剪枝、不需则为最终结果。

熟悉数据,明确目标

  1. 观察数据,明确自变量因变量
  2. 明确信息度量方式:信息增益
    • 基尼系数
  3. 明确分支终止条件
    • 纯度:记录分支完成后所有选项是否符合
    • 记录条数
    • 循环次数

信息熵

  • 信息论中的概念,香农提出
  • 描述混乱程度的度量
  • 取值范围0-1,值越大,越混乱

信息增益和特征选择

  • 信息增益
    • 信息是确定性的增加
    • 从一个状态到另一个状态信息的变化
    • 信息增益越大,对确定性贡献越大

例子:

搜索几种植物果实的颜色和味道,根据这两个信息确定是否为水果?

名称颜色甜味水果
西红柿
黄瓜绿色
苹果
火龙果

不考虑任何特征,直接去估计结果:2个水果,2个不是,概率2/4;

E = -2/4 *log(2/4,2)-2/4*log(2/4,2)=1

以颜色为参考信息来判断,红色3个中2个是水果,1个不是,绿色1个且不是水果,概率2/3,1/3,以及1,0;

E=3/4*(-2/3*log(2/3,2)-1/3*log(1/3,2))+1/4*(-1*log(1,2)-0) = 0.689

同理 以 味道为参考信息,判断可得“:

E = 2/4*(-2/2*log(2/2,2))+2/4*(-2/2*log(2/2,2)) = 0

信息增益:

  • 颜色:1- 0.689 = 0.311
  • 味道:1-0 = 1

构建决策树

  • ID3

在这里插入图片描述

  1. 选择当前最佳特征(循环判断)

    1. 第一级特征选择

      1. 计算各分项的熵
      2. 计算信息增益
      3. 选择信息增益最大的分项作为第一级特征
    2. 第二级特征选择

      和第一级特征选择一样,但是缺少了第一级特征

      当拆分的数据集中整体的熵均为0,纯度以满足退出条件选择

    3. 第三…级特征选择

      和第一、二级特征选择一样,但是缺少了第一、二级特征

      当拆分的数据集中整体的熵均为0,纯度以满足退出条件选择

  2. 生成决策树

ID3系列算法:

  1. ID3:

    • 核心:信息熵,根据信息增益决定树的节点
    • 存在的问题:
    • 信息度量不合理:倾向于选择取值多的字段
    • 输入类型单一:离散型
    • 不做剪枝,容易发生过拟合
  2. C4.5:和ID3相比的改进

    • 用信息增益率代替信息增益
    • 能对连续属性进行离散化,对不完整数据进行处理
    • 进行剪枝
  3. C50:C4.5 相比的改进

    • 使用了boosting
    • 前修建、后修建

CART

  • 核心是基尼系数
  • 分类是二叉树
  • 支持连续值和离散值
  • 后剪枝进行修建
  • 支持回归,可以预测连续值

在这里插入图片描述

ID3是经典的决策树原型(demo),他能很好的表现决策树处理问题的思路和想法,但在实际项目中很少使用

这篇关于有监督学习简介——阿里云课堂随堂笔记的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/227281

相关文章

HarmonyOS学习(七)——UI(五)常用布局总结

自适应布局 1.1、线性布局(LinearLayout) 通过线性容器Row和Column实现线性布局。Column容器内的子组件按照垂直方向排列,Row组件中的子组件按照水平方向排列。 属性说明space通过space参数设置主轴上子组件的间距,达到各子组件在排列上的等间距效果alignItems设置子组件在交叉轴上的对齐方式,且在各类尺寸屏幕上表现一致,其中交叉轴为垂直时,取值为Vert

Ilya-AI分享的他在OpenAI学习到的15个提示工程技巧

Ilya(不是本人,claude AI)在社交媒体上分享了他在OpenAI学习到的15个Prompt撰写技巧。 以下是详细的内容: 提示精确化:在编写提示时,力求表达清晰准确。清楚地阐述任务需求和概念定义至关重要。例:不用"分析文本",而用"判断这段话的情感倾向:积极、消极还是中性"。 快速迭代:善于快速连续调整提示。熟练的提示工程师能够灵活地进行多轮优化。例:从"总结文章"到"用

【前端学习】AntV G6-08 深入图形与图形分组、自定义节点、节点动画(下)

【课程链接】 AntV G6:深入图形与图形分组、自定义节点、节点动画(下)_哔哩哔哩_bilibili 本章十吾老师讲解了一个复杂的自定义节点中,应该怎样去计算和绘制图形,如何给一个图形制作不间断的动画,以及在鼠标事件之后产生动画。(有点难,需要好好理解) <!DOCTYPE html><html><head><meta charset="UTF-8"><title>06

学习hash总结

2014/1/29/   最近刚开始学hash,名字很陌生,但是hash的思想却很熟悉,以前早就做过此类的题,但是不知道这就是hash思想而已,说白了hash就是一个映射,往往灵活利用数组的下标来实现算法,hash的作用:1、判重;2、统计次数;

阿里开源语音识别SenseVoiceWindows环境部署

SenseVoice介绍 SenseVoice 专注于高精度多语言语音识别、情感辨识和音频事件检测多语言识别: 采用超过 40 万小时数据训练,支持超过 50 种语言,识别效果上优于 Whisper 模型。富文本识别:具备优秀的情感识别,能够在测试数据上达到和超过目前最佳情感识别模型的效果。支持声音事件检测能力,支持音乐、掌声、笑声、哭声、咳嗽、喷嚏等多种常见人机交互事件进行检测。高效推

零基础学习Redis(10) -- zset类型命令使用

zset是有序集合,内部除了存储元素外,还会存储一个score,存储在zset中的元素会按照score的大小升序排列,不同元素的score可以重复,score相同的元素会按照元素的字典序排列。 1. zset常用命令 1.1 zadd  zadd key [NX | XX] [GT | LT]   [CH] [INCR] score member [score member ...]

【机器学习】高斯过程的基本概念和应用领域以及在python中的实例

引言 高斯过程(Gaussian Process,简称GP)是一种概率模型,用于描述一组随机变量的联合概率分布,其中任何一个有限维度的子集都具有高斯分布 文章目录 引言一、高斯过程1.1 基本定义1.1.1 随机过程1.1.2 高斯分布 1.2 高斯过程的特性1.2.1 联合高斯性1.2.2 均值函数1.2.3 协方差函数(或核函数) 1.3 核函数1.4 高斯过程回归(Gauss

ASIO网络调试助手之一:简介

多年前,写过几篇《Boost.Asio C++网络编程》的学习文章,一直没机会实践。最近项目中用到了Asio,于是抽空写了个网络调试助手。 开发环境: Win10 Qt5.12.6 + Asio(standalone) + spdlog 支持协议: UDP + TCP Client + TCP Server 独立的Asio(http://www.think-async.com)只包含了头文件,不依

【学习笔记】 陈强-机器学习-Python-Ch15 人工神经网络(1)sklearn

系列文章目录 监督学习:参数方法 【学习笔记】 陈强-机器学习-Python-Ch4 线性回归 【学习笔记】 陈强-机器学习-Python-Ch5 逻辑回归 【课后题练习】 陈强-机器学习-Python-Ch5 逻辑回归(SAheart.csv) 【学习笔记】 陈强-机器学习-Python-Ch6 多项逻辑回归 【学习笔记 及 课后题练习】 陈强-机器学习-Python-Ch7 判别分析 【学

系统架构师考试学习笔记第三篇——架构设计高级知识(20)通信系统架构设计理论与实践

本章知识考点:         第20课时主要学习通信系统架构设计的理论和工作中的实践。根据新版考试大纲,本课时知识点会涉及案例分析题(25分),而在历年考试中,案例题对该部分内容的考查并不多,虽在综合知识选择题目中经常考查,但分值也不高。本课时内容侧重于对知识点的记忆和理解,按照以往的出题规律,通信系统架构设计基础知识点多来源于教材内的基础网络设备、网络架构和教材外最新时事热点技术。本课时知识