本文主要是介绍有监督学习简介——阿里云课堂随堂笔记,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!
有监督学习算法
有监督学习(Supervised learning):利用一组已知类别的样本来训练模型,使其达到性能要求。
特点为输入数据(训练数据)均是一个明确的标识或结果(标签)。即我们提供样例”教“计算机如何学习。
分类:Classification
分类:就是通过已有的数据集(训练集)的学习,得到一个目标函数f(模型),把每个属性集x映射到目标属性y(类),且y必须是离散的(若y是连续的,则属于回归算法)。
通过对已知类别训练集的分析,从中发现分类规则,依次预测新数据的类型。
分类算法:
- 按原理分类:
- 基于统计的:如贝叶斯分类
- 基于规则的:如决策树算法
- 基于神经网络的:神经网络算法
- 基于距离的:KNN(K最近邻)
- 常用评估指标:
- 精确率:预测结果与实际结果的比例
- 召回率:预测结果中某类结果的正确覆盖率
- F1-Score:统计量,综合评估分类模型,取值0-1之间,越大越好
KNN
KNN:k-NearestNeighbour,分类算法最简单的算法之一,其核心思想是如果离某一个样本最近的k个样本中大多数属于某一个类别,则该样本也属于这个类别,并具有这个类别上样本的特性。
KNN不但可以预测分类,还可以做回归分析(预测具体的值)。
有N个已知分类结果的样本点,对新记录r使用KNN将其分类的步骤:
- 确定k值,确定计算距离的公式,如欧氏距离
- 确定k的取值,确定距离公式
- 欧氏距离公式:两点间的距离
- 曼哈顿距离:绝对值距离,横纵坐标差值绝对值的和
- 余弦相似度:dij = cos(0A,0B),向量值计算
- k的取值不宜过大,使用交叉验证确定
- 确定k的取值,确定距离公式
- 计算r和其他样本点之间的距离dir,其中i∈(1,N)
- 计算r和所有样本点的距离
- 得到目前和r最接近的k个样本,作为KNN距的训练样本
- 圈定符合条件的k条记录
- 使用确定的距离计算公式计算所有点
- 将距离升序排序,得到top K 个的值,选入KNN样本
- 将k个样本中最多归属类别的分类标签赋予新记录r,分类结束。
- 统计k个样本中各分类的数量,从而确定新纪录r的分类
实现伪码
repeat计算已知类别数据集中的点与当前需预测点之间的距离按照距离递增排序
until 样本点遍历完成
返回前K个样本点
统计k个样本点中出现频率最高的类别标签
KNN优缺点
- 优点:
- 原理简单、容易理解、容易实现
- 重新训练代价低
- 时间、空间复杂度取决于训练集(一般不算太大)
- 缺点:
- KNN属于lazy-learning 算法,得到结果的及时性差
- k值对结果影响大(试想K=1或K=N的极端情况)
- 不同类记录相差较大时容易误差
- 样本点较多时,计算量较大
- 相对于决策树,结果的可解释性不强
决策树
构建流程
-
准备工作
- 明确自变量和因变量
- 确定信息度量的方式
- 确定终止条件
-
选择特征
- 得到当前待处理子集
- 计算所有特征信息度量
- 得到当前最佳分类特征
-
创建分支
- 根据选中特征将当前记录分为不同分支,分支的个数取决于算法
-
是否终止
-
判断是否满足终止条件
满足则退出循环、不满足则继续递归调用
-
-
结果生成
-
判断是否需要剪枝
需要则进行适当剪枝、不需则为最终结果。
-
熟悉数据,明确目标
- 观察数据,明确自变量和因变量
- 明确信息度量方式:信息增益
- 熵
- 基尼系数
- 明确分支终止条件
- 纯度:记录分支完成后所有选项是否符合
- 记录条数
- 循环次数
信息熵
- 信息论中的概念,香农提出
- 描述混乱程度的度量
- 取值范围0-1,值越大,越混乱
信息增益和特征选择
- 信息增益
- 信息是确定性的增加
- 从一个状态到另一个状态信息的变化
- 信息增益越大,对确定性贡献越大
例子:
搜索几种植物果实的颜色和味道,根据这两个信息确定是否为水果?
名称 | 颜色 | 甜味 | 水果 |
---|---|---|---|
西红柿 | 红 | 否 | 否 |
黄瓜 | 绿色 | 否 | 否 |
苹果 | 红 | 是 | 是 |
火龙果 | 红 | 是 | 是 |
不考虑任何特征,直接去估计结果:2个水果,2个不是,概率2/4;
E = -2/4 *log(2/4,2)-2/4*log(2/4,2)=1
以颜色为参考信息来判断,红色3个中2个是水果,1个不是,绿色1个且不是水果,概率2/3,1/3,以及1,0;
E=3/4*(-2/3*log(2/3,2)-1/3*log(1/3,2))+1/4*(-1*log(1,2)-0) = 0.689
同理 以 味道为参考信息,判断可得“:
E = 2/4*(-2/2*log(2/2,2))+2/4*(-2/2*log(2/2,2)) = 0
信息增益:
- 颜色:1- 0.689 = 0.311
- 味道:1-0 = 1
构建决策树
- ID3
-
选择当前最佳特征(循环判断)
-
第一级特征选择
- 计算各分项的熵
- 计算信息增益
- 选择信息增益最大的分项作为第一级特征
-
第二级特征选择
和第一级特征选择一样,但是缺少了第一级特征
当拆分的数据集中整体的熵均为0,纯度以满足退出条件选择
-
第三…级特征选择
和第一、二级特征选择一样,但是缺少了第一、二级特征
当拆分的数据集中整体的熵均为0,纯度以满足退出条件选择
-
-
生成决策树
ID3系列算法:
-
ID3:
- 核心:信息熵,根据信息增益决定树的节点
- 存在的问题:
- 信息度量不合理:倾向于选择取值多的字段
- 输入类型单一:离散型
- 不做剪枝,容易发生过拟合
-
C4.5:和ID3相比的改进
- 用信息增益率代替信息增益
- 能对连续属性进行离散化,对不完整数据进行处理
- 进行剪枝
-
C50:C4.5 相比的改进
- 使用了boosting
- 前修建、后修建
CART
- 核心是基尼系数
- 分类是二叉树
- 支持连续值和离散值
- 后剪枝进行修建
- 支持回归,可以预测连续值
ID3是经典的决策树原型(demo),他能很好的表现决策树处理问题的思路和想法,但在实际项目中很少使用
这篇关于有监督学习简介——阿里云课堂随堂笔记的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!