统计学习-KNN

2024-08-31 21:32
文章标签 统计 学习 knn

本文主要是介绍统计学习-KNN,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

KNN是一种基本的分类(由与该样本最近的k个样本进行投票表决)与回归方法(回归问题:可以将一个样本的k个近邻的平均属性或者加权平均属性赋予该样本)。k值的选择,距离度量以及分类决策规则是KNN的三个基本要素。KNN1968年由Cover和Hart提出。

1.距离的度量

1.1闵可夫斯基距离
闵可夫斯基距离不是距离,是一组距离的定义。
Lp(xi,yi)=(nl=1xlixljp)1p

1.2当 p=2 时,称为欧式距离,即有:
Lp(xi,yi)=(nl=1xlixlj2)12

1.3当 p=1 时,称为曼哈顿距离,即有:
Lp(xi,yi)=nl=1xlixlj

1.4当 p= 时,称为切比雪夫距离,即有:
Lp(xi,yi)=maxl=1xlixlj

1.5夹角余弦
cos(θ)=xixj|xi||xj|

1.6汉明距离
两个特征向量之间的汉明距离定义为将其中一个变为另外一个所需要作的最小替换次数。例如特征向量“1111”与“1001”之间的汉明距离为2。应用:信息编码(为了增强容错性,应使得编码间的最小汉明距离尽可能大)

2.K值得选择

k值较小的时候,只有与测试样本较近的训练实例才会对预测结果起作用,但是缺点是泛化能力较差,因为如果离测试样本最近的训练实例刚好是噪声,预测就会出错。换句话说,k值得减小意味着整体模型变得复杂,容易发生过拟合。
k值较大的时候,比如k=N(训练样本总数),这种模型就过于简单,无论来了什么样本都将其预测为训练样本中最多的类别。这种模型忽略了训练实例中大量有用的信息。
在实际应用中,k的取值一般较小,然后是通过交叉验证的方法来确定最优k值。

3.分类决策规则

一般用投票的机理决定样本的类别,而多数表决等价于经验风险最小化。

4.kNN的实现:kd树

kNN最简单的实现就是线性扫面,假若存在N个样本,那么时间复杂度就是 ON ,利用kd树可以使得时间复杂度为 O(logN)

算法:构建k-d树(createKDTree)  
输入:数据点集Data-set和其所在的空间Range(感觉这个Range应该就是split域的值)  
输出:Kd,类型为k-d tree  
1.If Data-set为空,则返回空的k-d tree  
2.调用节点生成程序:  (1)确定split域:对于所有描述子数据(特征矢量),统计它们在每个维上的数据方差。假设每条数据记录为64维,可计算64个方差。挑选出最大值,对应的维就是split域的值。数据方差大表明沿该坐标轴方向上的数据分散得比较开,在这个方向上进行数据分割有较好的分辨率;  (2)确定Node-data域:数据点集Data-set按其第split域的值排序。位于正中间的那个数据点被选为Node-data。此时新的Data-set' = Data-set \ Node-data(除去其中Node-data这一点)。  
3.dataleft = {d属于Data-set' && d[split] ≤ Node-data[split]}  Left_Range = {Range && dataleft}  dataright = {d属于Data-set' && d[split] > Node-data[split]}  Right_Range = {Range && dataright}  
4.left = 由(dataleft,Left_Range)建立的k-d tree,即递归调用createKDTree(dataleft,Left_Range)。并设置left的parent域为Kd;  right = 由(dataright,Right_Range)建立的k-d tree,即调用createKDTree(dataleft,Left_Range)。并设置right的parent域为Kd。 

如果想详细了解KNN以及相关拓展可以参考该文。

这篇关于统计学习-KNN的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1125045

相关文章

opencv实现像素统计的示例代码

《opencv实现像素统计的示例代码》本文介绍了OpenCV中统计图像像素信息的常用方法和函数,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一... 目录1. 统计像素值的基本信息2. 统计像素值的直方图3. 统计像素值的总和4. 统计非零像素的数量

如何使用 Bash 脚本中的time命令来统计命令执行时间(中英双语)

《如何使用Bash脚本中的time命令来统计命令执行时间(中英双语)》本文介绍了如何在Bash脚本中使用`time`命令来测量命令执行时间,包括`real`、`user`和`sys`三个时间指标,... 使用 Bash 脚本中的 time 命令来统计命令执行时间在日常的开发和运维过程中,性能监控和优化是不

HarmonyOS学习(七)——UI(五)常用布局总结

自适应布局 1.1、线性布局(LinearLayout) 通过线性容器Row和Column实现线性布局。Column容器内的子组件按照垂直方向排列,Row组件中的子组件按照水平方向排列。 属性说明space通过space参数设置主轴上子组件的间距,达到各子组件在排列上的等间距效果alignItems设置子组件在交叉轴上的对齐方式,且在各类尺寸屏幕上表现一致,其中交叉轴为垂直时,取值为Vert

Ilya-AI分享的他在OpenAI学习到的15个提示工程技巧

Ilya(不是本人,claude AI)在社交媒体上分享了他在OpenAI学习到的15个Prompt撰写技巧。 以下是详细的内容: 提示精确化:在编写提示时,力求表达清晰准确。清楚地阐述任务需求和概念定义至关重要。例:不用"分析文本",而用"判断这段话的情感倾向:积极、消极还是中性"。 快速迭代:善于快速连续调整提示。熟练的提示工程师能够灵活地进行多轮优化。例:从"总结文章"到"用

【前端学习】AntV G6-08 深入图形与图形分组、自定义节点、节点动画(下)

【课程链接】 AntV G6:深入图形与图形分组、自定义节点、节点动画(下)_哔哩哔哩_bilibili 本章十吾老师讲解了一个复杂的自定义节点中,应该怎样去计算和绘制图形,如何给一个图形制作不间断的动画,以及在鼠标事件之后产生动画。(有点难,需要好好理解) <!DOCTYPE html><html><head><meta charset="UTF-8"><title>06

学习hash总结

2014/1/29/   最近刚开始学hash,名字很陌生,但是hash的思想却很熟悉,以前早就做过此类的题,但是不知道这就是hash思想而已,说白了hash就是一个映射,往往灵活利用数组的下标来实现算法,hash的作用:1、判重;2、统计次数;

hdu1496(用hash思想统计数目)

作为一个刚学hash的孩子,感觉这道题目很不错,灵活的运用的数组的下标。 解题步骤:如果用常规方法解,那么时间复杂度为O(n^4),肯定会超时,然后参考了网上的解题方法,将等式分成两个部分,a*x1^2+b*x2^2和c*x3^2+d*x4^2, 各自作为数组的下标,如果两部分相加为0,则满足等式; 代码如下: #include<iostream>#include<algorithm

零基础学习Redis(10) -- zset类型命令使用

zset是有序集合,内部除了存储元素外,还会存储一个score,存储在zset中的元素会按照score的大小升序排列,不同元素的score可以重复,score相同的元素会按照元素的字典序排列。 1. zset常用命令 1.1 zadd  zadd key [NX | XX] [GT | LT]   [CH] [INCR] score member [score member ...]

【机器学习】高斯过程的基本概念和应用领域以及在python中的实例

引言 高斯过程(Gaussian Process,简称GP)是一种概率模型,用于描述一组随机变量的联合概率分布,其中任何一个有限维度的子集都具有高斯分布 文章目录 引言一、高斯过程1.1 基本定义1.1.1 随机过程1.1.2 高斯分布 1.2 高斯过程的特性1.2.1 联合高斯性1.2.2 均值函数1.2.3 协方差函数(或核函数) 1.3 核函数1.4 高斯过程回归(Gauss

【学习笔记】 陈强-机器学习-Python-Ch15 人工神经网络(1)sklearn

系列文章目录 监督学习:参数方法 【学习笔记】 陈强-机器学习-Python-Ch4 线性回归 【学习笔记】 陈强-机器学习-Python-Ch5 逻辑回归 【课后题练习】 陈强-机器学习-Python-Ch5 逻辑回归(SAheart.csv) 【学习笔记】 陈强-机器学习-Python-Ch6 多项逻辑回归 【学习笔记 及 课后题练习】 陈强-机器学习-Python-Ch7 判别分析 【学