[一点一点入门机器学习] k近邻算法

2024-02-02 10:32

本文主要是介绍[一点一点入门机器学习] k近邻算法,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

k-近邻算法

概要:k-近邻算法采用测量不同特征值之间的距离方法进行分类。
优点:精度高,对异常值不敏感,无数据输入假定。
缺点:计算复杂度高,空间复杂度高。

工作原理是:存在一个样本数据集合,也称作训练样本集,并且样本集中每个数据都存在标签,即我们知道样本集合中每一个数据与所属分类的对应关系。

简单例子

k-近邻算法其实就是计算预测点与所有已知点(算法样本集)的距离(近似值),然后根据近似值就小的来判断与预测点的属性。

举个简单的例子,来说明这个算法。
假设有四个已知值,他们的特征值分别为[1.0, 1.1], [1.0, 1.0], [0, 0], [0, 0.1], 他们标签分别为['A', 'A', 'B', 'B'], 现在我们给定一个二维坐标,预测他所属的标签。

这其实是个简化的问题,可以向外扩展。例如,我们需要做一个垃圾邮件的过滤器,对于该邮件的信息我们可以根据不同的特征值进行标注,然后计算出该邮件属于垃圾邮件的可能性。真正的困难的地方就在于如何规划特征值,但这里不做讨论。

核心代码

from numpy import *
import operatordef create_data_set():group = array([[1.0, 1.1], [1.0, 1.0], [0, 0], [0, 0.1]])labels = ['A', 'A', 'B', 'B']return group, labels# inX 为需要预测的向量# group为算法样本集
def classify0(inX, group, labels, k):# 计算矩阵大小dataSetSize = group.shape[0]# 形参4维矩阵diffMat = tile(inX, (dataSetSize, 1)) - group# 矩阵内元素取平方sqDiffMat = diffMat ** 2# 矩阵中x, y相加sqDistance = sqDiffMat.sum(axis=1)distances = sqDistance ** 0.5# 返回数组值从小到大的索引sortedDistIndicies = distances.argsort()classCount = {}for i in range(k):voteLabel = labels[sortedDistIndicies[i]]classCount[voteLabel] = classCount.get(voteLabel, 0) + 1# key是一个函数,用来表明对哪一个值进行排序。sortedDistIndicies = sorted(classCount.items(), key=operator.itemgetter(1), reverse=True)return sortedDistIndicies[0][0]

以上的代码实际上对任意维度的向量都是可行的。使用下面的公式来计算预测点与已知的权值。

对于多维数据

上面提到了,对于多维向量,这个算法仍然是可行的。接下来我们通过以下数据来使用k-近邻算法。1-3 是不同的特性值 4 是标签。

0.8 400 0.5 1
12 134000 0.9 3
0 20000 1.1 2
67 32000 0.1 2

读取数据

首先我们需要把数据从文件中读出。

    file = open(filename)# 生成一个数组,记录每一行的数据。arrayOLines = file.readlines()numberOfLines = len(arrayOLines)# 生成一个n * 3维零矩阵,returnMat = zeros((numberOfLines, 3))classLabelVector = []index = 0for line in arrayOLines:# 去除换行符line = line.strip()# 用空格做分隔符listFromLine = line.split()# returnMat矩阵的[index][:]returnMat[index, :] = listFromLine[0: 3]classLabelVector.append(int(listFromLine[-1]))index += 1return returnMat, classLabelVector

归一化数值

目标是将一个含有任意数值的列转换为只有[0,1]的列。

def autoNorm(dataSet):# 获得每列的最小值minValue = dataSet.min(0)# 获得每列的最大值maxValue = dataSet.max(0)# 获得每列的范围ranges = maxValue - minValuenormDataSet = zeros(shape(dataSet))m = dataSet.shape[0]# 每列数据减去最小值,再除以范围,获得一个[0,1]之间的特征值normDataSet = dataSet - tile(minValue, (m, 1))normDataSet = normDataSet/tile(ranges, (m, 1))return normDataSet, ranges, minValue

测试


def datingClassTest():datingDataMat, datingLabels = file2Matrix("DatingData.txt")normMat, ranges, minValues = autoNorm(datingDataMat)m = normMat.shape[0]errorCount = 0.0numTest = 3for i in range(numTest):classifierResult = classify0(normMat[i, :], normMat[0:m, :], datingLabels[0:m], 3)print('The test come back with {0}, and real result is {1}'.format(classifierResult, datingLabels[i]))if datingLabels[i] != classifierResult:errorCount += 1print("test ended!", errorCount)

当数据越多的时候,k值越大越准确。

完整系统

总结:

k-近邻算法是最简单最有效的机器学习算法,但是需要消耗大量的时间和空间,使用起来并不高效。但基本上说明了机器学习的运行原理,即计算预测值与已知值的近似来预测结果。最大的难度还是在于如何确定特征值。

这篇关于[一点一点入门机器学习] k近邻算法的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/670419

相关文章

openCV中KNN算法的实现

《openCV中KNN算法的实现》KNN算法是一种简单且常用的分类算法,本文主要介绍了openCV中KNN算法的实现,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的... 目录KNN算法流程使用OpenCV实现KNNOpenCV 是一个开源的跨平台计算机视觉库,它提供了各

springboot+dubbo实现时间轮算法

《springboot+dubbo实现时间轮算法》时间轮是一种高效利用线程资源进行批量化调度的算法,本文主要介绍了springboot+dubbo实现时间轮算法,文中通过示例代码介绍的非常详细,对大家... 目录前言一、参数说明二、具体实现1、HashedwheelTimer2、createWheel3、n

Spring Boot + MyBatis Plus 高效开发实战从入门到进阶优化(推荐)

《SpringBoot+MyBatisPlus高效开发实战从入门到进阶优化(推荐)》本文将详细介绍SpringBoot+MyBatisPlus的完整开发流程,并深入剖析分页查询、批量操作、动... 目录Spring Boot + MyBATis Plus 高效开发实战:从入门到进阶优化1. MyBatis

SpringBoot实现MD5加盐算法的示例代码

《SpringBoot实现MD5加盐算法的示例代码》加盐算法是一种用于增强密码安全性的技术,本文主要介绍了SpringBoot实现MD5加盐算法的示例代码,文中通过示例代码介绍的非常详细,对大家的学习... 目录一、什么是加盐算法二、如何实现加盐算法2.1 加盐算法代码实现2.2 注册页面中进行密码加盐2.

Java时间轮调度算法的代码实现

《Java时间轮调度算法的代码实现》时间轮是一种高效的定时调度算法,主要用于管理延时任务或周期性任务,它通过一个环形数组(时间轮)和指针来实现,将大量定时任务分摊到固定的时间槽中,极大地降低了时间复杂... 目录1、简述2、时间轮的原理3. 时间轮的实现步骤3.1 定义时间槽3.2 定义时间轮3.3 使用时

Java进阶学习之如何开启远程调式

《Java进阶学习之如何开启远程调式》Java开发中的远程调试是一项至关重要的技能,特别是在处理生产环境的问题或者协作开发时,:本文主要介绍Java进阶学习之如何开启远程调式的相关资料,需要的朋友... 目录概述Java远程调试的开启与底层原理开启Java远程调试底层原理JVM参数总结&nbsMbKKXJx

Python FastAPI入门安装使用

《PythonFastAPI入门安装使用》FastAPI是一个现代、快速的PythonWeb框架,用于构建API,它基于Python3.6+的类型提示特性,使得代码更加简洁且易于绶护,这篇文章主要介... 目录第一节:FastAPI入门一、FastAPI框架介绍什么是ASGI服务(WSGI)二、FastAP

如何通过Golang的container/list实现LRU缓存算法

《如何通过Golang的container/list实现LRU缓存算法》文章介绍了Go语言中container/list包实现的双向链表,并探讨了如何使用链表实现LRU缓存,LRU缓存通过维护一个双向... 目录力扣:146. LRU 缓存主要结构 List 和 Element常用方法1. 初始化链表2.

golang字符串匹配算法解读

《golang字符串匹配算法解读》文章介绍了字符串匹配算法的原理,特别是Knuth-Morris-Pratt(KMP)算法,该算法通过构建模式串的前缀表来减少匹配时的不必要的字符比较,从而提高效率,在... 目录简介KMP实现代码总结简介字符串匹配算法主要用于在一个较长的文本串中查找一个较短的字符串(称为

通俗易懂的Java常见限流算法具体实现

《通俗易懂的Java常见限流算法具体实现》:本文主要介绍Java常见限流算法具体实现的相关资料,包括漏桶算法、令牌桶算法、Nginx限流和Redis+Lua限流的实现原理和具体步骤,并比较了它们的... 目录一、漏桶算法1.漏桶算法的思想和原理2.具体实现二、令牌桶算法1.令牌桶算法流程:2.具体实现2.1