KNN-机器学习实战系列（一）

本文主要是介绍KNN-机器学习实战系列（一），希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

开门见山，本文单说KNN：

作为机器学习实战书籍介绍的第一个算法，有一些值得说道的地方：

1：什么是KNN？

机器学习的一些基本知识和概念不加叙述了，直接给出KNN的白话定义：给定M个样本，每个样本均有N个数字衡量的属性，而每个样本均带有自身的标签：

这里，为什么需要数字化定义属性呢？这方便了我们衡量指标的计算，我们可以使用距离这一可用数学表达式实现的概念，来阐述何谓近邻。

而KNN，英文名：k-Nearest Neigbhors :称作K近邻算法，每次来一个新的样本，就可以通过从M个样本中，找出K个最近的样本，通过这K个样本的属性来判别新样本的类别：

可以看出，KNN属于监督类学习算法，对其提供支持的样本，都是标记好的样本；

2：算法角度的实现：

from numpy import *
def createDataSet():group = array([[1.0,1.1 ],[1.0,1.0],[0,0], [0,0.1]])labels = ['A','A','B','B']return group,labels
group,labels = createDataSet()

该段代码，负责样本集合的生成，浅显易懂，不多说：

这里，给出的样本非常简单，而实际上来说，我们在使用该算法的过程中，样本都会比较复杂，属性也会比较多，这些在本文不予涉及，生成样本的方式是多种多样的，我们这里要做的，是直接对合规的样本进行操作：

接下来是主题逻辑：

def classify0(intX,dataSet,labels,k):# 获取样本的总数，比如样本是N行dataSetSize = dataSet.shape[0]# tile方式，会生成N行与待测样本完全一致的数据集tiles  =  tile(intX, (dataSetSize,1))# 取差值，这就是python的简便之处了，一句话求取出所有的(x-x1)和(y-y1)diffMat =  tiles - dataSet# 对于所有的元素进行平方操作sqDiffMat = diffMat ** 2# 平方操作加起和，得到距离sqDistances = sqDiffMat.sum(axis=1)# 距离排序sortedDistIndicies = sqDistances.argsort()# 取出距离最小的K个点，记录标签classCount = {}for i in range(k):voteIlabel = labels[sortedDistIndicies[i]]classCount[voteIlabel] = classCount.get(voteIlabel,0)+1# 查看这K个点中，哪种类别比较多sortedClassCount = sorted(classCount.iteritems(),key = operator.itemgetter(1),reverse=True)return sortedClassCount[0][0];

总体思想就是这样：很简单，很好理解，用一句古话说就是：近朱者赤，近墨者黑。

3：我对该算法的一些理解：

KNN算是机器学习之初诞生的一些老算法了，其性能还算不错，当然同时也是有缺陷的：

首先，其缺陷在于需要每次样本都要遍历一次所有的数据，这个计算量相对比较大，如果样本集合已经有百万，甚至是千万那么大，我们每次还要为一个样本去计算数百万，甚至是数千万次，投入和产出明显是不成正比的：

个人感觉，这里其实可以用堆排序的方法来做优化，设置一个K元素大小的最小堆，来尽可能减小算法的复杂度：

其二，这里的K设置是很关键的，假如说K太小，可能很少的元素就决定了新样例的样本，这是不合理的，如果K太大，会导致计算和排序比较麻烦，所以需要从中调和：

其三，如果某个属性值本身比较大，可能会导致在距离计算的时候，导致该属性占据的份额比较大，这是有问题的，所以可通过归一化进行处理，将数据的计算都整合在0-1的范围之内，方便我们的计算：

这篇关于KNN-机器学习实战系列（一）的文章就介绍到这儿，希望我们推荐的文章对编程师们有所帮助！