K均值聚类--利用k-means算法分析NBA近四年球队实力

本文主要是介绍K均值聚类--利用k-means算法分析NBA近四年球队实力，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

分类作为一种监督学习方法，要求必须事先明确知道各个类别的信息，并且断言所有待分类项都有一个类别与之对应。但是很多时候上述条件得不到满足，尤其是在处理海量数据的时候，如果通过预处理使得数据满足分类算法的要求，则代价非常大，这时候可以考虑使用聚类算法。聚类属于无监督学习，相比于分类，聚类不依赖预定义的类和类标号的训练实例。本文首先介绍聚类的基础——距离与相异度，然后介绍一种常见的聚类算法——k-means算法，并利用k-means算法分析NBA近四年球队实力。因为本人比较喜欢观看NBA比赛，所以用这个当做例子了，通过这个例子大家可以用到各种实际的生活和生产环境中。
在正式讨论聚类前，我们要先弄清楚一个问题：如何定量计算两个可比较元素间的相异度。用通俗的话说，相异度就是两个东西差别有多大，例如人类与章鱼的相异度明显大于人类与黑猩猩的相异度，这是能我们直观感受到的。但是，计算机没有这种直观感受能力，我们必须对相异度在数学上进行定量定义。
设 $X=\{x_1,x_2,...,x_n\},Y=\{y_1,y_2,...,y_n\}$ ，其中X，Y是两个元素项，各自具有n个可度量特征属性，那么X和Y的相异度定义为： $d(X,Y)=f(X,Y) \to R$ ，其中R为实数域。也就是说相异度是两个元素对实数域的一个映射，所映射的实数定量表示两个元素的相异度。下面介绍不同类型变量相异度计算方法：
1.标量
标量也就是无方向意义的数字，也叫标度变量。现在先考虑元素的所有特征属性都是标量的情况。例如，计算X={2,1,102}和Y={1,3,2}的相异度。一种很自然的想法是用两者的欧几里得距离来作为相异度，欧几里得距离的定义如下：
$d(X,Y)=\sqrt{(x_1-y_1)^2+(x_2-y_2)^2+...+(x_n-y_n)^2}$
其意义就是两个元素在欧氏空间中的集合距离，因为其直观易懂且可解释性强，被广泛用于标识两个标量元素的相异度。将上面两个示例数据代入公式，可得两者的欧氏距离为：
$d(X,Y)=\sqrt{(2-1)^2+(1-3)^2+(102-2)^2}=100.025$
除欧氏距离外，常用作度量标量相异度的还有曼哈顿距离和闵可夫斯基距离，两者定义如下：
曼哈顿距离： $d(X,Y)=|x_1-y_1|+|x_2-y_2|+...+|x_n-y_n|$
闵可夫斯基距离：

这篇关于K均值聚类--利用k-means算法分析NBA近四年球队实力的文章就介绍到这儿，希望我们推荐的文章对编程师们有所帮助！