Kmeans算法原理及Python实现

2024-08-25 09:44

本文主要是介绍Kmeans算法原理及Python实现,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

K-means算法是一种广泛使用的聚类算法,其原理相对简单且易于实现,属于无监督学习的一种。以下是对K-means算法原理的详细解析:

一、基本思想

K-means算法的基本思想是将数据集划分为K个簇,使得每个簇内的数据点尽可能相似,而不同簇之间的数据点则尽可能不相似。算法通过迭代的方式,不断调整簇的中心点,直到满足某个终止条件为止。

二、算法步骤

  1. 指定聚类数目K:首先,用户需要指定希望将数据集聚类成的簇的数量K。这个K值的选择对于最终的聚类结果有重要影响。
  2. 选择初始簇中心:算法开始时,需要从数据集中随机选择K个数据点作为初始的簇中心。这些初始簇中心的选择对于算法的收敛速度和聚类结果的质量有一定影响。为了改善这一点,可以使用一些改进算法,如K-means++。
  3. 分配数据点到簇:对于数据集中的每一个数据点,计算它与各个簇中心的距离,并将其分配到距离最近的簇中。这一步骤会生成初始的聚类结果。
  4. 更新簇中心:根据当前的聚类结果,重新计算每个簇的中心点。簇中心通常是通过计算簇内所有数据点的平均值得到的。
  5. 迭代优化:重复步骤3和步骤4,直到簇中心不再发生变化,或者达到预定的迭代次数。在迭代过程中,簇中心会逐渐移动到数据点分布的中心位置,从而使得簇内的数据点更加紧密,簇间的数据点更加分散。

三、终止条件

K-means算法的终止条件通常包括以下几种:

  1. 簇中心不再发生变化:如果连续多次迭代后,簇中心的位置没有发生显著变化,则认为算法已经收敛,可以停止迭代。
  2. 达到预定的迭代次数:为了防止算法无限期地运行下去,通常会设置一个最大迭代次数。当迭代次数达到这个预设值时,算法会停止运行并输出当前的聚类结果。

四、优缺点

  1. 优点:
  1. 算法原理简单易懂,实现起来相对容易。
  2. 计算效率高,特别适用于处理大规模数据集。
  3. 聚类效果通常较好,能够发现数据中的潜在结构。
  1. 缺点:
  1. 需要用户事先指定簇的数量K,这个值的选择对聚类结果有很大影响。
  2. 对初始簇中心的选择敏感,不同的初始簇中心可能导致不同的聚类结果。
  3. 对于非凸形状的数据集,K-means算法可能无法很好地发现簇结构。
  4. 容易陷入局部最优解,无法得到全局最优的聚类结果。

综上所述,K-means算法是一种简单而有效的聚类算法,但在使用时需要注意选择合适的K值和初始簇中心,以及考虑数据的特性和分布情况。

五、Python实现

Python中,实现K-means算法的一个常见方法是使用sklearn库中的KMeans类。不过,为了理解K-means算法的工作原理,我们也可以从头开始实现它。下面是一个简单的K-means算法的Python实现示例:

import numpy as npclass KMeans:def __init__(self, k=3, max_iters=100, tol=1e-4):self.k = kself.max_iters = max_itersself.tol = toldef fit(self, X):# 初始化质心indices = np.random.choice(X.shape[0], self.k, replace=False)centroids = X[indices]for _ in range(self.max_iters):# 将每个点分配给最近的质心clusters = [[] for _ in range(self.k)]for features in X:distances = [np.linalg.norm(features - centroid) for centroid in centroids]closest_cluster = np.argmin(distances)clusters[closest_cluster].append(features)# 计算新的质心new_centroids = np.array([np.mean(cluster, axis=0) for cluster in clusters if cluster])# 检查质心是否变化if np.allclose(centroids, new_centroids, atol=self.tol):breakcentroids = new_centroidsself.centroids = centroidsself.clusters = clustersdef predict(self, X):y_pred = [np.argmin([np.linalg.norm(x - centroid) for centroid in self.centroids]) for x in X]return np.array(y_pred)# 示例使用
if __name__ == "__main__":# 生成一些随机数据from sklearn.datasets import make_blobsX, _ = make_blobs(n_samples=300, centers=4, cluster_std=0.60, random_state=0)# 创建KMeans实例并拟合数据kmeans = KMeans(k=4)kmeans.fit(X)# 预测每个点的簇标签y_pred = kmeans.predict(X)# 打印质心print("Centroids:")print(kmeans.centroids)# 你可以使用matplotlib来可视化结果import matplotlib.pyplot as pltplt.scatter(X[:, 0], X[:, 1], c=y_pred, cmap='viridis', marker='o', edgecolor='k')plt.scatter(kmeans.centroids[:, 0], kmeans.centroids[:, 1], c='red', s=200, alpha=0.75)plt.show()

请注意,这个实现是为了教学目的而简化的,它可能不包括一些sklearn.cluster.KMeans中的优化和特性,比如处理空簇的情况(在上面的代码中,我们通过if cluster来简单地跳过空簇的计算)。

在实际应用中,建议使用sklearnKMeans类,因为它经过了优化,并且提供了更多的功能和灵活性。例如,使用sklearnKMeans可以很容易地指定初始化质心的方法(如k-means++),设置随机种子以确保结果的可重复性,以及访问算法的内部属性和收敛信息。

这篇关于Kmeans算法原理及Python实现的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1105209

相关文章

golang版本升级如何实现

《golang版本升级如何实现》:本文主要介绍golang版本升级如何实现问题,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录golanwww.chinasem.cng版本升级linux上golang版本升级删除golang旧版本安装golang最新版本总结gola

SpringBoot中SM2公钥加密、私钥解密的实现示例详解

《SpringBoot中SM2公钥加密、私钥解密的实现示例详解》本文介绍了如何在SpringBoot项目中实现SM2公钥加密和私钥解密的功能,通过使用Hutool库和BouncyCastle依赖,简化... 目录一、前言1、加密信息(示例)2、加密结果(示例)二、实现代码1、yml文件配置2、创建SM2工具

Mysql实现范围分区表(新增、删除、重组、查看)

《Mysql实现范围分区表(新增、删除、重组、查看)》MySQL分区表的四种类型(范围、哈希、列表、键值),主要介绍了范围分区的创建、查询、添加、删除及重组织操作,具有一定的参考价值,感兴趣的可以了解... 目录一、mysql分区表分类二、范围分区(Range Partitioning1、新建分区表:2、分

MySQL 定时新增分区的实现示例

《MySQL定时新增分区的实现示例》本文主要介绍了通过存储过程和定时任务实现MySQL分区的自动创建,解决大数据量下手动维护的繁琐问题,具有一定的参考价值,感兴趣的可以了解一下... mysql创建好分区之后,有时候会需要自动创建分区。比如,一些表数据量非常大,有些数据是热点数据,按照日期分区MululbU

Python中你不知道的gzip高级用法分享

《Python中你不知道的gzip高级用法分享》在当今大数据时代,数据存储和传输成本已成为每个开发者必须考虑的问题,Python内置的gzip模块提供了一种简单高效的解决方案,下面小编就来和大家详细讲... 目录前言:为什么数据压缩如此重要1. gzip 模块基础介绍2. 基本压缩与解压缩操作2.1 压缩文

Python设置Cookie永不超时的详细指南

《Python设置Cookie永不超时的详细指南》Cookie是一种存储在用户浏览器中的小型数据片段,用于记录用户的登录状态、偏好设置等信息,下面小编就来和大家详细讲讲Python如何设置Cookie... 目录一、Cookie的作用与重要性二、Cookie过期的原因三、实现Cookie永不超时的方法(一)

MySQL中查找重复值的实现

《MySQL中查找重复值的实现》查找重复值是一项常见需求,比如在数据清理、数据分析、数据质量检查等场景下,我们常常需要找出表中某列或多列的重复值,具有一定的参考价值,感兴趣的可以了解一下... 目录技术背景实现步骤方法一:使用GROUP BY和HAVING子句方法二:仅返回重复值方法三:返回完整记录方法四:

Python内置函数之classmethod函数使用详解

《Python内置函数之classmethod函数使用详解》:本文主要介绍Python内置函数之classmethod函数使用方式,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地... 目录1. 类方法定义与基本语法2. 类方法 vs 实例方法 vs 静态方法3. 核心特性与用法(1编程客

IDEA中新建/切换Git分支的实现步骤

《IDEA中新建/切换Git分支的实现步骤》本文主要介绍了IDEA中新建/切换Git分支的实现步骤,通过菜单创建新分支并选择是否切换,创建后在Git详情或右键Checkout中切换分支,感兴趣的可以了... 前提:项目已被Git托管1、点击上方栏Git->NewBrancjsh...2、输入新的分支的

Python函数作用域示例详解

《Python函数作用域示例详解》本文介绍了Python中的LEGB作用域规则,详细解析了变量查找的四个层级,通过具体代码示例,展示了各层级的变量访问规则和特性,对python函数作用域相关知识感兴趣... 目录一、LEGB 规则二、作用域实例2.1 局部作用域(Local)2.2 闭包作用域(Enclos