基于Python的机器学习系列(20):Mini-Batch K均值聚类

2024-09-02 10:52

本文主要是介绍基于Python的机器学习系列(20):Mini-Batch K均值聚类,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

简介

        K均值聚类(K-Means Clustering)是一种经典的无监督学习算法,但在处理大规模数据集时,计算成本较高。为了解决这一问题,Mini-Batch K均值聚类应运而生。Mini-Batch K均值聚类通过使用数据的子集(mini-batch)来更新簇中心,从而减少了计算量,加快了处理速度。

Mini-Batch K均值算法

        Mini-Batch K均值算法的基本步骤如下:

  1. 初始化簇中心:从数据集中随机选择K个样本作为初始簇中心。
  2. 批量更新
    • 随机选择数据的一个小批量。
    • 对于该批量中的每个样本,分配其到最近的簇中心。
    • 根据分配结果更新簇中心的位置。
  3. 停止条件:重复步骤2,直到达到最大迭代次数或簇中心变化小于设定的容忍度。

代码实现

        以下是Mini-Batch K均值聚类的Python实现:

from sklearn.metrics import pairwise_distances_argmin
from sklearn.datasets import make_blobs
from time import time
import numpy as npclass Mini_KMeans:def __init__(self, k, replacement=True, batch_size=100, max_iter=100):self.k = kself.replacement = replacementself.batch_size = batch_sizeself.max_iter = max_iterdef fit(self, X):m, n = X.shape# 1. 随机选择k个簇中心rng = np.random.RandomState(99)i = rng.permutation(m)[:self.k]self.centers = X[i]# 2. 批量更新for ix in np.arange(self.max_iter):random = rng.randint(m)X_batch = X[random:random+self.batch_size]# 3. 根据最近的簇中心分配标签labels = pairwise_distances_argmin(X_batch, self.centers)# 4. 更新簇中心new_centers = []for i in range(self.k):new_centers.append(X_batch[labels == i].mean(axis=0))new_centers = np.array(new_centers)# 5. 停止条件if np.allclose(self.centers, new_centers, rtol=0.2):breakelse:self.centers = new_centersprint(f"Done in {ix} iterations")# 计算总的簇内变异度total_with_variation_score = 0labels = pairwise_distances_argmin(X, self.centers)for i in range(self.k):cluster_mean = X[labels==i].mean(axis=0)total_with_variation_score += ((X[labels==i] - cluster_mean) ** 2).sum()print("Total within-cluster variation score: ", total_with_variation_score)def predict(self, X):return pairwise_distances_argmin(X, self.centers)# 主代码
X, _ = make_blobs(n_samples=1500, centers=4, cluster_std=0.60, random_state=0)
for k in range(2, 7):print(f"===== k = {k}")start = time()model = Mini_KMeans(k=k, max_iter=100)model.fit(X)print(f"Elapsed time: {time() - start:.2f} seconds")

结语

        Mini-Batch K均值聚类与标准K均值聚类相比,在处理大规模数据时表现出色,虽然在准确性上略有差距,但在计算速度上却能显著提高。与之前介绍的监督学习模型(如决策树、随机森林)相比,Mini-Batch K均值属于无监督学习范畴,不依赖于标签信息,而是通过数据的内部结构来发现潜在的分组。因此,它在数据探索和特征学习等任务中具有重要作用。

如果你觉得这篇博文对你有帮助,请点赞、收藏、关注我,并且可以打赏支持我!

欢迎关注我的后续博文,我将分享更多关于人工智能、自然语言处理和计算机视觉的精彩内容。

谢谢大家的支持!

这篇关于基于Python的机器学习系列(20):Mini-Batch K均值聚类的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1129764

相关文章

Python FastAPI+Celery+RabbitMQ实现分布式图片水印处理系统

《PythonFastAPI+Celery+RabbitMQ实现分布式图片水印处理系统》这篇文章主要为大家详细介绍了PythonFastAPI如何结合Celery以及RabbitMQ实现简单的分布式... 实现思路FastAPI 服务器Celery 任务队列RabbitMQ 作为消息代理定时任务处理完整

Python Websockets库的使用指南

《PythonWebsockets库的使用指南》pythonwebsockets库是一个用于创建WebSocket服务器和客户端的Python库,它提供了一种简单的方式来实现实时通信,支持异步和同步... 目录一、WebSocket 简介二、python 的 websockets 库安装三、完整代码示例1.

揭秘Python Socket网络编程的7种硬核用法

《揭秘PythonSocket网络编程的7种硬核用法》Socket不仅能做聊天室,还能干一大堆硬核操作,这篇文章就带大家看看Python网络编程的7种超实用玩法,感兴趣的小伙伴可以跟随小编一起... 目录1.端口扫描器:探测开放端口2.简易 HTTP 服务器:10 秒搭个网页3.局域网游戏:多人联机对战4.

使用Python实现快速搭建本地HTTP服务器

《使用Python实现快速搭建本地HTTP服务器》:本文主要介绍如何使用Python快速搭建本地HTTP服务器,轻松实现一键HTTP文件共享,同时结合二维码技术,让访问更简单,感兴趣的小伙伴可以了... 目录1. 概述2. 快速搭建 HTTP 文件共享服务2.1 核心思路2.2 代码实现2.3 代码解读3.

Python使用自带的base64库进行base64编码和解码

《Python使用自带的base64库进行base64编码和解码》在Python中,处理数据的编码和解码是数据传输和存储中非常普遍的需求,其中,Base64是一种常用的编码方案,本文我将详细介绍如何使... 目录引言使用python的base64库进行编码和解码编码函数解码函数Base64编码的应用场景注意

Python基于wxPython和FFmpeg开发一个视频标签工具

《Python基于wxPython和FFmpeg开发一个视频标签工具》在当今数字媒体时代,视频内容的管理和标记变得越来越重要,无论是研究人员需要对实验视频进行时间点标记,还是个人用户希望对家庭视频进行... 目录引言1. 应用概述2. 技术栈分析2.1 核心库和模块2.2 wxpython作为GUI选择的优

Python如何使用__slots__实现节省内存和性能优化

《Python如何使用__slots__实现节省内存和性能优化》你有想过,一个小小的__slots__能让你的Python类内存消耗直接减半吗,没错,今天咱们要聊的就是这个让人眼前一亮的技巧,感兴趣的... 目录背景:内存吃得满满的类__slots__:你的内存管理小助手举个大概的例子:看看效果如何?1.

Python+PyQt5实现多屏幕协同播放功能

《Python+PyQt5实现多屏幕协同播放功能》在现代会议展示、数字广告、展览展示等场景中,多屏幕协同播放已成为刚需,下面我们就来看看如何利用Python和PyQt5开发一套功能强大的跨屏播控系统吧... 目录一、项目概述:突破传统播放限制二、核心技术解析2.1 多屏管理机制2.2 播放引擎设计2.3 专

Python中随机休眠技术原理与应用详解

《Python中随机休眠技术原理与应用详解》在编程中,让程序暂停执行特定时间是常见需求,当需要引入不确定性时,随机休眠就成为关键技巧,下面我们就来看看Python中随机休眠技术的具体实现与应用吧... 目录引言一、实现原理与基础方法1.1 核心函数解析1.2 基础实现模板1.3 整数版实现二、典型应用场景2

Python实现无痛修改第三方库源码的方法详解

《Python实现无痛修改第三方库源码的方法详解》很多时候,我们下载的第三方库是不会有需求不满足的情况,但也有极少的情况,第三方库没有兼顾到需求,本文将介绍几个修改源码的操作,大家可以根据需求进行选择... 目录需求不符合模拟示例 1. 修改源文件2. 继承修改3. 猴子补丁4. 追踪局部变量需求不符合很