基于Python的机器学习系列(20):Mini-Batch K均值聚类

2024-09-02 10:52

本文主要是介绍基于Python的机器学习系列(20):Mini-Batch K均值聚类,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

简介

        K均值聚类(K-Means Clustering)是一种经典的无监督学习算法,但在处理大规模数据集时,计算成本较高。为了解决这一问题,Mini-Batch K均值聚类应运而生。Mini-Batch K均值聚类通过使用数据的子集(mini-batch)来更新簇中心,从而减少了计算量,加快了处理速度。

Mini-Batch K均值算法

        Mini-Batch K均值算法的基本步骤如下:

  1. 初始化簇中心:从数据集中随机选择K个样本作为初始簇中心。
  2. 批量更新
    • 随机选择数据的一个小批量。
    • 对于该批量中的每个样本,分配其到最近的簇中心。
    • 根据分配结果更新簇中心的位置。
  3. 停止条件:重复步骤2,直到达到最大迭代次数或簇中心变化小于设定的容忍度。

代码实现

        以下是Mini-Batch K均值聚类的Python实现:

from sklearn.metrics import pairwise_distances_argmin
from sklearn.datasets import make_blobs
from time import time
import numpy as npclass Mini_KMeans:def __init__(self, k, replacement=True, batch_size=100, max_iter=100):self.k = kself.replacement = replacementself.batch_size = batch_sizeself.max_iter = max_iterdef fit(self, X):m, n = X.shape# 1. 随机选择k个簇中心rng = np.random.RandomState(99)i = rng.permutation(m)[:self.k]self.centers = X[i]# 2. 批量更新for ix in np.arange(self.max_iter):random = rng.randint(m)X_batch = X[random:random+self.batch_size]# 3. 根据最近的簇中心分配标签labels = pairwise_distances_argmin(X_batch, self.centers)# 4. 更新簇中心new_centers = []for i in range(self.k):new_centers.append(X_batch[labels == i].mean(axis=0))new_centers = np.array(new_centers)# 5. 停止条件if np.allclose(self.centers, new_centers, rtol=0.2):breakelse:self.centers = new_centersprint(f"Done in {ix} iterations")# 计算总的簇内变异度total_with_variation_score = 0labels = pairwise_distances_argmin(X, self.centers)for i in range(self.k):cluster_mean = X[labels==i].mean(axis=0)total_with_variation_score += ((X[labels==i] - cluster_mean) ** 2).sum()print("Total within-cluster variation score: ", total_with_variation_score)def predict(self, X):return pairwise_distances_argmin(X, self.centers)# 主代码
X, _ = make_blobs(n_samples=1500, centers=4, cluster_std=0.60, random_state=0)
for k in range(2, 7):print(f"===== k = {k}")start = time()model = Mini_KMeans(k=k, max_iter=100)model.fit(X)print(f"Elapsed time: {time() - start:.2f} seconds")

结语

        Mini-Batch K均值聚类与标准K均值聚类相比,在处理大规模数据时表现出色,虽然在准确性上略有差距,但在计算速度上却能显著提高。与之前介绍的监督学习模型(如决策树、随机森林)相比,Mini-Batch K均值属于无监督学习范畴,不依赖于标签信息,而是通过数据的内部结构来发现潜在的分组。因此,它在数据探索和特征学习等任务中具有重要作用。

如果你觉得这篇博文对你有帮助,请点赞、收藏、关注我,并且可以打赏支持我!

欢迎关注我的后续博文,我将分享更多关于人工智能、自然语言处理和计算机视觉的精彩内容。

谢谢大家的支持!

这篇关于基于Python的机器学习系列(20):Mini-Batch K均值聚类的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1129764

相关文章

HarmonyOS学习(七)——UI(五)常用布局总结

自适应布局 1.1、线性布局(LinearLayout) 通过线性容器Row和Column实现线性布局。Column容器内的子组件按照垂直方向排列,Row组件中的子组件按照水平方向排列。 属性说明space通过space参数设置主轴上子组件的间距,达到各子组件在排列上的等间距效果alignItems设置子组件在交叉轴上的对齐方式,且在各类尺寸屏幕上表现一致,其中交叉轴为垂直时,取值为Vert

Ilya-AI分享的他在OpenAI学习到的15个提示工程技巧

Ilya(不是本人,claude AI)在社交媒体上分享了他在OpenAI学习到的15个Prompt撰写技巧。 以下是详细的内容: 提示精确化:在编写提示时,力求表达清晰准确。清楚地阐述任务需求和概念定义至关重要。例:不用"分析文本",而用"判断这段话的情感倾向:积极、消极还是中性"。 快速迭代:善于快速连续调整提示。熟练的提示工程师能够灵活地进行多轮优化。例:从"总结文章"到"用

Spring Security 从入门到进阶系列教程

Spring Security 入门系列 《保护 Web 应用的安全》 《Spring-Security-入门(一):登录与退出》 《Spring-Security-入门(二):基于数据库验证》 《Spring-Security-入门(三):密码加密》 《Spring-Security-入门(四):自定义-Filter》 《Spring-Security-入门(五):在 Sprin

python: 多模块(.py)中全局变量的导入

文章目录 global关键字可变类型和不可变类型数据的内存地址单模块(单个py文件)的全局变量示例总结 多模块(多个py文件)的全局变量from x import x导入全局变量示例 import x导入全局变量示例 总结 global关键字 global 的作用范围是模块(.py)级别: 当你在一个模块(文件)中使用 global 声明变量时,这个变量只在该模块的全局命名空

【前端学习】AntV G6-08 深入图形与图形分组、自定义节点、节点动画(下)

【课程链接】 AntV G6:深入图形与图形分组、自定义节点、节点动画(下)_哔哩哔哩_bilibili 本章十吾老师讲解了一个复杂的自定义节点中,应该怎样去计算和绘制图形,如何给一个图形制作不间断的动画,以及在鼠标事件之后产生动画。(有点难,需要好好理解) <!DOCTYPE html><html><head><meta charset="UTF-8"><title>06

学习hash总结

2014/1/29/   最近刚开始学hash,名字很陌生,但是hash的思想却很熟悉,以前早就做过此类的题,但是不知道这就是hash思想而已,说白了hash就是一个映射,往往灵活利用数组的下标来实现算法,hash的作用:1、判重;2、统计次数;

【Python编程】Linux创建虚拟环境并配置与notebook相连接

1.创建 使用 venv 创建虚拟环境。例如,在当前目录下创建一个名为 myenv 的虚拟环境: python3 -m venv myenv 2.激活 激活虚拟环境使其成为当前终端会话的活动环境。运行: source myenv/bin/activate 3.与notebook连接 在虚拟环境中,使用 pip 安装 Jupyter 和 ipykernel: pip instal

零基础学习Redis(10) -- zset类型命令使用

zset是有序集合,内部除了存储元素外,还会存储一个score,存储在zset中的元素会按照score的大小升序排列,不同元素的score可以重复,score相同的元素会按照元素的字典序排列。 1. zset常用命令 1.1 zadd  zadd key [NX | XX] [GT | LT]   [CH] [INCR] score member [score member ...]

科研绘图系列:R语言扩展物种堆积图(Extended Stacked Barplot)

介绍 R语言的扩展物种堆积图是一种数据可视化工具,它不仅展示了物种的堆积结果,还整合了不同样本分组之间的差异性分析结果。这种图形表示方法能够直观地比较不同物种在各个分组中的显著性差异,为研究者提供了一种有效的数据解读方式。 加载R包 knitr::opts_chunk$set(warning = F, message = F)library(tidyverse)library(phyl

【机器学习】高斯过程的基本概念和应用领域以及在python中的实例

引言 高斯过程(Gaussian Process,简称GP)是一种概率模型,用于描述一组随机变量的联合概率分布,其中任何一个有限维度的子集都具有高斯分布 文章目录 引言一、高斯过程1.1 基本定义1.1.1 随机过程1.1.2 高斯分布 1.2 高斯过程的特性1.2.1 联合高斯性1.2.2 均值函数1.2.3 协方差函数(或核函数) 1.3 核函数1.4 高斯过程回归(Gauss