模糊C-means算法原理及Python实践

2024-08-27 03:52

本文主要是介绍模糊C-means算法原理及Python实践,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

模糊C-means算法原理及Python实践

      • 一、目标函数
      • 二、隶属度矩阵和聚类中心
      • 三、算法步骤
      • 四、终止条件
      • 五、算法特点
      • 六、Python实现

模糊C-means(Fuzzy C-Means,简称FCM)算法是一种经典的模糊聚类算法,它在数据分析、数据挖掘、图像处理等多个领域有着广泛的应用。FCM算法通过为每个数据点分配模糊隶属度,将数据点划分到不同的聚类中心,从而实现对数据集的聚类分析。以下是模糊C-means算法的主要原理:

一、目标函数

FCM算法的核心是优化一个目标函数,该目标函数本质上是各个点到各个聚类中心的欧氏距离的平方和的一个加权形式。目标函数的具体形式为:

J ( U , C ) = ∑ i = 1 N ∑ j = 1 C u i j m ∥ x i − c j ∥ 2 J(U, C) = \sum_{i=1}^{N} \sum_{j=1}^{C} u_{ij}^m \|x_i - c_j\|^2 J(U,C)=i=1Nj=1Cuijmxicj2

其中, N N N 是样本数, C C C 是聚类中心数(即聚类的数量), x i x_i xi 表示第 i i i 个样本, c j c_j cj 表示第 j j j 个聚类中心, u i j u_{ij} uij 表示样本 x i x_i xi 对聚类中心 c j c_j cj 的隶属度(即 x i x_i xi 属于 c j c_j cj 的概率), m m m 是一个大于1的加权指数(模糊系数),通常取值为2,用于控制聚类的模糊程度。

二、隶属度矩阵和聚类中心

  • 隶属度矩阵 U U U 是一个 N × C N \times C N×C 的矩阵,其中 u i j u_{ij} uij 表示样本 x i x_i xi 对聚类中心 c j c_j cj 的隶属度。对于每个样本 x i x_i xi,它对所有聚类中心的隶属度之和为1,即 ∑ j = 1 C u i j = 1 \sum_{j=1}^{C} u_{ij} = 1 j=1Cuij=1
  • 聚类中心 C C C 是通过计算每个聚类中所有样本的加权平均值得到的,其中权重由隶属度 u i j u_{ij} uij 表示。聚类中心的计算公式为:

c j = ∑ i = 1 N u i j m x i ∑ i = 1 N u i j m c_j = \frac{\sum_{i=1}^{N} u_{ij}^m x_i}{\sum_{i=1}^{N} u_{ij}^m} cj=i=1Nuijmi=1Nuijmxi

三、算法步骤

FCM算法的步骤通常包括:

  1. 初始化:随机选择聚类数量 C C C 和每个数据点对每个聚类的初始隶属度 u i j u_{ij} uij(通常初始化为随机值,并满足隶属度之和为1的条件)。
  2. 更新聚类中心:根据当前的隶属度矩阵 U U U 和样本数据 X X X,计算新的聚类中心 C C C
  3. 更新隶属度矩阵:根据新的聚类中心 C C C 和样本数据 X X X,计算每个样本对每个聚类中心的隶属度,更新隶属度矩阵 U U U
  4. 迭代优化:重复步骤2和步骤3,直到满足停止准则(如达到最大迭代次数、聚类中心变化小于阈值或隶属度变化小于某个阈值等)。

四、终止条件

FCM算法的终止条件通常基于迭代过程中的变化量,如当隶属度矩阵 U U U 的变化小于某个很小的常数(误差阈值)时,认为算法已经收敛到一个较好的解,可以停止迭代。

五、算法特点

  • 模糊性:与传统的硬聚类算法(如K-means)不同,FCM算法允许数据点同时属于多个聚类,从而能够更好地处理数据集中的模糊性和不确定性。
  • 鲁棒性:FCM算法对噪声和异常值具有一定的鲁棒性,因为异常值通常会被分配到多个聚类中,而不会对某个聚类产生过大的影响。
  • 灵活性:FCM算法可以根据应用需求进行定制和扩展,如调整模糊因子 m m m 的值来控制聚类的模糊程度等。

总的来说,模糊C-means算法通过优化目标函数和迭代更新隶属度矩阵及聚类中心的方式,实现了对数据集的模糊聚类分析。其模糊性和鲁棒性使得FCM算法在处理具有复杂结构和不确定性的数据集时具有显著的优势。

六、Python实现

模糊C-means(Fuzzy C-Means, FCM)算法的Python实现可以通过编写一个自定义函数来完成。下面是一个简单的FCM算法实现的示例,该示例使用了NumPy库来处理矩阵运算和向量化操作,以提高计算效率。

首先,你需要安装NumPy库(如果尚未安装):

pip install numpy

然后,你可以编写如下的FCM算法实现:

import numpy as npdef fcm(X, c, m, error=0.005, maxiter=1000):"""Fuzzy C-Means algorithm implementation.Parameters:- X: ndarray, shape (n_samples, n_features), data points to cluster.- c: int, number of clusters.- m: float, fuzziness coefficient (usually m > 1).- error: float, stopping criterion threshold for change in cluster centers.- maxiter: int, maximum number of iterations.Returns:- U: ndarray, shape (n_samples, c), membership matrix.- centers: ndarray, shape (c, n_features), cluster centers."""n_samples, n_features = X.shapeU = np.zeros((n_samples, c))centers = X[np.random.choice(n_samples, c, replace=False)]  # Initial cluster centersfor _ in range(maxiter):# Step 1: Update membership matrix Ufor i in range(n_samples):dists = np.linalg.norm(X[i, :] - centers, axis=1) ** 2U[i, :] = 1.0 / np.sum((dists / np.max(dists)) ** (2 / (m - 1)), axis=0)# Step 2: Update cluster centersnumerator = np.dot(U ** m, X.T)denominator = np.dot(U ** m, np.ones((n_samples, 1)))centers = numerator / denominator# Check for convergenceif np.linalg.norm(centers - old_centers) < error:breakold_centers = centers.copy()return U, centers# Example usage
if __name__ == "__main__":# Generate some random datanp.random.seed(0)X = np.random.rand(100, 2) * 100  # 100 samples in 2D space# Run FCMc = 3  # Number of clustersm = 2  # Fuzziness coefficientU, centers = fcm(X, c, m)# Print resultsprint("Membership matrix U:\n", U)print("Cluster centers:\n", centers)

注意

  1. 这个实现使用了简单的随机初始化来选择初始聚类中心。在实际应用中,你可能需要使用更复杂的初始化策略,如K-means++初始化,以改善算法的性能和收敛性。

  2. 在更新隶属度矩阵时,我们使用了np.linalg.norm来计算每个数据点到每个聚类中心的欧氏距离的平方,并在计算隶属度时进行了归一化。

  3. 停止条件是基于聚类中心的变化量是否小于某个阈值(error)。如果聚类中心在迭代过程中变化很小,则认为算法已经收敛。

  4. 这个实现没有考虑算法的所有可能优化和特殊情况处理(如空聚类、数据点的重复等),但在大多数情况下应该足够有效。

  5. 对于大型数据集或高维数据,FCM算法可能会变得非常慢。在这种情况下,你可能需要考虑使用更快的聚类算法或优化FCM算法的实现(例如,使用并行计算、减少迭代次数、使用近似方法等)。

这篇关于模糊C-means算法原理及Python实践的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1110558

相关文章

不懂推荐算法也能设计推荐系统

本文以商业化应用推荐为例,告诉我们不懂推荐算法的产品,也能从产品侧出发, 设计出一款不错的推荐系统。 相信很多新手产品,看到算法二字,多是懵圈的。 什么排序算法、最短路径等都是相对传统的算法(注:传统是指科班出身的产品都会接触过)。但对于推荐算法,多数产品对着网上搜到的资源,都会无从下手。特别当某些推荐算法 和 “AI”扯上关系后,更是加大了理解的难度。 但,不了解推荐算法,就无法做推荐系

基于MySQL Binlog的Elasticsearch数据同步实践

一、为什么要做 随着马蜂窝的逐渐发展,我们的业务数据越来越多,单纯使用 MySQL 已经不能满足我们的数据查询需求,例如对于商品、订单等数据的多维度检索。 使用 Elasticsearch 存储业务数据可以很好的解决我们业务中的搜索需求。而数据进行异构存储后,随之而来的就是数据同步的问题。 二、现有方法及问题 对于数据同步,我们目前的解决方案是建立数据中间表。把需要检索的业务数据,统一放到一张M

python: 多模块(.py)中全局变量的导入

文章目录 global关键字可变类型和不可变类型数据的内存地址单模块(单个py文件)的全局变量示例总结 多模块(多个py文件)的全局变量from x import x导入全局变量示例 import x导入全局变量示例 总结 global关键字 global 的作用范围是模块(.py)级别: 当你在一个模块(文件)中使用 global 声明变量时,这个变量只在该模块的全局命名空

康拓展开(hash算法中会用到)

康拓展开是一个全排列到一个自然数的双射(也就是某个全排列与某个自然数一一对应) 公式: X=a[n]*(n-1)!+a[n-1]*(n-2)!+...+a[i]*(i-1)!+...+a[1]*0! 其中,a[i]为整数,并且0<=a[i]<i,1<=i<=n。(a[i]在不同应用中的含义不同); 典型应用: 计算当前排列在所有由小到大全排列中的顺序,也就是说求当前排列是第

深入探索协同过滤:从原理到推荐模块案例

文章目录 前言一、协同过滤1. 基于用户的协同过滤(UserCF)2. 基于物品的协同过滤(ItemCF)3. 相似度计算方法 二、相似度计算方法1. 欧氏距离2. 皮尔逊相关系数3. 杰卡德相似系数4. 余弦相似度 三、推荐模块案例1.基于文章的协同过滤推荐功能2.基于用户的协同过滤推荐功能 前言     在信息过载的时代,推荐系统成为连接用户与内容的桥梁。本文聚焦于

csu 1446 Problem J Modified LCS (扩展欧几里得算法的简单应用)

这是一道扩展欧几里得算法的简单应用题,这题是在湖南多校训练赛中队友ac的一道题,在比赛之后请教了队友,然后自己把它a掉 这也是自己独自做扩展欧几里得算法的题目 题意:把题意转变下就变成了:求d1*x - d2*y = f2 - f1的解,很明显用exgcd来解 下面介绍一下exgcd的一些知识点:求ax + by = c的解 一、首先求ax + by = gcd(a,b)的解 这个

综合安防管理平台LntonAIServer视频监控汇聚抖动检测算法优势

LntonAIServer视频质量诊断功能中的抖动检测是一个专门针对视频稳定性进行分析的功能。抖动通常是指视频帧之间的不必要运动,这种运动可能是由于摄像机的移动、传输中的错误或编解码问题导致的。抖动检测对于确保视频内容的平滑性和观看体验至关重要。 优势 1. 提高图像质量 - 清晰度提升:减少抖动,提高图像的清晰度和细节表现力,使得监控画面更加真实可信。 - 细节增强:在低光条件下,抖

【数据结构】——原来排序算法搞懂这些就行,轻松拿捏

前言:快速排序的实现最重要的是找基准值,下面让我们来了解如何实现找基准值 基准值的注释:在快排的过程中,每一次我们要取一个元素作为枢纽值,以这个数字来将序列划分为两部分。 在此我们采用三数取中法,也就是取左端、中间、右端三个数,然后进行排序,将中间数作为枢纽值。 快速排序实现主框架: //快速排序 void QuickSort(int* arr, int left, int rig

hdu4407(容斥原理)

题意:给一串数字1,2,......n,两个操作:1、修改第k个数字,2、查询区间[l,r]中与n互质的数之和。 解题思路:咱一看,像线段树,但是如果用线段树做,那么每个区间一定要记录所有的素因子,这样会超内存。然后我就做不来了。后来看了题解,原来是用容斥原理来做的。还记得这道题目吗?求区间[1,r]中与p互质的数的个数,如果不会的话就先去做那题吧。现在这题是求区间[l,r]中与n互质的数的和

【Python编程】Linux创建虚拟环境并配置与notebook相连接

1.创建 使用 venv 创建虚拟环境。例如,在当前目录下创建一个名为 myenv 的虚拟环境: python3 -m venv myenv 2.激活 激活虚拟环境使其成为当前终端会话的活动环境。运行: source myenv/bin/activate 3.与notebook连接 在虚拟环境中,使用 pip 安装 Jupyter 和 ipykernel: pip instal