基于网格的CLIQUE聚类算法的实现

2024-06-04 18:36

本文主要是介绍基于网格的CLIQUE聚类算法的实现,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

目录

  • 1. 作者介绍
  • 2. 基于网格的CLIQUE聚类算法介绍
    • 2.1 算法介绍
    • 2.2 算法概述
    • 2.3 算法步骤
    • 2.4 算法优缺点
  • 3. 基于网格的CLIQUE鸢尾花数据集聚类
    • 3.1 实验代码
    • 3.2 代码内容
    • 3.3 CLIQUE算法实现
  • 4. 参考链接

1. 作者介绍

朱梓慧,女,西安工程大学电子信息学院,2023级研究生
研究方向:机器视觉与人工智能
电子邮件:1556867689@qq.com

徐达,男,西安工程大学电子信息学院,2023级研究生,张宏伟人工智能课题组
研究方向:机器视觉与人工智能
电子邮件:1374455905@qq.com

2. 基于网格的CLIQUE聚类算法介绍

2.1 算法介绍

CLIQUE算法是基于网格的空间聚类算法,但它同时也非常好的结合了基于密度的聚类算法,因此既能够发现任意形状的簇,又可以像基于网格的算法一样处理较大的多维数据。
CLIQUE就是将数据空间划分为网格单元,将数据对象集映射到网格单元中,并计算每个单元的密度。根据预设的 密度阈值 判断每个网格单元是否为 高密度单元,由邻近的稠密单元组形成 “类”(簇)。
总结之就是:CLIQUE算法是一种基于网格的聚类算法,用于发现子空间中基于密度的簇。

2.2 算法概述

1、算法需要的两个参数:
网格步长–确定空间的划分
密度阈值–网格中对象数量大于等于该阈值表示该网格为稠密网格
2、聚类思想:
(1)首先扫描所有网格。当发现第一个密集网格时,便以该网格开始扩展,扩展原则是若一个网格与已知密集区域内的网格邻接并且其自身也是密集的,则将该网格加入到该密集区域中,直到不再有这样的网格为止。(密集网格合并)
(2)算法再继续扫描网格并重复上述过程,直到所有网格被遍历。以自动地发现最高维的子空间,高密度聚类存在于这些子空间中,并且对元组的输入顺序不敏感,无需假设任何规范的数据分布,它随输入数据的大小线性地扩展,当数据的维数增加时具有良好的可伸缩性。

2.3 算法步骤

(1) 划分数据空间为不重叠的矩形单元

  • 计算每个网格的密度
  • 根据阀值识别稠密网格和非稠密网格
  • 所有网格初始状态设为“未处理标记”
    (2)遍历所有网格判断当前网格是否为“未处理标记
    -是 --> 进入步骤4
    -否 --> 处理下一个网格 (返回步骤3)
    (3)改变网格标记为“已处理”判断网格是否为稠密网格
    -是 --> 进入步骤5
    -否 --> 返回步骤3
    (4)稠密网格处理
    -赋予新的簇标记
    -创建队列并将稠密网格置入队列
    (5)判断队列是否为空
    -是 --> 返回步骤3
    -否 --> 进入步骤7
    (6)处理队列
    -取出队头的网格元素
    -检查所有邻接的“未处理标记”网格
    -更改网格标记为“已处理”
    -若邻接网格为稠密网格赋予当前簇标记
    -加入队列
    (7) 密度连通区域检查结束
    -标记相同的稠密网格组成密度连通区域即目标簇
    (8) 进行下一簇的查找
    -返回步骤3
    (9)遍历整个数据集
    -将数据元素标记为所在网格的簇标记值

2.4 算法优缺点

优点:  
(1) 给定每个属性的划分,单遍数据扫描就可以确定每个对象的网格单元和网格单元的计数。
(2) 尽管潜在的网格单元数量可能很高,但是只需要为非空单元创建网格。
(3) 将每个对象指派到一个单元并计算每个单元的密度的时间复杂度和空间复杂度为O(m),整个聚类过程是非常高效的
缺点:  
(1) 像大多数基于密度的聚类算法一样,基于网格的聚类非常依赖于密度阈值的选择。(太高,簇可能丢失。太低,本应分开的簇可能被合并)
(2) 如果存在不同密度的簇和噪声,则有可能找不到适合于数据空间所有部分的值。
(3) 随着维度的增加,网格单元个数迅速增加(指数增长)。即对于高维数据,基于网格的聚类倾向于效果很差。

3. 基于网格的CLIQUE鸢尾花数据集聚类

3.1 实验代码

(1)Clique.py


import os
import sysimport numpy as np
import scipy.sparse.csgraphfrom Cluster import Cluster
from sklearn import metrics
from ast import literal_eval# 从scikit-learn中加载鸢尾花数据集
from sklearn.datasets import load_irisfrom Visualization import plot_clusters# Inserts joined item into candidates list only if its dimensionality fits
def insert_if_join_condition(candidates, item, item2, current_dim):joined = item.copy()joined.update(item2)if (len(joined.keys()) == current_dim) & (not candidates.__contains__(joined)):candidates.append(joined)# Prune all candidates, which have a (k-1) dimensional projection not in (k-1) dim dense units
def prune(candidates, prev_dim_dense_units):for c in candidates:if not subdims_included(c, prev_dim_dense_units):candidates.remove(c)def subdims_included(candidate, prev_dim_dense_units):for feature in candidate:projection = candidate.copy()projection.pop(feature)if not prev_dim_dense_units.__contains__(projection):return Falsereturn Truedef self_join(prev_dim_dense_units, dim):candidates = []for i in range(len(prev_dim_dense_units)):for j in range(i + 1, len(prev_dim_dense_units)):insert_if_join_condition(candidates, prev_dim_dense_units[i], prev_dim_dense_units[j], dim)return candidatesdef is_data_in_projection(tuple, candidate, xsi):for feature_index, range_index in candidate.items():feature_value = tuple[feature_index]if int(feature_value * xsi % xsi) != range_index:return Falsereturn Truedef get_dense_units_for_dim(data, prev_dim_dense_units, dim, xsi, tau):candidates = self_join(prev_dim_dense_units, dim)prune(candidates, prev_dim_dense_units)# Count number of elements in candidatesprojection = np.zeros(len(candidates))number_of_data_points = np.shape(data)[0]for dataIndex in range(number_of_data_points):for i in range(len(candidates)):if is_data_in_projection(data[dataIndex], candidates[i], xsi):projection[i] += 1print("projection: ", projection)# Return elements above density thresholdis_dense = projection > tau * number_of_data_pointsprint("is_dense: ", is_dense)return np.array(candidates)[is_dense]def build_graph_from_dense_units(dense_units):graph = np.identity(len(dense_units))for i in range(len(dense_units)):for j in range(len(dense_units)):graph[i, j] = get_edge(dense_units[i], dense_units[j])return graphdef get_edge(node1, node2):dim = len(node1)distance = 0if node1.keys() != node2.keys():return 0for feature in node1.keys():distance += abs(node1[feature] - node2[feature])if distance > 1:return 0return 1def save_to_file(clusters, file_name):file = open(os.path.join(os.path.abspath(os.path.dirname(__file__)), file_name), encoding='utf-8', mode="w+")for i, c in enumerate(clusters):c.id = ifile.write("Cluster " + str(i) + ":\n" + str(c))file.close()def get_cluster_data_point_ids(data, cluster_dense_units, xsi):point_ids = set()# Loop through all dense unitfor u in cluster_dense_units:tmp_ids = set(range(np.shape(data)[0]))# Loop through all dimensions of dense unitfor feature_index, range_index in u.items():tmp_ids = tmp_ids & set(np.where(np.floor(data[:, feature_index] * xsi % xsi) == range_index)[0])point_ids = point_ids | tmp_idsreturn point_idsdef get_clusters(dense_units, data, xsi):graph = build_graph_from_dense_units(dense_units)number_of_components, component_list = scipy.sparse.csgraph.connected_components(graph, directed=False)dense_units = np.array(dense_units)clusters = []# For every clusterfor i in range(number_of_components):# Get dense units of the clustercluster_dense_units = dense_units[np.where(component_list == i)]print("cluster_dense_units: ", cluster_dense_units.tolist())# Get dimensions of the clusterdimensions = set()for u in cluster_dense_units:dimensions.update(u.keys())# Get points of the clustercluster_data_point_ids = get_cluster_data_point_ids(data, cluster_dense_units, xsi)# Add cluster to listclusters.append(Cluster(cluster_dense_units,dimensions, cluster_data_point_ids))return clustersdef get_one_dim_dense_units(data, tau, xsi):number_of_data_points = np.shape(data)[0]number_of_features = np.shape(data)[1]projection = np.zeros((xsi, number_of_features))for f in range(number_of_features):for element in data[:, f]:projection[int(element * xsi % xsi), f] += 1print("1D projection:\n", projection, "\n")is_dense = projection > tau * number_of_data_pointsprint("is_dense:\n", is_dense)one_dim_dense_units = []for f in range(number_of_features):for unit in range(xsi):if is_dense[unit, f]:dense_unit = dict({f: unit})one_dim_dense_units.append(dense_unit)return one_dim_dense_units# Normalize data in all features (1e-5 padding is added because clustering works on [0,1) interval)
def normalize_features(data):normalized_data = datanumber_of_features = np.shape(normalized_data)[1]for f in range(number_of_features):normalized_data[:, f] -= min(normalized_data[:, f]) - 1e-5normalized_data[:, f] *= 1 / (max(normalized_data[:, f]) + 1e-5)return normalized_datadef evaluate_clustering_performance(clusters, labels):set_of_dimensionality = set()for cluster in clusters:set_of_dimensionality.add(frozenset(cluster.dimensions))# Evaluating performance in all dimensionalityfor dim in set_of_dimensionality:print("\nEvaluating clusters in dimension: ", list(dim))# Finding clusters with same dimensionsclusters_in_dim = []for c in clusters:if c.dimensions == dim:clusters_in_dim.append(c)clustering_labels = np.zeros(np.shape(labels))for i, c in enumerate(clusters_in_dim):clustering_labels[list(c.data_point_ids)] = i + 1print("Number of clusters: ", len(clusters_in_dim))print("Adjusted Rand index: ", metrics.adjusted_rand_score(labels, clustering_labels))print("Mutual Information: ", metrics.adjusted_mutual_info_score(labels, clustering_labels))print("Homogeneity, completeness, V-measure: ",metrics.homogeneity_completeness_v_measure(labels, clustering_labels))print("Fowlkes-Mallows: ",metrics.fowlkes_mallows_score(labels, clustering_labels))def run_clique(data, xsi, tau):# Finding 1 dimensional dense unitsdense_units = get_one_dim_dense_units(data, tau, xsi)# Getting 1 dimensional clustersclusters = get_clusters(dense_units, data, xsi)# Finding dense units and clusters for dimension > 2current_dim = 2number_of_features = np.shape(data)[1]while (current_dim <= number_of_features) & (len(dense_units) > 0):print("\n", str(current_dim), " dimensional clusters:")dense_units = get_dense_units_for_dim(data, dense_units, current_dim, xsi, tau)for cluster in get_clusters(dense_units, data, xsi):clusters.append(cluster)current_dim += 1return clustersdef read_labels(delimiter, label_column, path):return np.genfromtxt(path, dtype="U10", delimiter=delimiter, usecols=[label_column])def read_data(delimiter, feature_columns, path):return np.genfromtxt(path, dtype=float, delimiter=delimiter, usecols=feature_columns)# 主程序部分
if __name__ == "__main__":print("Running CLIQUE algorithm on Iris dataset")# 从鸢尾花数据集加载数据和标签iris = load_iris()original_data = iris.datalabels = iris.target# 标准化数据data = normalize_features(original_data)# 设置参数xsi = 3tau = 0.1clusters = run_clique(data=data, xsi=xsi, tau=tau)output_file = "output_clusters.txt"save_to_file(clusters, output_file)print("\nClusters exported to " + output_file)# 评估结果evaluate_clustering_performance(clusters, labels)# 可视化聚类结果title = f"Clustering Results with Iris Dataset - Parameters: Tau={tau} Xsi={xsi}"plot_clusters(data, clusters, title, xsi)

(2) Cluster

class Cluster:def __init__(self, dense_units, dimensions, data_point_ids):self.id = Noneself.dense_units = dense_unitsself.dimensions = dimensionsself.data_point_ids = data_point_idsdef __str__(self):return "Dense units: " + str(self.dense_units.tolist()) + "\nDimensions: " \+ str(self.dimensions) + "\nCluster size: " + str(len(self.data_point_ids)) \+ "\nData points:\n" + str(self.data_point_ids) + "\n"

(3) Visualization.py

import math
import numpy as np
import matplotlib.pyplot as plt
from mpl_toolkits.mplot3d import Axes3Ddef plot_clusters(data, clusters, title, xsi):# Check if there are clusters to plotif len(clusters) <= 0:returnndim = data.shape[1]nrecords = data.shape[0]data_extent = [[min(data[:, x]), max(data[:, x])] for x in range(0, ndim)]plt_cmap = plt.cm.tab10plt_marker_size = 10plt_spacing = 0  # change spacing to apply a margin to data_extentfig, axs = plt.subplots(1, 2, figsize=(14, 7))# Plot 1D clustersclusters_in_1d = [c for c in clusters if len(c.dimensions) == 1]ax1 = axs[0]for i, c in enumerate(clusters_in_1d):c_size = len(c.data_point_ids)c_attrs = list(c.dimensions)c_elems = list(c.data_point_ids)x = data[c_elems, 0] if c_attrs[0] == 0 else [0] * c_sizey = [0] * c_sizeax1.scatter(x, y, s=plt_marker_size, c=[plt_cmap(c.id)], label=f"Cluster {c.id}")ax1.set_xlim(data_extent[0][0] - plt_spacing, data_extent[0][1] + plt_spacing)ax1.set_ylim(-0.1, 0.1)ax1.set_title("1-dimensional clusters")ax1.legend(title="Cluster ID")# Plot 2D clustersclusters_in_2d = [c for c in clusters if len(c.dimensions) == 2]ax2 = axs[1]for i, c in enumerate(clusters_in_2d):c_size = len(c.data_point_ids)c_attrs = list(c.dimensions)c_elems = list(c.data_point_ids)x = data[c_elems, c_attrs[0]]y = data[c_elems, c_attrs[1]]ax2.scatter(x, y, s=plt_marker_size, c=[plt_cmap(c.id)], label=f"Cluster {c.id}")ax2.set_xlim(data_extent[0][0] - plt_spacing, data_extent[0][1] + plt_spacing)ax2.set_ylim(data_extent[1][0] - plt_spacing, data_extent[1][1] + plt_spacing)ax2.set_title("2-dimensional clusters")ax2.legend(title="Cluster ID")fig.suptitle(title)plt.show()# Plot 3D clustersfig = plt.figure()ax = fig.add_subplot(111, projection='3d')clusters_in_3d = [c for c in clusters if len(c.dimensions) == 3]for i, c in enumerate(clusters_in_3d):c_size = len(c.data_point_ids)c_attrs = list(c.dimensions)c_elems = list(c.data_point_ids)x = data[c_elems, c_attrs[0]]y = data[c_elems, c_attrs[1]]z = data[c_elems, c_attrs[2]]ax.scatter(x, y, z, s=plt_marker_size, c=[plt_cmap(c.id)], label=f"Cluster {c.id}")ax.set_xlim(data_extent[0][0] - plt_spacing, data_extent[0][1] + plt_spacing)ax.set_ylim(data_extent[1][0] - plt_spacing, data_extent[1][1] + plt_spacing)ax.set_zlim(data_extent[2][0] - plt_spacing, data_extent[2][1] + plt_spacing)ax.set_title("3-dimensional clusters")ax.legend(title="Cluster ID")plt.show()# Plot 4D clusters (3D with color indicating the 4th dimension)fig = plt.figure()ax = fig.add_subplot(111, projection='3d')clusters_in_4d = [c for c in clusters if len(c.dimensions) == 4]for i, c in enumerate(clusters_in_4d):c_size = len(c.data_point_ids)c_attrs = list(c.dimensions)c_elems = list(c.data_point_ids)x = data[c_elems, c_attrs[0]]y = data[c_elems, c_attrs[1]]z = data[c_elems, c_attrs[2]]color = data[c_elems, c_attrs[3]]scatter = ax.scatter(x, y, z, s=plt_marker_size, c=color, cmap=plt_cmap, label=f"Cluster {c.id}")fig.colorbar(scatter, ax=ax, label="4th dimension")ax.set_xlim(data_extent[0][0] - plt_spacing, data_extent[0][1] + plt_spacing)ax.set_ylim(data_extent[1][0] - plt_spacing, data_extent[1][1] + plt_spacing)ax.set_zlim(data_extent[2][0] - plt_spacing, data_extent[2][1] + plt_spacing)ax.set_title("4-dimensional clusters (3D with color for 4th dimension)")ax.legend(title="Cluster ID")plt.show()

3.2 代码内容

数据加载和预处理:
(1)从scikit-learn加载鸢尾花数据集,包括特征数据和标签。
(2)对数据进行标准化,使每个特征的值在[0,1)范围内。

3.3 CLIQUE算法实现

insert_if_join_condition: 在满足特定条件时将候选集插入列表。
prune: 剪枝操作,移除不满足条件的候选集。
self_join: 对前一个维度的稠密单元进行自连接生成新的候选集。
is_data_in_projection: 检查数据点是否在候选投影中。
get_dense_units_for_dim: 计算在当前维度上的稠密单元。
build_graph_from_dense_units: 从稠密单元构建图。
get_edge: 获取两个稠密单元之间的边。
get_cluster_data_point_ids: 获取属于某个聚类的数据点ID。
get_clusters: 获取聚类结果。
get_one_dim_dense_units: 获取一维稠密单元。
normalize_features: 对特征进行标准化。
evaluate_clustering_performance: 评估聚类性能

CLIQUE算法运行:
(1)使用run_clique函数来运行CLIQUE算法,获取所有维度上的稠密单元和聚类结果。
(2)将聚类结果保存到文件中。
(3)评估聚类性能,打印调整兰德指数、互信息、同质性、完整性、V测度和Fowlkes-Mallows指数。
可视化聚类结果:
使用plot_clusters函数来可视化聚类结果。

4. 参考链接

  1. https://blog.csdn.net/pentiumCM/article/details/105833445
  2. https://github.com/georgekatona/Clique
  3. https://blog.csdn.net/zhinanpolang/article/details/84331510

这篇关于基于网格的CLIQUE聚类算法的实现的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1030791

相关文章

C++使用栈实现括号匹配的代码详解

《C++使用栈实现括号匹配的代码详解》在编程中,括号匹配是一个常见问题,尤其是在处理数学表达式、编译器解析等任务时,栈是一种非常适合处理此类问题的数据结构,能够精确地管理括号的匹配问题,本文将通过C+... 目录引言问题描述代码讲解代码解析栈的状态表示测试总结引言在编程中,括号匹配是一个常见问题,尤其是在

Java实现检查多个时间段是否有重合

《Java实现检查多个时间段是否有重合》这篇文章主要为大家详细介绍了如何使用Java实现检查多个时间段是否有重合,文中的示例代码讲解详细,感兴趣的小伙伴可以跟随小编一起学习一下... 目录流程概述步骤详解China编程步骤1:定义时间段类步骤2:添加时间段步骤3:检查时间段是否有重合步骤4:输出结果示例代码结语作

使用C++实现链表元素的反转

《使用C++实现链表元素的反转》反转链表是链表操作中一个经典的问题,也是面试中常见的考题,本文将从思路到实现一步步地讲解如何实现链表的反转,帮助初学者理解这一操作,我们将使用C++代码演示具体实现,同... 目录问题定义思路分析代码实现带头节点的链表代码讲解其他实现方式时间和空间复杂度分析总结问题定义给定

Java覆盖第三方jar包中的某一个类的实现方法

《Java覆盖第三方jar包中的某一个类的实现方法》在我们日常的开发中,经常需要使用第三方的jar包,有时候我们会发现第三方的jar包中的某一个类有问题,或者我们需要定制化修改其中的逻辑,那么应该如何... 目录一、需求描述二、示例描述三、操作步骤四、验证结果五、实现原理一、需求描述需求描述如下:需要在

如何使用Java实现请求deepseek

《如何使用Java实现请求deepseek》这篇文章主要为大家详细介绍了如何使用Java实现请求deepseek功能,文中的示例代码讲解详细,感兴趣的小伙伴可以跟随小编一起学习一下... 目录1.deepseek的api创建2.Java实现请求deepseek2.1 pom文件2.2 json转化文件2.2

python使用fastapi实现多语言国际化的操作指南

《python使用fastapi实现多语言国际化的操作指南》本文介绍了使用Python和FastAPI实现多语言国际化的操作指南,包括多语言架构技术栈、翻译管理、前端本地化、语言切换机制以及常见陷阱和... 目录多语言国际化实现指南项目多语言架构技术栈目录结构翻译工作流1. 翻译数据存储2. 翻译生成脚本

如何通过Python实现一个消息队列

《如何通过Python实现一个消息队列》这篇文章主要为大家详细介绍了如何通过Python实现一个简单的消息队列,文中的示例代码讲解详细,感兴趣的小伙伴可以跟随小编一起学习一下... 目录如何通过 python 实现消息队列如何把 http 请求放在队列中执行1. 使用 queue.Queue 和 reque

Python如何实现PDF隐私信息检测

《Python如何实现PDF隐私信息检测》随着越来越多的个人信息以电子形式存储和传输,确保这些信息的安全至关重要,本文将介绍如何使用Python检测PDF文件中的隐私信息,需要的可以参考下... 目录项目背景技术栈代码解析功能说明运行结php果在当今,数据隐私保护变得尤为重要。随着越来越多的个人信息以电子形

使用 sql-research-assistant进行 SQL 数据库研究的实战指南(代码实现演示)

《使用sql-research-assistant进行SQL数据库研究的实战指南(代码实现演示)》本文介绍了sql-research-assistant工具,该工具基于LangChain框架,集... 目录技术背景介绍核心原理解析代码实现演示安装和配置项目集成LangSmith 配置(可选)启动服务应用场景

使用Python快速实现链接转word文档

《使用Python快速实现链接转word文档》这篇文章主要为大家详细介绍了如何使用Python快速实现链接转word文档功能,文中的示例代码讲解详细,感兴趣的小伙伴可以跟随小编一起学习一下... 演示代码展示from newspaper import Articlefrom docx import