集成聚类之EAC算法（证据积累数据聚类）附：单连接（SL）易理解详谈

本文主要是介绍集成聚类之EAC算法（证据积累数据聚类）附：单连接（SL）易理解详谈，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

最近要写论文涉及到聚类集成，想先从EAC做起，集成方面做得还不是很好。如果有机会的话，希望也在研究集成聚类的大佬们和我联系，一起研究探讨集成聚类这方面的知识。感谢各位！

证据积累的想法是这样的：将每个聚类结果作为数据组织独立的证据，把多个聚类的结果合并到一个分区中。

方法为拆分合并：

（1）拆分：把大型的多维数据分成小型的球型簇。

使用K-Means算法执行此步骤，因为通过K的随机初始化，可以获得各种聚类结果。

（2）结合：为将不同数目的聚类分区并到一块，使用“投票法”合并聚类的结果。

那么肯定会有这么一种可能，“自然”产生的集群可能在不同集群下的统一集群（不同的划分，做出一个邻近度矩阵）

在同一个集群下模式对的同时出现做一个投票标记给关联上。做一个矩阵 $co-assocation(i,j)=\frac{votes_{ij}}{N}$

N是聚类的数目， $votes_{ij}$ 是ij对，被分配给N个聚类数中相同聚类的次数。

（3）合并：恢复自然簇，根据邻域关系，用MST算法（最小生成树），用t的阙值切断弱连接，这句话说的专业一点就是用阙值t在相似性矩阵上切割单连接（SL）生成的树状图，来合并拆分阶段生成的簇。

补充：

1.MST（最小生成树）：学过数据结构的一定都会，包括解决方法两种，克鲁斯卡尔和普利姆算法，很简单，如果有忘记的朋友们可以自行复习一下。

2.那么什么是单连接（SL）呢？：单连接和全连接都是由（2）的邻近度矩阵所出现的。

单连接是作用于阙值图的

（阙值图是N个节点的无向图，每个节点都是一个对象，图中不存在环和多重边。用G(v)表示，v表示不相似的程度。给一个v，如果节点i和j之间的不相似度小于v，就在i和j之间插入一条边 $edge(i,j)$ 。）

例：邻近度矩阵： $D=\begin{Bmatrix} 0\, \, 0\, \, 0\, \, 2\, \,0\\ 0\, \, 0\, \, 1\, \, 5\, \, 3\\ 0\, \, 1\, \, 0\, \, 0\, \, 0\\ 2\, \, 5\, \, 0\, \, 0\, \, 4\\ 0\, \, 3\, \, 0\, \, 4\, \, 0 \end{Bmatrix}$ 设定邻近度为5

（1）G（0）：刚开始都是点，没有边，每个点都是一个簇，有n个点就是有n个簇。

（2）G（1）：根据邻近度矩阵，找1，发现（2,3）满足条件

（3）G（2）：找2，发现

（4）G（3）：（2,5）

（5）G（4）：设定不超过5，所以4是最后一个（4,5）

我们做聚类，最后把它拉成树状图：

总结

EAC步骤：

n ---维数 k---初始簇数 N---聚类数 t---阙值邻近度矩阵设为空

（1）做N次：1.随机选择K聚类中心；2.初始化用K-Means，生成分区P；3.更新关联度矩阵，对P中同一集群中每对ij更新

（2）用SL找到一致性簇：1.投票法找到多数关联，对每对（i，j）合并到统一集群；2.没包含集群里剩下的做单个集群。

本人尚才疏学浅，如内容中有任何错误的地方，望告知，我会加以修改，之后会继续更新。

这篇关于集成聚类之EAC算法（证据积累数据聚类）附：单连接（SL）易理解详谈的文章就介绍到这儿，希望我们推荐的文章对编程师们有所帮助！

集成聚类之EAC算法（证据积累数据聚类）附：单连接（SL）易理解详谈

最近要写论文涉及到聚类集成，想先从EAC做起，集成方面做得还不是很好。如果有机会的话，希望也在研究集成聚类的大佬们和我联系，一起研究探讨集成聚类这方面的知识。感谢各位！

证据积累的想法是这样的：将每个聚类结果作为数据组织独立的证据，把多个聚类的结果合并到一个分区中。

方法为拆分合并：

补充：

总结

EAC步骤：

相关文章

springboot集成easypoi导出word换行处理过程

SpringBoot集成redisson实现延时队列教程

SpringBoot分段处理List集合多线程批量插入数据方式

PHP轻松处理千万行数据的方法详解

C#实现千万数据秒级导入的代码

java.sql.SQLTransientConnectionException连接超时异常原因及解决方案

MyBatis-plus处理存储json数据过程

GSON框架下将百度天气JSON数据转JavaBean

C# LiteDB处理时间序列数据的高性能解决方案

SpringBoot集成XXL-JOB实现任务管理全流程