本文主要是介绍集成聚类之EAC算法(证据积累数据聚类)附:单连接(SL)易理解详谈,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!
最近要写论文涉及到聚类集成,想先从EAC做起,集成方面做得还不是很好。如果有机会的话,希望也在研究集成聚类的大佬们和我联系,一起研究探讨集成聚类这方面的知识。感谢各位!
证据积累的想法是这样的:将每个聚类结果作为数据组织独立的证据,把多个聚类的结果合并到一个分区中。
方法为拆分合并:
(1)拆分:把大型的多维数据分成小型的球型簇。
使用K-Means算法执行此步骤,因为通过K的随机初始化,可以获得各种聚类结果。
(2)结合:为将不同数目的聚类分区并到一块,使用“投票法”合并聚类的结果。
那么肯定会有这么一种可能,“自然”产生的集群可能在不同集群下的统一集群(不同的划分,做出一个邻近度矩阵)
在同一个集群下模式对的同时出现做一个投票标记给关联上。做一个矩阵
N是聚类的数目,是ij对,被分配给N个聚类数中相同聚类的次数。
(3)合并:恢复自然簇,根据邻域关系,用MST算法(最小生成树),用t的阙值切断弱连接,这句话说的专业一点就是用阙值t在相似性矩阵上切割单连接(SL)生成的树状图,来合并拆分阶段生成的簇。
补充:
1.MST(最小生成树):学过数据结构的一定都会,包括解决方法两种,克鲁斯卡尔和普利姆算法,很简单,如果有忘记的朋友们可以自行复习一下。
2.那么什么是单连接(SL)呢?:单连接和全连接都是由(2)的邻近度矩阵所出现的。
单连接是作用于阙值图的
(阙值图是N个节点的无向图,每个节点都是一个对象,图中不存在环和多重边。用G(v)表示,v表示不相似的程度。给一个v,如果节点i和j之间的不相似度小于v,就在i和j之间插入一条边。)
例:邻近度矩阵:设定邻近度为5
(1)G(0):刚开始都是点,没有边,每个点都是一个簇,有n个点就是有n个簇。
(2)G(1):根据邻近度矩阵,找1,发现(2,3)满足条件
(3)G(2):找2,发现
(4)G(3):(2,5)
(5)G(4):设定不超过5,所以4是最后一个(4,5)
我们做聚类,最后把它拉成树状图:
总结
EAC步骤:
n ---维数 k---初始簇数 N---聚类数 t---阙值 邻近度矩阵设为空
(1)做N次:1.随机选择K聚类中心;2.初始化用K-Means,生成分区P;3.更新关联度矩阵,对P中同一集群中每对ij更新
(2)用SL找到一致性簇:1.投票法找到多数关联,对每对(i,j)合并到统一集群;2.没包含集群里剩下的做单个集群。
本人尚才疏学浅,如内容中有任何错误的地方,望告知,我会加以修改,之后会继续更新。
这篇关于集成聚类之EAC算法(证据积累数据聚类)附:单连接(SL)易理解详谈的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!