agglomerative专题

【聚类】基于位置(kmeans)层次(agglomerative\birch)基于密度(DBSCAN)基于模型(GMM)

原博文: 一、聚类算法简介 聚类是无监督学习的典型算法,不需要标记结果。试图探索和发现一定的模式,用于发现共同的群体,按照内在相似性将数据划分为多个类别使得内内相似性大,内间相似性小。有时候作为监督学习中稀疏特征的预处理(类似于降维,变成K类后,假设有6类,则每一行都可以表示为类似于000100、010000)。有时候可以作为异常值检测(反欺诈中有用)。 应用场景:新闻聚类、用户购买模式(交

[python] 层次聚类 Agglomerative Clustering

层次聚类 下图中动物 就是一种层次分类 主要函数 cls = AgglomerativeClustering(n_clusters=group_size,linkage='ward') linkage 参数说明: ward (默认值):每一个类簇的方差最小化average:每一个类簇之间的距离的平均值最小complete:每一个类簇之间的距离最大single:每一个类簇之间的距离最小