k-means、DBSCAN、层次聚类等常用5中聚类方法

本文主要是介绍k-means、DBSCAN、层次聚类等常用5中聚类方法，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

文章目录

1 K-Means聚类
2 均值漂移聚类
3 具噪声基于密度的空间聚类算法
4 高斯混合模型的期望最大化聚类
5 凝聚层次聚类

1 K-Means聚类

基本K-Means算法的思想很简单，事先确定常数K，常数K意味着最终的聚类类别数，首先随机选定初始点为质心，并通过计算每一个样本与质心之间的相似度(这里为欧式距离)，将样本点归到最相似的类中，接着，重新计算每个类的质心(即为类中心)，重复这样的过程，直到质心不再改变，最终就确定了每个样本所属的类别以及每个类的质心。由于每次都要计算所有的样本与每一个质心之间的相似度，故在大规模的数据集上，K-Means算法的收敛速度比较慢。

在这里插入图片描述

2 均值漂移聚类

Mean-Shift聚类是基于滑动窗口的算法，试图找到数据点的密集区域。这是一种基于质心的算法，意味着其目标是定位每个簇的中心点，通过将滑动窗口的均值点作为候选点来迭代更新中心点。在后处理阶段将消除近似重复的窗口，最终形成一组中心点及其相应的簇。
在这里插入图片描述

与K-means聚类相比，Mean-Shift的最大优势就是可以自动发现簇的数量而不需要人工选择。簇的中心向最大密度点聚合的事实也是非常令人满意的，因为它可被非常直观地理解并很自然地契合数据驱动。

3 具噪声基于密度的空间聚类算法

DBSCAN（Density-Based Spatial Clustering of Applications with Noise）是一种基于密度的聚类算法，类似于Mean-Shift，但具有一些显著的优点。
在这里插入图片描述

4 高斯混合模型的期望最大化聚类

K-Means的主要缺点之一是其简单地使用了平均值作为簇的中心。高斯混合模型（GMMs）相比于K-Means来说有更多的灵活性。对于GMMs，我们假设数据点是服从高斯分布的（对于用均值进行聚类，这一假设是个相对较弱的限制）。这样，我们有两个参数来描述簇的形状：均值和标准差！以二维为例，这意味着簇可以采用任何类型的椭圆形（因为我们在x和y方向都有标准偏差）。因此，每个簇都有一个高斯分布。
在这里插入图片描述

5 凝聚层次聚类

分层聚类算法实际上分为两类：自上而下或自下而上。自下而上算法首先将每个数据点视为单个簇，然后不断合并（或聚合）成对的簇，直到所有簇合并成一个包含所有数据点的簇。因此自下而上的层次聚类被称为分层凝聚聚类或HAC。该簇的层次结构被表示为树（或树状图）。树的根是包含所有样本的唯一的簇，叶是仅有一个样本的簇。在进入算法步骤之前，请查看下面的图解。
在这里插入图片描述
分层聚类不要求我们指定聚类的数量，因为我们在构建一棵树，我们甚至可以选择哪个数量的簇看起来最好。另外，该算法对距离度量的选择不敏感，它们的效果都趋于相同，而对其他聚类算法而言，距离度量的选择则是至关重要的。