聚类分析主要包括样本相似性度量,类与类间相似性度量两个步骤。 (1)样本的相似性度量 在对样本进在行聚类分析时,首先要确定样本的相似性度量,常用的样本相似性度量有马氏距离、车比雪夫距离、欧式距离等,下面介绍最常用的欧式距离法。 记是样本点集,距离是的一个函数,满足条件: ① ② ③ ④ 这一距离的定义满足正定性、对称性和三角不等式。在聚类分析中,对于定量变量,最常用
K-均值方法,有时也叫劳埃德方法或 Lioyd-Forgy 方法。 K-均值聚类的核心思想是 为指定划分数目的最佳划分。 对于 n 个观测,每个观测是 m 维的实数向量,现在需要找到 k 个聚类 (其中 k <= n,即 n 个子集),使得每个类别分组内的方差最小化。 K-均值聚类的基本步骤如下: 1.随机选取 k 个真实/或虚拟的数据点作为初始质心(即 选择 k 个样品作为初始凝聚点,或者将