本文主要是介绍看书标记【数据科学:R语言实战 6】,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!
看书标记——R语言
- Chapter 6 数据分析——聚类
- 6.1 功能包
- 6.2 K-means聚类
- 6.2.1 示例
- 6.2.2 Medoids集群
- 6.2.3 cascadeKM函数
- 6.2.4 基于贝叶斯定理
- 6.2.5 仿射传播聚类
- 6.2.6 用于估测集群数量的间隙统计量
- 6.2.7 分级聚类
【数据科学:R语言实战】
Chapter 6 数据分析——聚类
6.1 功能包
- NbClust:集群指数的数量
- fpc:包含进行聚类的灵活程序
- vegan:社区生态功能包
- apcluster:用于仿射传播聚类操作
- pvclust:用于分级聚类操作
6.2 K-means聚类
kmeans()
- 参数
x 数据集
centers 包含了所要查找的中心/集群数量
iter.max 存储了所允许迭代的最大量
nstart 包含了所要查找的随机整群数
algorithm 包含了用于确定集群的算法(“Hartigan-Wong\Lloyd”)
trace 生成跟踪信息以确定中心
6.2.1 示例
数据源葡萄酒质量数据(这个数据从UCI机器学习数据库得到)
data <- read.csv("https://archive.ics.uci.edu/ml/machine-learningdatabases/wine-quality/winequality-white.csv", sep=";")##不是标准CSV文件,用的;分栏
# summary(data)
plot(data) ##关系密切
kmeans(data,5)
# kmeans(data,10)
# kmeans(data,15)
# kmeans(data,20)
最佳集群数量
NbClust()通过使用一些列度量中心和距离的指数对每个集群复查,并对每个集群所设定的优选数字频数进行计数。
data 数据集
diss 相异矩阵
distance 待用的距离度量
min.nc 最小集群数
max.nc 最大集群数
**method ** “ward/single/compete/average/mcquitty/median/centroid/kmeans”
index 待计算的指数
alphaBeale 包含了比尔指数的一个重要数值
install.packages("NbClust")
library(NbClust)
set.seed(2365) ##保证过程可以复写
nc <- NbClust(data, min.nc=10, max.nc=15, method="kmeans") #propose提议,所以选择最佳聚类中心数11
6.2.2 Medoids集群
fpc中的pamk()将最小相异度作为行列式使用(对应kmeans中的距离)
- 参数
data 数据集
krange 集群数量,默认2~10
criterion “asw/multiasw/ch” average silhouette 方法
usepam 逻辑标记,默认TRUE,也可以写为pam,对于大数据集用clara=TRUE
scaling 逻辑标记,默认FALSE,均方根会对变量进行划分
alpha dudahart方法的调谐常数,默认0.001
diss 使用相异点矩阵的逻辑标记
critout 默认为FALSE,集群印刷标准的逻辑标记
install.packages("fpc")
library(fpc)
best <- pamk(data);best
library(cluster)
plot(pam(data, best$nc))
6.2.3 cascadeKM函数
vegan包里的cascadeKM()是kmeans实施的包装器,用于确定最佳k值
install.packages("vegan")
library(vegan)
fit <- cascadeKM(scale(data, center=TRUE, scale=TRUE), 10, 15) ##inf.gr下限,sup.gr上限,iter迭代次数默认100,criterion ="calinski/ssi"选取集群标准
plot(fit, sortg=TRUE, grmts.plot=TRUE) ##选聚类数对应数值最大的
6.2.4 基于贝叶斯定理
mclust包中的Mclust()是基于数据显示的贝叶斯定理信息 选取最佳集群大小
数据源葡萄酒质量数据(这个数据从UCI机器学习数据库得到)
library(mclust)
d <- Mclust(as.matrix(data), G=10:15)
plot(d)
##图一,不同方式对应的BIC信息与集群数量,选取BIC最小的项
##图二,相关性表
##图三,每个属性对比的对数密度等值线图
summary(d) #n观测数量和迭代次数,最佳集群数量为11,各个集群对应的数据点
6.2.5 仿射传播聚类
apcluster()实施仿射传播聚类,通过比较指定集群相关信息的不同数值实施仿射传播聚类。
install.packages("apcluster")
library(apcluster)
neg <- negDistMat(data, r=2)
ap <- apcluster(neg) ;#ap
summary(ap)
length(ap@clusters) ##最佳集群数81,存在高仿射性
6.2.6 用于估测集群数量的间隙统计量
clusGap()为一系列集群值计算聚类度量适合度或间隙统计量
- 参数
x 数据集
FUNcluster 聚类函数
K.max 最大集群数
B 所用Monte Carlo样品数
verbose 用以辨别是否生成进度输出
data <- read.csv("https://archive.ics.uci.edu/ml/machine-learningdatabases/wine-quality/winequality-white.csv", sep=";")##不是标准CSV文件,用的;分栏
library(cluster)
clusGap(data, kmeans, 15, B=100, verbose=interactive()) ###选gap最大的集群数
6.2.7 分级聚类
pvclust包中的pvclust()实施分类聚类
- 参数
data 数据框矩阵
method.hclust 凝聚算法"默认averge/ward/single/complete/mcquitty/median/centroid"
method.dist 待用距离度量"默认correlation/uncentered/abscor"
use.cor 待用的用以计算空缺值相关性的方法"all.obs/complete.obs/pairwise.complete.obs"
install.packages("pvclust")
library(pvclust)
data <- read.csv("https://archive.ics.uci.edu/ml/machine-learningdatabases/wine-quality/winequality-white.csv", sep=";")##不是标准CSV文件,用的;分栏
pv <- pvclust(data);pv
plot(pv) ##聚类系统树图
转载 机器学习确定最佳聚类数目的10种方法
这篇关于看书标记【数据科学:R语言实战 6】的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!