看书标记【数据科学：R语言实战 6】

本文主要是介绍看书标记【数据科学：R语言实战 6】，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

看书标记——R语言

Chapter 6 数据分析——聚类
- - 6.1 功能包
  - 6.2 K-means聚类
  - - 6.2.1 示例
    - 6.2.2 Medoids集群
    - 6.2.3 cascadeKM函数
    - 6.2.4 基于贝叶斯定理
    - 6.2.5 仿射传播聚类
    - 6.2.6 用于估测集群数量的间隙统计量
    - 6.2.7 分级聚类

【数据科学：R语言实战】

Chapter 6 数据分析——聚类

6.1 功能包

NbClust：集群指数的数量
fpc：包含进行聚类的灵活程序
vegan：社区生态功能包
apcluster：用于仿射传播聚类操作
pvclust：用于分级聚类操作

6.2 K-means聚类

kmeans()

参数
x 数据集
centers 包含了所要查找的中心/集群数量
iter.max 存储了所允许迭代的最大量
nstart 包含了所要查找的随机整群数
algorithm 包含了用于确定集群的算法（“Hartigan-Wong\Lloyd”）
trace 生成跟踪信息以确定中心

6.2.1 示例

数据源葡萄酒质量数据(这个数据从UCI机器学习数据库得到）

data <- read.csv("https://archive.ics.uci.edu/ml/machine-learningdatabases/wine-quality/winequality-white.csv", sep=";")##不是标准CSV文件，用的；分栏
# summary(data)
plot(data) ##关系密切
kmeans(data,5)
# kmeans(data,10)
# kmeans(data,15)
# kmeans(data,20)

最佳集群数量
NbClust()通过使用一些列度量中心和距离的指数对每个集群复查，并对每个集群所设定的优选数字频数进行计数。
data 数据集
diss 相异矩阵
distance 待用的距离度量
min.nc 最小集群数
max.nc 最大集群数
**method ** “ward/single/compete/average/mcquitty/median/centroid/kmeans”
index 待计算的指数
alphaBeale 包含了比尔指数的一个重要数值

install.packages("NbClust")
library(NbClust)
set.seed(2365)  ##保证过程可以复写
nc <- NbClust(data, min.nc=10, max.nc=15, method="kmeans") #propose提议，所以选择最佳聚类中心数11

6.2.2 Medoids集群

fpc中的pamk()将最小相异度作为行列式使用（对应kmeans中的距离）

参数
data 数据集
krange 集群数量，默认2~10
criterion “asw/multiasw/ch” average silhouette 方法
usepam 逻辑标记，默认TRUE，也可以写为pam，对于大数据集用clara=TRUE
scaling 逻辑标记，默认FALSE，均方根会对变量进行划分
alpha dudahart方法的调谐常数，默认0.001
diss 使用相异点矩阵的逻辑标记
critout 默认为FALSE，集群印刷标准的逻辑标记

install.packages("fpc")
library(fpc)
best <- pamk(data);best
library(cluster)
plot(pam(data, best$nc))

6.2.3 cascadeKM函数

vegan包里的cascadeKM()是kmeans实施的包装器，用于确定最佳k值

install.packages("vegan")
library(vegan)
fit <- cascadeKM(scale(data, center=TRUE, scale=TRUE), 10, 15) ##inf.gr下限，sup.gr上限，iter迭代次数默认100，criterion ="calinski/ssi"选取集群标准
plot(fit, sortg=TRUE, grmts.plot=TRUE)  ##选聚类数对应数值最大的

6.2.4 基于贝叶斯定理

mclust包中的Mclust()是基于数据显示的贝叶斯定理信息选取最佳集群大小
数据源葡萄酒质量数据(这个数据从UCI机器学习数据库得到）

library(mclust)
d <- Mclust(as.matrix(data), G=10:15)
plot(d)
##图一，不同方式对应的BIC信息与集群数量，选取BIC最小的项
##图二，相关性表
##图三，每个属性对比的对数密度等值线图
summary(d) #n观测数量和迭代次数，最佳集群数量为11，各个集群对应的数据点

6.2.5 仿射传播聚类

apcluster()实施仿射传播聚类，通过比较指定集群相关信息的不同数值实施仿射传播聚类。

install.packages("apcluster")
library(apcluster)
neg <- negDistMat(data, r=2)
ap <- apcluster(neg) ;#ap
summary(ap)
length(ap@clusters)  ##最佳集群数81，存在高仿射性

6.2.6 用于估测集群数量的间隙统计量

clusGap()为一系列集群值计算聚类度量适合度或间隙统计量

参数
x 数据集
FUNcluster 聚类函数
K.max 最大集群数
B 所用Monte Carlo样品数
verbose 用以辨别是否生成进度输出

data <- read.csv("https://archive.ics.uci.edu/ml/machine-learningdatabases/wine-quality/winequality-white.csv", sep=";")##不是标准CSV文件，用的；分栏
library(cluster)
clusGap(data, kmeans, 15, B=100, verbose=interactive()) ###选gap最大的集群数

6.2.7 分级聚类

pvclust包中的pvclust()实施分类聚类

参数
data 数据框矩阵
method.hclust 凝聚算法"默认averge/ward/single/complete/mcquitty/median/centroid"
method.dist 待用距离度量"默认correlation/uncentered/abscor"
use.cor 待用的用以计算空缺值相关性的方法"all.obs/complete.obs/pairwise.complete.obs"

install.packages("pvclust")
library(pvclust)
data <- read.csv("https://archive.ics.uci.edu/ml/machine-learningdatabases/wine-quality/winequality-white.csv", sep=";")##不是标准CSV文件，用的；分栏
pv <- pvclust(data);pv
plot(pv)  ##聚类系统树图

转载机器学习确定最佳聚类数目的10种方法

这篇关于看书标记【数据科学：R语言实战 6】的文章就介绍到这儿，希望我们推荐的文章对编程师们有所帮助！

看书标记【数据科学：R语言实战 6】

看书标记——R语言

Chapter 6 数据分析——聚类

6.1 功能包

6.2 K-means聚类

6.2.1 示例

6.2.2 Medoids集群

6.2.3 cascadeKM函数

6.2.4 基于贝叶斯定理

6.2.5 仿射传播聚类

6.2.6 用于估测集群数量的间隙统计量

6.2.7 分级聚类

相关文章

MySQL 删除数据详解(最新整理)

从原理到实战深入理解Java 断言assert

Go语言中nil判断的注意事项(最新推荐)

Java MQTT实战应用

Go语言数据库编程GORM 的基本使用详解

MyBatisPlus如何优化千万级数据的CRUD

python实现对数据公钥加密与私钥解密

mysql中的数据目录用法及说明

在Spring Boot中集成RabbitMQ的实战记录

深度解析Spring Boot拦截器Interceptor与过滤器Filter的区别与实战指南