看书标记【数据科学:R语言实战 6】

2024-03-28 23:04

本文主要是介绍看书标记【数据科学:R语言实战 6】,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

看书标记——R语言

  • Chapter 6 数据分析——聚类
      • 6.1 功能包
      • 6.2 K-means聚类
        • 6.2.1 示例
        • 6.2.2 Medoids集群
        • 6.2.3 cascadeKM函数
        • 6.2.4 基于贝叶斯定理
        • 6.2.5 仿射传播聚类
        • 6.2.6 用于估测集群数量的间隙统计量
        • 6.2.7 分级聚类

【数据科学:R语言实战】

Chapter 6 数据分析——聚类

6.1 功能包

  • NbClust:集群指数的数量
  • fpc:包含进行聚类的灵活程序
  • vegan:社区生态功能包
  • apcluster:用于仿射传播聚类操作
  • pvclust:用于分级聚类操作

6.2 K-means聚类

kmeans()

  • 参数
    x 数据集
    centers 包含了所要查找的中心/集群数量
    iter.max 存储了所允许迭代的最大量
    nstart 包含了所要查找的随机整群数
    algorithm 包含了用于确定集群的算法(“Hartigan-Wong\Lloyd”)
    trace 生成跟踪信息以确定中心
6.2.1 示例

数据源葡萄酒质量数据(这个数据从UCI机器学习数据库得到)

data <- read.csv("https://archive.ics.uci.edu/ml/machine-learningdatabases/wine-quality/winequality-white.csv", sep=";")##不是标准CSV文件,用的;分栏
# summary(data)
plot(data) ##关系密切
kmeans(data,5)
# kmeans(data,10)
# kmeans(data,15)
# kmeans(data,20)

最佳集群数量
NbClust()通过使用一些列度量中心和距离的指数对每个集群复查,并对每个集群所设定的优选数字频数进行计数。
data 数据集
diss 相异矩阵
distance 待用的距离度量
min.nc 最小集群数
max.nc 最大集群数
**method ** “ward/single/compete/average/mcquitty/median/centroid/kmeans”
index 待计算的指数
alphaBeale 包含了比尔指数的一个重要数值

install.packages("NbClust")
library(NbClust)
set.seed(2365)  ##保证过程可以复写
nc <- NbClust(data, min.nc=10, max.nc=15, method="kmeans") #propose提议,所以选择最佳聚类中心数11
6.2.2 Medoids集群

fpc中的pamk()将最小相异度作为行列式使用(对应kmeans中的距离)

  • 参数
    data 数据集
    krange 集群数量,默认2~10
    criterion “asw/multiasw/ch” average silhouette 方法
    usepam 逻辑标记,默认TRUE,也可以写为pam,对于大数据集用clara=TRUE
    scaling 逻辑标记,默认FALSE,均方根会对变量进行划分
    alpha dudahart方法的调谐常数,默认0.001
    diss 使用相异点矩阵的逻辑标记
    critout 默认为FALSE,集群印刷标准的逻辑标记
install.packages("fpc")
library(fpc)
best <- pamk(data);best
library(cluster)
plot(pam(data, best$nc))
6.2.3 cascadeKM函数

vegan包里的cascadeKM()是kmeans实施的包装器,用于确定最佳k值

install.packages("vegan")
library(vegan)
fit <- cascadeKM(scale(data, center=TRUE, scale=TRUE), 10, 15) ##inf.gr下限,sup.gr上限,iter迭代次数默认100,criterion ="calinski/ssi"选取集群标准
plot(fit, sortg=TRUE, grmts.plot=TRUE)  ##选聚类数对应数值最大的
6.2.4 基于贝叶斯定理

mclust包中的Mclust()是基于数据显示的贝叶斯定理信息 选取最佳集群大小
数据源葡萄酒质量数据(这个数据从UCI机器学习数据库得到)

library(mclust)
d <- Mclust(as.matrix(data), G=10:15)
plot(d)
##图一,不同方式对应的BIC信息与集群数量,选取BIC最小的项
##图二,相关性表
##图三,每个属性对比的对数密度等值线图
summary(d) #n观测数量和迭代次数,最佳集群数量为11,各个集群对应的数据点
6.2.5 仿射传播聚类

apcluster()实施仿射传播聚类,通过比较指定集群相关信息的不同数值实施仿射传播聚类。

install.packages("apcluster")
library(apcluster)
neg <- negDistMat(data, r=2)
ap <- apcluster(neg) ;#ap
summary(ap)
length(ap@clusters)  ##最佳集群数81,存在高仿射性
6.2.6 用于估测集群数量的间隙统计量

clusGap()为一系列集群值计算聚类度量适合度或间隙统计量

  • 参数
    x 数据集
    FUNcluster 聚类函数
    K.max 最大集群数
    B 所用Monte Carlo样品数
    verbose 用以辨别是否生成进度输出
data <- read.csv("https://archive.ics.uci.edu/ml/machine-learningdatabases/wine-quality/winequality-white.csv", sep=";")##不是标准CSV文件,用的;分栏
library(cluster)
clusGap(data, kmeans, 15, B=100, verbose=interactive()) ###选gap最大的集群数
6.2.7 分级聚类

pvclust包中的pvclust()实施分类聚类

  • 参数
    data 数据框矩阵
    method.hclust 凝聚算法"默认averge/ward/single/complete/mcquitty/median/centroid"
    method.dist 待用距离度量"默认correlation/uncentered/abscor"
    use.cor 待用的用以计算空缺值相关性的方法"all.obs/complete.obs/pairwise.complete.obs"
install.packages("pvclust")
library(pvclust)
data <- read.csv("https://archive.ics.uci.edu/ml/machine-learningdatabases/wine-quality/winequality-white.csv", sep=";")##不是标准CSV文件,用的;分栏
pv <- pvclust(data);pv
plot(pv)  ##聚类系统树图

转载 机器学习确定最佳聚类数目的10种方法

这篇关于看书标记【数据科学:R语言实战 6】的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/856936

相关文章

使用Java解析JSON数据并提取特定字段的实现步骤(以提取mailNo为例)

《使用Java解析JSON数据并提取特定字段的实现步骤(以提取mailNo为例)》在现代软件开发中,处理JSON数据是一项非常常见的任务,无论是从API接口获取数据,还是将数据存储为JSON格式,解析... 目录1. 背景介绍1.1 jsON简介1.2 实际案例2. 准备工作2.1 环境搭建2.1.1 添加

MySQL中删除重复数据SQL的三种写法

《MySQL中删除重复数据SQL的三种写法》:本文主要介绍MySQL中删除重复数据SQL的三种写法,文中通过代码示例讲解的非常详细,对大家的学习或工作有一定的帮助,需要的朋友可以参考下... 目录方法一:使用 left join + 子查询删除重复数据(推荐)方法二:创建临时表(需分多步执行,逻辑清晰,但会

Java实现任务管理器性能网络监控数据的方法详解

《Java实现任务管理器性能网络监控数据的方法详解》在现代操作系统中,任务管理器是一个非常重要的工具,用于监控和管理计算机的运行状态,包括CPU使用率、内存占用等,对于开发者和系统管理员来说,了解这些... 目录引言一、背景知识二、准备工作1. Maven依赖2. Gradle依赖三、代码实现四、代码详解五

详谈redis跟数据库的数据同步问题

《详谈redis跟数据库的数据同步问题》文章讨论了在Redis和数据库数据一致性问题上的解决方案,主要比较了先更新Redis缓存再更新数据库和先更新数据库再更新Redis缓存两种方案,文章指出,删除R... 目录一、Redis 数据库数据一致性的解决方案1.1、更新Redis缓存、删除Redis缓存的区别二

Redis事务与数据持久化方式

《Redis事务与数据持久化方式》该文档主要介绍了Redis事务和持久化机制,事务通过将多个命令打包执行,而持久化则通过快照(RDB)和追加式文件(AOF)两种方式将内存数据保存到磁盘,以防止数据丢失... 目录一、Redis 事务1.1 事务本质1.2 数据库事务与redis事务1.2.1 数据库事务1.

Golang使用minio替代文件系统的实战教程

《Golang使用minio替代文件系统的实战教程》本文讨论项目开发中直接文件系统的限制或不足,接着介绍Minio对象存储的优势,同时给出Golang的实际示例代码,包括初始化客户端、读取minio对... 目录文件系统 vs Minio文件系统不足:对象存储:miniogolang连接Minio配置Min

Oracle Expdp按条件导出指定表数据的方法实例

《OracleExpdp按条件导出指定表数据的方法实例》:本文主要介绍Oracle的expdp数据泵方式导出特定机构和时间范围的数据,并通过parfile文件进行条件限制和配置,文中通过代码介绍... 目录1.场景描述 2.方案分析3.实验验证 3.1 parfile文件3.2 expdp命令导出4.总结

Node.js 中 http 模块的深度剖析与实战应用小结

《Node.js中http模块的深度剖析与实战应用小结》本文详细介绍了Node.js中的http模块,从创建HTTP服务器、处理请求与响应,到获取请求参数,每个环节都通过代码示例进行解析,旨在帮... 目录Node.js 中 http 模块的深度剖析与实战应用一、引言二、创建 HTTP 服务器:基石搭建(一

更改docker默认数据目录的方法步骤

《更改docker默认数据目录的方法步骤》本文主要介绍了更改docker默认数据目录的方法步骤,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一... 目录1.查看docker是否存在并停止该服务2.挂载镜像并安装rsync便于备份3.取消挂载备份和迁

不删数据还能合并磁盘? 让电脑C盘D盘合并并保留数据的技巧

《不删数据还能合并磁盘?让电脑C盘D盘合并并保留数据的技巧》在Windows操作系统中,合并C盘和D盘是一个相对复杂的任务,尤其是当你不希望删除其中的数据时,幸运的是,有几种方法可以实现这一目标且在... 在电脑生产时,制造商常为C盘分配较小的磁盘空间,以确保软件在运行过程中不会出现磁盘空间不足的问题。但在