看书标记【数据科学:R语言实战 6】

2024-03-28 23:04

本文主要是介绍看书标记【数据科学:R语言实战 6】,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

看书标记——R语言

  • Chapter 6 数据分析——聚类
      • 6.1 功能包
      • 6.2 K-means聚类
        • 6.2.1 示例
        • 6.2.2 Medoids集群
        • 6.2.3 cascadeKM函数
        • 6.2.4 基于贝叶斯定理
        • 6.2.5 仿射传播聚类
        • 6.2.6 用于估测集群数量的间隙统计量
        • 6.2.7 分级聚类

【数据科学:R语言实战】

Chapter 6 数据分析——聚类

6.1 功能包

  • NbClust:集群指数的数量
  • fpc:包含进行聚类的灵活程序
  • vegan:社区生态功能包
  • apcluster:用于仿射传播聚类操作
  • pvclust:用于分级聚类操作

6.2 K-means聚类

kmeans()

  • 参数
    x 数据集
    centers 包含了所要查找的中心/集群数量
    iter.max 存储了所允许迭代的最大量
    nstart 包含了所要查找的随机整群数
    algorithm 包含了用于确定集群的算法(“Hartigan-Wong\Lloyd”)
    trace 生成跟踪信息以确定中心
6.2.1 示例

数据源葡萄酒质量数据(这个数据从UCI机器学习数据库得到)

data <- read.csv("https://archive.ics.uci.edu/ml/machine-learningdatabases/wine-quality/winequality-white.csv", sep=";")##不是标准CSV文件,用的;分栏
# summary(data)
plot(data) ##关系密切
kmeans(data,5)
# kmeans(data,10)
# kmeans(data,15)
# kmeans(data,20)

最佳集群数量
NbClust()通过使用一些列度量中心和距离的指数对每个集群复查,并对每个集群所设定的优选数字频数进行计数。
data 数据集
diss 相异矩阵
distance 待用的距离度量
min.nc 最小集群数
max.nc 最大集群数
**method ** “ward/single/compete/average/mcquitty/median/centroid/kmeans”
index 待计算的指数
alphaBeale 包含了比尔指数的一个重要数值

install.packages("NbClust")
library(NbClust)
set.seed(2365)  ##保证过程可以复写
nc <- NbClust(data, min.nc=10, max.nc=15, method="kmeans") #propose提议,所以选择最佳聚类中心数11
6.2.2 Medoids集群

fpc中的pamk()将最小相异度作为行列式使用(对应kmeans中的距离)

  • 参数
    data 数据集
    krange 集群数量,默认2~10
    criterion “asw/multiasw/ch” average silhouette 方法
    usepam 逻辑标记,默认TRUE,也可以写为pam,对于大数据集用clara=TRUE
    scaling 逻辑标记,默认FALSE,均方根会对变量进行划分
    alpha dudahart方法的调谐常数,默认0.001
    diss 使用相异点矩阵的逻辑标记
    critout 默认为FALSE,集群印刷标准的逻辑标记
install.packages("fpc")
library(fpc)
best <- pamk(data);best
library(cluster)
plot(pam(data, best$nc))
6.2.3 cascadeKM函数

vegan包里的cascadeKM()是kmeans实施的包装器,用于确定最佳k值

install.packages("vegan")
library(vegan)
fit <- cascadeKM(scale(data, center=TRUE, scale=TRUE), 10, 15) ##inf.gr下限,sup.gr上限,iter迭代次数默认100,criterion ="calinski/ssi"选取集群标准
plot(fit, sortg=TRUE, grmts.plot=TRUE)  ##选聚类数对应数值最大的
6.2.4 基于贝叶斯定理

mclust包中的Mclust()是基于数据显示的贝叶斯定理信息 选取最佳集群大小
数据源葡萄酒质量数据(这个数据从UCI机器学习数据库得到)

library(mclust)
d <- Mclust(as.matrix(data), G=10:15)
plot(d)
##图一,不同方式对应的BIC信息与集群数量,选取BIC最小的项
##图二,相关性表
##图三,每个属性对比的对数密度等值线图
summary(d) #n观测数量和迭代次数,最佳集群数量为11,各个集群对应的数据点
6.2.5 仿射传播聚类

apcluster()实施仿射传播聚类,通过比较指定集群相关信息的不同数值实施仿射传播聚类。

install.packages("apcluster")
library(apcluster)
neg <- negDistMat(data, r=2)
ap <- apcluster(neg) ;#ap
summary(ap)
length(ap@clusters)  ##最佳集群数81,存在高仿射性
6.2.6 用于估测集群数量的间隙统计量

clusGap()为一系列集群值计算聚类度量适合度或间隙统计量

  • 参数
    x 数据集
    FUNcluster 聚类函数
    K.max 最大集群数
    B 所用Monte Carlo样品数
    verbose 用以辨别是否生成进度输出
data <- read.csv("https://archive.ics.uci.edu/ml/machine-learningdatabases/wine-quality/winequality-white.csv", sep=";")##不是标准CSV文件,用的;分栏
library(cluster)
clusGap(data, kmeans, 15, B=100, verbose=interactive()) ###选gap最大的集群数
6.2.7 分级聚类

pvclust包中的pvclust()实施分类聚类

  • 参数
    data 数据框矩阵
    method.hclust 凝聚算法"默认averge/ward/single/complete/mcquitty/median/centroid"
    method.dist 待用距离度量"默认correlation/uncentered/abscor"
    use.cor 待用的用以计算空缺值相关性的方法"all.obs/complete.obs/pairwise.complete.obs"
install.packages("pvclust")
library(pvclust)
data <- read.csv("https://archive.ics.uci.edu/ml/machine-learningdatabases/wine-quality/winequality-white.csv", sep=";")##不是标准CSV文件,用的;分栏
pv <- pvclust(data);pv
plot(pv)  ##聚类系统树图

转载 机器学习确定最佳聚类数目的10种方法

这篇关于看书标记【数据科学:R语言实战 6】的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/856936

相关文章

python使用fastapi实现多语言国际化的操作指南

《python使用fastapi实现多语言国际化的操作指南》本文介绍了使用Python和FastAPI实现多语言国际化的操作指南,包括多语言架构技术栈、翻译管理、前端本地化、语言切换机制以及常见陷阱和... 目录多语言国际化实现指南项目多语言架构技术栈目录结构翻译工作流1. 翻译数据存储2. 翻译生成脚本

使用 sql-research-assistant进行 SQL 数据库研究的实战指南(代码实现演示)

《使用sql-research-assistant进行SQL数据库研究的实战指南(代码实现演示)》本文介绍了sql-research-assistant工具,该工具基于LangChain框架,集... 目录技术背景介绍核心原理解析代码实现演示安装和配置项目集成LangSmith 配置(可选)启动服务应用场景

Go语言中三种容器类型的数据结构详解

《Go语言中三种容器类型的数据结构详解》在Go语言中,有三种主要的容器类型用于存储和操作集合数据:本文主要介绍三者的使用与区别,感兴趣的小伙伴可以跟随小编一起学习一下... 目录基本概念1. 数组(Array)2. 切片(Slice)3. 映射(Map)对比总结注意事项基本概念在 Go 语言中,有三种主要

Redis的数据过期策略和数据淘汰策略

《Redis的数据过期策略和数据淘汰策略》本文主要介绍了Redis的数据过期策略和数据淘汰策略,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一... 目录一、数据过期策略1、惰性删除2、定期删除二、数据淘汰策略1、数据淘汰策略概念2、8种数据淘汰策略

轻松上手MYSQL之JSON函数实现高效数据查询与操作

《轻松上手MYSQL之JSON函数实现高效数据查询与操作》:本文主要介绍轻松上手MYSQL之JSON函数实现高效数据查询与操作的相关资料,MySQL提供了多个JSON函数,用于处理和查询JSON数... 目录一、jsON_EXTRACT 提取指定数据二、JSON_UNQUOTE 取消双引号三、JSON_KE

在Java中使用ModelMapper简化Shapefile属性转JavaBean实战过程

《在Java中使用ModelMapper简化Shapefile属性转JavaBean实战过程》本文介绍了在Java中使用ModelMapper库简化Shapefile属性转JavaBean的过程,对比... 目录前言一、原始的处理办法1、使用Set方法来转换2、使用构造方法转换二、基于ModelMapper

C语言中自动与强制转换全解析

《C语言中自动与强制转换全解析》在编写C程序时,类型转换是确保数据正确性和一致性的关键环节,无论是隐式转换还是显式转换,都各有特点和应用场景,本文将详细探讨C语言中的类型转换机制,帮助您更好地理解并在... 目录类型转换的重要性自动类型转换(隐式转换)强制类型转换(显式转换)常见错误与注意事项总结与建议类型

Python给Excel写入数据的四种方法小结

《Python给Excel写入数据的四种方法小结》本文主要介绍了Python给Excel写入数据的四种方法小结,包含openpyxl库、xlsxwriter库、pandas库和win32com库,具有... 目录1. 使用 openpyxl 库2. 使用 xlsxwriter 库3. 使用 pandas 库

Java实战之自助进行多张图片合成拼接

《Java实战之自助进行多张图片合成拼接》在当今数字化时代,图像处理技术在各个领域都发挥着至关重要的作用,本文为大家详细介绍了如何使用Java实现多张图片合成拼接,需要的可以了解下... 目录前言一、图片合成需求描述二、图片合成设计与实现1、编程语言2、基础数据准备3、图片合成流程4、图片合成实现三、总结前

SpringBoot定制JSON响应数据的实现

《SpringBoot定制JSON响应数据的实现》本文主要介绍了SpringBoot定制JSON响应数据的实现,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们... 目录前言一、如何使用@jsonView这个注解?二、应用场景三、实战案例注解方式编程方式总结 前言