《R语言与农业数据统计分析及建模》学习——聚类分析

2024-04-27 06:44

本文主要是介绍《R语言与农业数据统计分析及建模》学习——聚类分析,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

        聚类分析时一种分类技术。与回归分析、判别分析被一起成为多元分析的三大方法。根据分类的方法可将聚类分析分为:层次聚类、快速聚类等。

1、层次聚类

        (1)定义每个观测值(行或单元)为一类

        (2)计算每类和其他各类的距离

        (3)把距离最短的两类合并成一类,这样类的个数就减少一个

        (4)重复步骤(2)(3),知道包含所有观测值的类型合并成单个类为止。

2、快速聚类

        (1)选择K个中心点(随机选择K行)

        (2)把每个数据点分配到离它最近的中性点

        (3)重新计算每类中的点到该类中心点距离的平均值

        (4)分配每个数据到它最近的中心点

        (5)重复步骤(3)(4)直到所有观测值不再被分配或达到最大迭代次数(R默认10次)

3、R语言实现

        以flexclust包中的nutrient数据集为例,进行聚类分析。Nutrient数据集内容是27个不同种类的肉的5个成分含量。

(1)载入数据集

# 安装flexclust包
install.packages("flexclust")
# 载入flexclust包
library(flexclust)
# 载入nutrient数据集
data(nutrient)

(2)数据预处理 

        数据标准化:最常用的方法是将每个变量标准化为均值为0、标准差为1的变量,使用scale()函数。

# 展示行名称
row.names(nutrient)
# 将行名改为小写字母,保证命名的一致性
row.names(nutrient)<-tolower(row.names(nutrient))
# 查看数据
head(nutrient)
# 由于不同变量的变化范围不同,量纲不同,标准化数据有利于均衡各变量的影响
nutrient_scaled<-scale(nutrient)
head(nutrient_scaled)

(3)层次聚类

        dist()函数能够用来计算数据框所有行之间的距离

        层次聚类方法可以用hclust()函数来实现:hclust(d,method=),d为dist()函数产生的距离。

# 计算矩阵或数据框中所有行之间的距离,默认欧几里得距离
d<-dist(nutrient_scaled)
# 层次聚类
fit_average<-hclust(d,method="average")
# 可视化
plot(fit_average,hang=-1,main="Average Linkage Clustering")

(4)快速聚类

        快速聚类法,又称为K均值(K-means)法。

        使用kmeans()函数来实现快速聚类:kmeans(d,centers),d为dist()产生的距离矩阵,centers是要提取的聚类数据。

library(factoextra)
# 计算举证距离
d<-dist(nutrient_scaled)
# 以分类为3进行聚类
k_means<-kmeans(d,3)
# 可视化
fviz_cluster(k_means,nutrient_scaled)

这篇关于《R语言与农业数据统计分析及建模》学习——聚类分析的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/939775

相关文章

深入理解Go语言中二维切片的使用

《深入理解Go语言中二维切片的使用》本文深入讲解了Go语言中二维切片的概念与应用,用于表示矩阵、表格等二维数据结构,文中通过示例代码介绍的非常详细,需要的朋友们下面随着小编来一起学习学习吧... 目录引言二维切片的基本概念定义创建二维切片二维切片的操作访问元素修改元素遍历二维切片二维切片的动态调整追加行动态

SQL中如何添加数据(常见方法及示例)

《SQL中如何添加数据(常见方法及示例)》SQL全称为StructuredQueryLanguage,是一种用于管理关系数据库的标准编程语言,下面给大家介绍SQL中如何添加数据,感兴趣的朋友一起看看吧... 目录在mysql中,有多种方法可以添加数据。以下是一些常见的方法及其示例。1. 使用INSERT I

Python使用vllm处理多模态数据的预处理技巧

《Python使用vllm处理多模态数据的预处理技巧》本文深入探讨了在Python环境下使用vLLM处理多模态数据的预处理技巧,我们将从基础概念出发,详细讲解文本、图像、音频等多模态数据的预处理方法,... 目录1. 背景介绍1.1 目的和范围1.2 预期读者1.3 文档结构概述1.4 术语表1.4.1 核

Go语言中make和new的区别及说明

《Go语言中make和new的区别及说明》:本文主要介绍Go语言中make和new的区别及说明,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录1 概述2 new 函数2.1 功能2.2 语法2.3 初始化案例3 make 函数3.1 功能3.2 语法3.3 初始化

MySQL 删除数据详解(最新整理)

《MySQL删除数据详解(最新整理)》:本文主要介绍MySQL删除数据的相关知识,本文通过实例代码给大家介绍的非常详细,对大家的学习或工作具有一定的参考借鉴价值,需要的朋友参考下吧... 目录一、前言二、mysql 中的三种删除方式1.DELETE语句✅ 基本语法: 示例:2.TRUNCATE语句✅ 基本语

Go语言中nil判断的注意事项(最新推荐)

《Go语言中nil判断的注意事项(最新推荐)》本文给大家介绍Go语言中nil判断的注意事项,本文给大家介绍的非常详细,对大家的学习或工作具有一定的参考借鉴价值,需要的朋友参考下吧... 目录1.接口变量的特殊行为2.nil的合法类型3.nil值的实用行为4.自定义类型与nil5.反射判断nil6.函数返回的

Go语言数据库编程GORM 的基本使用详解

《Go语言数据库编程GORM的基本使用详解》GORM是Go语言流行的ORM框架,封装database/sql,支持自动迁移、关联、事务等,提供CRUD、条件查询、钩子函数、日志等功能,简化数据库操作... 目录一、安装与初始化1. 安装 GORM 及数据库驱动2. 建立数据库连接二、定义模型结构体三、自动迁

MyBatisPlus如何优化千万级数据的CRUD

《MyBatisPlus如何优化千万级数据的CRUD》最近负责的一个项目,数据库表量级破千万,每次执行CRUD都像走钢丝,稍有不慎就引起数据库报警,本文就结合这个项目的实战经验,聊聊MyBatisPl... 目录背景一、MyBATis Plus 简介二、千万级数据的挑战三、优化 CRUD 的关键策略1. 查

python实现对数据公钥加密与私钥解密

《python实现对数据公钥加密与私钥解密》这篇文章主要为大家详细介绍了如何使用python实现对数据公钥加密与私钥解密,文中的示例代码讲解详细,感兴趣的小伙伴可以跟随小编一起学习一下... 目录公钥私钥的生成使用公钥加密使用私钥解密公钥私钥的生成这一部分,使用python生成公钥与私钥,然后保存在两个文

mysql中的数据目录用法及说明

《mysql中的数据目录用法及说明》:本文主要介绍mysql中的数据目录用法及说明,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录1、背景2、版本3、数据目录4、总结1、背景安装mysql之后,在安装目录下会有一个data目录,我们创建的数据库、创建的表、插入的