R数据分析:如何用层次聚类分析做“症状群”,实例操练

2023-10-13 08:20

本文主要是介绍R数据分析:如何用层次聚类分析做“症状群”,实例操练,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

好多同学硕士论文开题咨询我想做症状群,有用因子分析的,也有用潜类别分析的,这些方法之前都给大家写过,今天再给大家写一个用无监督的机器学习方法-------层次聚类做症状群的方法。同学们如果对这个方法有兴趣的话,开题什么的都可以往这方面考虑,希望看了本文之后能够对层次聚类有一定了解,能思考下自己能不能往这个方向上展开。

做出来的结果呈现就是下图:这个是一篇已经发表的文章中截图出来的,作者是将一个疾病的症状聚类了3类,探讨了每一类的特征,并提出了治疗照护的建议。

文章感兴趣的同学自己去瞅瞅哈:Sethares, Kristen & Chin, Elizabeth. (2021). Age and gender differences in physical heart failure symptom clusters. Heart & Lung. 50. 832-837.
10.1016/j.hrtlng.2021.07.001.

今天就带大家看看像这种层次聚类的症状群如何做。

层次聚类的原理

Hierarchical clustering,层次聚类出来的结果就像一个树一样,一层一层地生长,这个树也是完全的数据驱动的,对于陌生领域的探索性研究,像症状群之类的就特别合适。

对于这个一个树,英文叫dendrogram,它怎么形成的呢,很自然地,我们可以让其通过从顶部往下散开这样的方式形成(方式1,英文叫Divisive),也可以让其从根部往上聚合这样的方式形成(方式2,英文叫Agglomerative)。

Divisive : A divisive method begins with all patterns in a single cluster and performs splitting until a stopping criterion is met.

Agglomerative : An agglomerative approach begins with each observation in a distinct (singleton) cluster, and successively merges clusters together until a stopping criterion is satisfied.

这儿我只给大家写方式2,因为这个比较常用,上面截图的文章也是用的方式2的聚类方法实现的。

方式2的基本思路就是:

  1. 先计算每一个类之间的距离
  2. 将最近距离的类合并
  3. 重复1,2直到所有类合并为1个类

上面的步骤走完,一个树就长出来了,直观的图示就是如下:

上图就是假设我们只有两个变量,9个个案(类),从左上角到右下角走完流程9个个案就成了一个类了。

步骤中有提到距离,这里面就涉及到一个距离的计算问题,计算的方法有很多种,本文也不展开,感兴趣的同学可以单独咨询我,常见的距离算法如下:

    • Centroid linkage
  •  Single linkage
  •  Complete linkage
  •  Average linkage
  •  Ward’s method

像截图的文章使用的方法就是Ward’s method。

层次聚类的做法

做从下到上层次聚类用到的函数是hclust(),hclust需要接受的参数是一个距离矩阵,大家直接在R中输入如下代码就可以体验出图的快乐了:

hc = hclust(dist(mtcars))
plot(hc)

在上面的代码中dist函数就是用来计算个案距离的函数的,在这一步的时候一定要将所有数值型变量标准化,不然聚类肯定是不对的,具体地大家可以在dist函数的参数中设定距离的计算方法,比如截图论文中就使用的Ward’s method,我们就可以设定为"ward.D"或者"ward.D2"。

但是我们发现此时聚类的对象依然是个案,其实我们想聚类是症状,也就是我们数据库中的变量,还是用实际例子给大家说明吧。

比如我手上现在有如下形式的数据库,也就是大家会收集到的每个症状:

我想看看病人中这些个症状有哪些”症状群“,首先我们需要将数据框转置,然后再进行聚类,我就可以写出代码如下:

data2 <- t(data2)
mycluster = hclust(dist(data2))
plot(mycluster )

运行代码后就可以出图啦:

其实到这儿大家就可以直观地看出来,应该是有2个症状群的,症状群1包括症状3和4,症状群2包括其余所有的症状,我们依然是将我们的图像论文中那样标注出来:

就是说症状3和4为一个群,而其余的症状为一个群。

你还可以通过给不同症状群打上不同颜色的方式,进一步突出不同症状群,代码如下:

hc_dend_obj <- as.dendrogram(mycluster) 
hc_col_dend <- color_branches(hc_dend_obj, h = 6)
plot(hc_col_dend,hang=-1)

还有一个很重要的问题,就是生成个案的症状群标签,只有有了症状群标签,我们才能像论文中那样去比较不同症状群个案的一般人口学特征,症状群标签可以通过如下代码得到:

hc = hclust(dist(scale(data2)))
cut_avg <- cutree(hc, k = 2)
data_cl <- mutate(data1, cluster = cut_avg)

运行上面的代码后我们再查看原来是数据库,就可以看到新生成的最后一列就是每一个个案是症状群类别。然后我们就可以比较不同症状群的个案在各种变量上的差异了,像这样一篇论文也就完成了。

最后要提醒大家的是,论文作者是用SPSS软件做的,大家也可以用SPSS尝试下哦,就在哪个分析-分类-系统聚类选项里面,我试了试也是完全可以做出来的。

小结

今天给大家写了如何用层次聚类进行症状群的探讨,感谢大家耐心看完,自己的文章都写的很细,代码都在原文中,希望大家都可以自己做一做,请转发本文到朋友圈后私信回复“数据链接”获取所有数据和本人收集的学习资料。如果对您有用请先收藏,再点赞分享。

也欢迎大家的意见和建议,大家想了解什么统计方法都可以在文章下留言,说不定我看见了就会给你写教程哦,另欢迎私信。

这篇关于R数据分析:如何用层次聚类分析做“症状群”,实例操练的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/201928

相关文章

swiper实例

大家好,我是燐子,今天给大家带来swiper实例   微信小程序中的 swiper 组件是一种用于创建滑动视图的容器组件,常用于实现图片轮播、广告展示等效果。它通过一系列的子组件 swiper-item 来定义滑动视图的每一个页面。 基本用法   以下是一个简单的 swiper 示例代码:   WXML(页面结构) <swiper autoplay="true" interval="3

Java面试题:通过实例说明内连接、左外连接和右外连接的区别

在 SQL 中,连接(JOIN)用于在多个表之间组合行。最常用的连接类型是内连接(INNER JOIN)、左外连接(LEFT OUTER JOIN)和右外连接(RIGHT OUTER JOIN)。它们的主要区别在于它们如何处理表之间的匹配和不匹配行。下面是每种连接的详细说明和示例。 表示例 假设有两个表:Customers 和 Orders。 Customers CustomerIDCus

如何实现一台机器上运行多个MySQL实例?

在一台机器上一个MySQL服务器运行多个MySQL实例有什么好处?这里我先入为主给大家介绍这样做至少存在两个好处(看完这篇文章后理解会更透彻): (1)减轻服务器链接负担 (2)为不同的用户提供不同的mysqld服务器的访问权限以方便这些用户进行自我管理。   下面我介绍具体的实现过程: 一、准备工作     台式机一台、Windows系统、MySQL服务器(我安装的版本是MySQL

糖尿病早中期症状常常被人们忽视,从而错过最佳的干预时机。

我们都知道糖尿病有“三多一少”(多饮、多尿、多食、体重减少)的典型症状。然而,现实中糖尿病的表现并非总是如此清晰。更麻烦的是,糖尿病具有很强的隐匿性,若不做血糖检查,多数人难以察觉自己已患病。 今天,给大家说明下糖尿病的早中期症状,期望能有所帮助。如果您出现以下 10 种症状中的 5 种 及以上,强烈建议尽快做血糖检测来确认 早日做到早预防早控制! “手部或脚部有刺痛、麻木的感觉”

数据挖掘和数据分析

数据挖掘(Data Mining)和数据分析(Data Analysis)是现代计算机科学中两个重要的领域。它们虽然紧密相关,但在概念和应用上有一定的区别。下面将从定义、主要技术、应用领域和挑战四个方面详细阐述这两个领域。 一、定义 **数据挖掘**: 数据挖掘是指从大量数据中提取潜在的、有价值的信息和知识的过程。它综合了统计学、机器学习、数据库技术等多种学科的技术和方法。 **数据分析**

Docker Compose--安装Nginx--方法/实例

原文网址:Docker Compose--安装Nginx--方法/实例_IT利刃出鞘的博客-CSDN博客 简介 说明 本文介绍Docker Compose如何安装Nginx。 目录结构 ├── config│   ├── cert│   │   ├── xxx_bundle.pem│   │   └── xxx.key│   ├── conf.d│   └── nginx.co

【python】python葡萄酒国家分布情况数据分析pyecharts可视化(源码+数据集+论文)【独一无二】

👉博__主👈:米码收割机 👉技__能👈:C++/Python语言 👉公众号👈:测试开发自动化【获取源码+商业合作】 👉荣__誉👈:阿里云博客专家博主、51CTO技术博主 👉专__注👈:专注主流机器人、人工智能等相关领域的开发、测试技术。 python葡萄酒国家分布情况数据分析pyecharts可视化(源码+数据集+论文)【独一无二】 目录 python葡

数据分析:置换检验Permutation Test

欢迎大家关注全网生信学习者系列: WX公zhong号:生信学习者Xiao hong书:生信学习者知hu:生信学习者CDSN:生信学习者2 介绍 置换检验是一种非参数统计方法,它不依赖于数据的分布形态,因此特别适用于小样本数据集,尤其是当样本总体分布未知或不符合传统参数检验的假设条件时。置换检验的基本思想是通过随机置换样本来评估观察到的统计量是否显著不同于随机情况下的预期值。最初真正认识置换检

数据分析BI仪表盘搭建

BI仪表盘搭建六个原则: 1.仪表盘搭建符合业务的阅读,思考和操作逻辑。 2.明确仪表盘主题,你的用户对什么感兴趣。 普通业务人员:销售:注册,激活,成交投放:消耗,转化率运维:搬车数,换电数 中层管理者:整体的总结报告:业务整体的绝对值,达成率,同比环比;有哪些数据异常和优秀表现。各维度的数据:各个业务动作的绝对值、达成率、同比环比;数据异常的具体原因。 高层管理者:整体的总结报告

蔚蓝资源包和数据分析

代码如下 /* ==================================* COMPUTER GENERATED -- DO NOT EDIT* ==================================*/#include <windows.h>static FARPROC __Init_Fun_2__;int __RestartAppIfNecessary__Fun(