R语言进行孟德尔随机化+meta分析(2)----基于R和stata

2023-09-29 14:11

本文主要是介绍R语言进行孟德尔随机化+meta分析(2)----基于R和stata,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

目前不少文章用到了孟德尔随机化+meta分析,在上一章咱们简单介绍了一下meta分析的基础知识。咱们今天来介绍一篇11分文章,由文章看看孟德尔随机化+meta分析如何进行,文章的题目是:Appraising the causal role of smoking in multiple diseases: A systematic review and meta-analysis of Mendelian randomization studies(评估吸烟在多种疾病中的因果作用:孟德尔随机研究的系统回顾和荟萃分析)
在这里插入图片描述
吸烟其实没什么创意,唯一的新意就是加入了孟德尔随机化和meta分析。我们可以看到文章的类型就是meta分析,说明孟德尔随机化+meta分析的本质就是个meta分析。作者先是介绍说吸烟与多种疾病之间的因果关系仍然不明确,目的是通过总结孟德尔随机化 (MR) 研究的证据来评估吸烟在多种疾病中的因果作用。
咱们看下它的方法学是怎么做的:
在这里插入图片描述

完全是meta分析的套路,分两步提取数据,
第一步:是搜索各大数据库“孟德尔随机化”与“吸烟”的相关文章,把文章中吸烟和疾病的关系的数据提取出来。纳入标准:原始全文文章,介绍了吸烟或终身吸烟的遗传易感性与一种或多种循环、消化、神经和肌肉骨骼系统疾病、内分泌、代谢和眼部疾病或肿瘤风险的关联结果。一共纳入了385篇文章。排除标准:基于相同或重叠研究样本的重复出版物,以及仅使用单一或少数(<10)尼古丁依赖或吸烟行为或数量的工具变量的研究。作者这里提取了年份,样本量,关系的比值比OR。经过排除后适合分析的有29篇。
第二步:有一部分数据就是芬兰基因研究(FinnGen)作者通过检索没有检索到资料,他就自己来做,他使用了 R6版本中的数据进行孟德尔随机化分析,其中包括 260 405 名芬兰人,但剔除了性别不明确、非芬兰血统、基因型缺失率超过 5%、或杂合度过高(±4 个标准差)的数据。此外,作者还利用 GWAS meta 分析中公开的汇总统计数据,对骨关节炎、痛风和原发性开角型青光眼进行了从头开始的 MR 分析。第二部分提取到的数据应该是27篇,因为最后供56篇文章。
下面是他的流程图:
流程图:
在这里插入图片描述
通过流程图咱们可以知道最后作者得到14篇循环疾病的文章,消化疾病8篇,神经系统疾病5篇,肌肉骨骼系统4篇,2篇内分泌,3篇眼科疾病,21篇关于肿瘤的文章。整个过程处理起来还是挺花时间的,毕竟要一篇篇的读,提取数据。
接下来咱们看看作者提供的数据,附表1是作者自己做的孟德尔随机化的结果,它的结果有两个,一个是刚开始吸烟,还有一个是终生吸烟。作者也是根据这两个结果进行meta分析的。
在这里插入图片描述

在这里插入图片描述
接下来就是作者的两个主表了,表2是开始吸烟的人的疾病分析,表3是终生吸烟的人的疾病分析,作者就是根据这两个表来做meta分析的,下面我把数据提取出来跑一下。
在这里插入图片描述
在这里插入图片描述
下面我把数据提取出来跑一下,数据量挺大的我就提取刚开始吸烟的患者循环疾病这部分举个例子,其他疾病的都是一样的。这里我们要注意一下,循环系统是有很多疾病的,就拿心房颤动这个疾病来说,作者的数据很多很大,他是把GWAS meta-analysis、FinnGen这2个数据库的结果进行相加,再来做meta分析,如果你的数据没有这么大,你把每个数据库先分别做,然后再汇总也是可以的。

bc<-read.csv("E:/r/test/smokemeta.csv",sep=',',header=TRUE)
names(bc)

数据提取出来后下图这个样子,这个数据可以按作者的方法进行提取,如果你想偷懒一点,使用我提取好的数据,公众号回复:代码,可以得到。
在这里插入图片描述
既往咱们已经介绍了《R语言forestploter包优雅的绘制孟德尔随机化研究森林图》,需要的可以自己看一下。今天咱们来介绍一下forestplot包绘制这个森林图,这个包相对简单一点,容易上手。

library(forestplot)

咱们先生成个可信区间

bc$`OR (95% CI)` <- sprintf("%.2f (%.2f to %.2f)", bc$OR, bc$LB, bc$UB)

在这里插入图片描述
生成可信区间后我们需要生成一个绘图区间,选择你需要的变量就可以了,我这里选1,2,6

dt1<-as.matrix(bc[,c(1,2,6)])

在这里插入图片描述
这里注意一下,dt这个数据是矩阵没有列名,我们还要生成一个列名

dt1 <- rbind(c("outcome","Cases","OR (95% CI)"),dt1)

在这里插入图片描述
这样的数据就可以绘图了

forestplot(labeltext=dt1,graph.pos="right", mean=c(NA,bc$OR),lower=c(NA,bc$LB),upper=c(NA,bc$UB),graphwidth = unit(60,"mm"),#设置图片位置和宽度boxsize =0.2,line.margin = unit(5,"mm"),#对散点和线条进行设置lineheight = unit(5,"mm"),#设置图形行距col=fpColors(box = "grey0",lines = "grey0",summary = "grey0"),colgap = unit(1,"mm"),#图形列间距zero = 1,#参照值xticks = c(0,1,2))#X轴的定义标签

在这里插入图片描述
咱们可以看到和作者做的几乎一模一样
在这里插入图片描述
为什么我说几乎一模一样,因为还是有点不一样的,作者没有11278肺栓塞这个数据,但是它的原数据是有的,估计绘图时忘记加进去了
在这里插入图片描述
绘图出来了,还有一个东西没有解决。有些论文是有报meta分析的I(异质性)和P值的,这个怎么求出来呢?
在这里插入图片描述
在这里插入图片描述
这个两个值作者文章推荐使用stata来计算,stata做meta分析简单了许多, 使用metan函数就行

metan or lb ub

在这里插入图片描述
在这里插入图片描述
图片还可以修改,我这里不弄了。最终算得I为80.6%,P为0.00,可能和作者有点不同,因为他少加了一个研究。最后作者还做了敏感性分析,是通过孟德尔随机化来做的,不是所有的文章都做,下面这篇文章就没做敏感性分析。
在这里插入图片描述
我这里就不弄了,有兴趣看我既往的文章。

这篇关于R语言进行孟德尔随机化+meta分析(2)----基于R和stata的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/22

相关文章

性能分析之MySQL索引实战案例

文章目录 一、前言二、准备三、MySQL索引优化四、MySQL 索引知识回顾五、总结 一、前言 在上一讲性能工具之 JProfiler 简单登录案例分析实战中已经发现SQL没有建立索引问题,本文将一起从代码层去分析为什么没有建立索引? 开源ERP项目地址:https://gitee.com/jishenghua/JSH_ERP 二、准备 打开IDEA找到登录请求资源路径位置

【Prometheus】PromQL向量匹配实现不同标签的向量数据进行运算

✨✨ 欢迎大家来到景天科技苑✨✨ 🎈🎈 养成好习惯,先赞后看哦~🎈🎈 🏆 作者简介:景天科技苑 🏆《头衔》:大厂架构师,华为云开发者社区专家博主,阿里云开发者社区专家博主,CSDN全栈领域优质创作者,掘金优秀博主,51CTO博客专家等。 🏆《博客》:Python全栈,前后端开发,小程序开发,人工智能,js逆向,App逆向,网络系统安全,数据分析,Django,fastapi

科研绘图系列:R语言扩展物种堆积图(Extended Stacked Barplot)

介绍 R语言的扩展物种堆积图是一种数据可视化工具,它不仅展示了物种的堆积结果,还整合了不同样本分组之间的差异性分析结果。这种图形表示方法能够直观地比较不同物种在各个分组中的显著性差异,为研究者提供了一种有效的数据解读方式。 加载R包 knitr::opts_chunk$set(warning = F, message = F)library(tidyverse)library(phyl

透彻!驯服大型语言模型(LLMs)的五种方法,及具体方法选择思路

引言 随着时间的发展,大型语言模型不再停留在演示阶段而是逐步面向生产系统的应用,随着人们期望的不断增加,目标也发生了巨大的变化。在短短的几个月的时间里,人们对大模型的认识已经从对其zero-shot能力感到惊讶,转变为考虑改进模型质量、提高模型可用性。 「大语言模型(LLMs)其实就是利用高容量的模型架构(例如Transformer)对海量的、多种多样的数据分布进行建模得到,它包含了大量的先验

业务中14个需要进行A/B测试的时刻[信息图]

在本指南中,我们将全面了解有关 A/B测试 的所有内容。 我们将介绍不同类型的A/B测试,如何有效地规划和启动测试,如何评估测试是否成功,您应该关注哪些指标,多年来我们发现的常见错误等等。 什么是A/B测试? A/B测试(有时称为“分割测试”)是一种实验类型,其中您创建两种或多种内容变体——如登录页面、电子邮件或广告——并将它们显示给不同的受众群体,以查看哪一种效果最好。 本质上,A/B测

SWAP作物生长模型安装教程、数据制备、敏感性分析、气候变化影响、R模型敏感性分析与贝叶斯优化、Fortran源代码分析、气候数据降尺度与变化影响分析

查看原文>>>全流程SWAP农业模型数据制备、敏感性分析及气候变化影响实践技术应用 SWAP模型是由荷兰瓦赫宁根大学开发的先进农作物模型,它综合考虑了土壤-水分-大气以及植被间的相互作用;是一种描述作物生长过程的一种机理性作物生长模型。它不但运用Richard方程,使其能够精确的模拟土壤中水分的运动,而且耦合了WOFOST作物模型使作物的生长描述更为科学。 本文让更多的科研人员和农业工作者

MOLE 2.5 分析分子通道和孔隙

软件介绍 生物大分子通道和孔隙在生物学中发挥着重要作用,例如在分子识别和酶底物特异性方面。 我们介绍了一种名为 MOLE 2.5 的高级软件工具,该工具旨在分析分子通道和孔隙。 与其他可用软件工具的基准测试表明,MOLE 2.5 相比更快、更强大、功能更丰富。作为一项新功能,MOLE 2.5 可以估算已识别通道的物理化学性质。 软件下载 https://pan.quark.cn/s/57

衡石分析平台使用手册-单机安装及启动

单机安装及启动​ 本文讲述如何在单机环境下进行 HENGSHI SENSE 安装的操作过程。 在安装前请确认网络环境,如果是隔离环境,无法连接互联网时,请先按照 离线环境安装依赖的指导进行依赖包的安装,然后按照本文的指导继续操作。如果网络环境可以连接互联网,请直接按照本文的指导进行安装。 准备工作​ 请参考安装环境文档准备安装环境。 配置用户与安装目录。 在操作前请检查您是否有 sud

线性因子模型 - 独立分量分析(ICA)篇

序言 线性因子模型是数据分析与机器学习中的一类重要模型,它们通过引入潜变量( latent variables \text{latent variables} latent variables)来更好地表征数据。其中,独立分量分析( ICA \text{ICA} ICA)作为线性因子模型的一种,以其独特的视角和广泛的应用领域而备受关注。 ICA \text{ICA} ICA旨在将观察到的复杂信号

C语言 | Leetcode C语言题解之第393题UTF-8编码验证

题目: 题解: static const int MASK1 = 1 << 7;static const int MASK2 = (1 << 7) + (1 << 6);bool isValid(int num) {return (num & MASK2) == MASK1;}int getBytes(int num) {if ((num & MASK1) == 0) {return