R语言利用基线协变量提高随机对照试验的效率

2023-11-02 08:59

本文主要是介绍R语言利用基线协变量提高随机对照试验的效率,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

原文链接:http://tecdat.cn/?p=6391

在这篇文章中,我将介绍基于半参数理论的最近开发的改进边际治疗效果估计的方法之一。

边际处理与条件处理效应

未经调整和调整后的治疗效果不同的一个重要例子是使用逻辑回归来模拟二元结果。也就是说,治疗效果的边际或未调整比值比不同于以一个或多个基线协变量为条件的治疗效果。这意味着如果调整基线测量,真实治疗效果估计实际上与边际未调整治疗效果不同。事实证明,治疗的条件(调整后)比值比绝对值大于边际(未调整)效应。

以提高的精度估计边际处理效果

基本思想是我们可以通过添加增强函数来修改由边际(未调整)处理效果估计器求解的估计方程,该函数利用基线协变量。

这是一个二进制变量,指示受试者被随机分配到哪个治疗组。我们将表示基线协变量的向量。

由于我们假设这里是二元,我们将使用这两个模型的逻辑回归模型。

R中的实现


我们将使用单个基线协变量模拟一些简单试验的数据:

set.seed(65456461)
n < -  1000
z < -  1 *(runif(n)<0.5)
x < -  rnorm(n)
xb < -  -2 + x + z
prob < -  exp(xb)/(1 + exp(xb))
y < -  1 *(runif(n)<prob)

首先,让我们拟合简单的未调整模型来估计边际治疗效果,但不使用基线协变量:

Call:
glm(formula = y ~ z, family = binomial)Deviance Residuals:Min       1Q   Median       3Q      Max
-0.8753  -0.8753  -0.6324   1.5132   1.8482Coefficients:Estimate Std. Error z value Pr(>|z|)
(Intercept)  -1.5080     0.1199 -12.580  < 2e-16 ***
z             0.7462     0.1518   4.915 8.86e-07 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1(Dispersion parameter for binomial family taken to be 1)Null deviance: 1133.4  on 999  degrees of freedom
Residual deviance: 1108.3  on 998  degrees of freedom
AIC: 1112.3Number of Fisher Scoring iterations: 4

干预对照对照的估计对数比值比为0.746,标准误差为0.152,z统计值为4.915。现在让我们执行标准调整分析,包括逻辑回归的线性预测器:

> adjusted <- glm(y~z+x, data, family=binomial)
> summary(adjusted)Call:
glm(formula = y ~ z + x, family = binomial)Deviance Residuals:Min       1Q   Median       3Q      Max
-2.3303  -0.7392  -0.4792   0.6146   2.5612Coefficients:Estimate Std. Error z value Pr(>|z|)
(Intercept) -1.88117    0.14173 -13.273  < 2e-16 ***
z            0.94074    0.16850   5.583 2.36e-08 ***
x            1.07543    0.09532  11.282  < 2e-16 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1(Dispersion parameter for binomial family taken to be 1)Null deviance: 1133.37  on 999  degrees of freedom
Residual deviance:  941.29  on 997  degrees of freedom
AIC: 947.29Number of Fisher Scoring iterations: 5

调整后的条件处理效果估计值为0.941,标准误差为0.169,z统计量为5.583。正如我们预期的那样(平均而言),条件处理效应的幅度大于边际效应。 

现在我们将估计边际治疗效果,但利用基线协变量来获得更精确的估计。 

接下来,我们必须适应两个工作模型和。为此,我们在两个治疗组中拟合了单独的逻辑回归模型:
q0mod < -  glm(y [z == 0] ~x [z == 0],data,family = binomial)
q1mod < -  glm(y [z == 1] ~x [z == 1],data,family = binomial)现在我们需要计算并针对每个受试者 。为此,我们可以使用以下代码:expit < -  function(linpred){EXP(linpred)/(1 + EXP(linpred))
}
q0hat < -  expit(cbind(rep(1,n),x)%*%q0mod $ coef)
q1hat < -  expit(cbind(rep(1,n),x)%*%q1mod $ coef)

 最后,我们称之为speff函数:

semiPara < -   (y~1,endpoint =“dichotomous”,data,trt.id =“z”,endCtrlPre = q0hat,endTreatPre = q1hat)

我们首先指定结果变量y,并且不要在等式的右边放置任何变量(尽管稍后会看到变量选择)。为了获得治疗效果估计,我们只是总结拟合对象:

Treatment effectLog OR       SE       LB      UB           p
Naive  0.74625  0.15182  0.44869  1.0438  8.8591e-07
Speff  0.78412  0.13967  0.51036  1.0579  1.9771e-08

接下来,我们得到了利用基线协变量的估计边际对数比值比。正如我们希望从理论上看,标准误差更小,p值更显着,置信区间更窄 - 我们通过使用基线协变量获得了精确度/统计效率。

模型选择
 

最后一点。这种方法依赖于渐近无偏性的渐近参数,也依赖于使用夹心方法的标准误差估计。因此,我会谨慎地在“小型”研究中使用它。小有多小?在张等人的论文中,使用n = 600进行了模拟,估计是无偏的,置信区间的标称覆盖率为95%。

非常感谢您阅读本文,有任何问题请在下方留言!

点击标题查阅往期内容

R语言用Rcpp加速Metropolis-Hastings抽样估计贝叶斯逻辑回归模型的参数

R语言Copula的贝叶斯非参数MCMC估计

R语言用Rcpp加速Metropolis-Hastings抽样估计贝叶斯逻辑回归模型的参数

在R语言和Stan中估计截断泊松分布

R语言估计时变VAR模型时间序列的实证研究分析案例

R语言GARCH-DCC模型和DCC(MVT)建模估计

随机搜索变量选择SSVS估计贝叶斯向量自回归(BVAR)模型

R语言混合正态分布EM最大期望估计

matlab估计armagarch条件均值和方差模型

WinBUGS对多元随机波动率模型:贝叶斯估计与模型比较

更多内容,请点击左下角“阅读原文”查看

ddd59fda8aea337e42e6e0465594e453.gif

45e2275acd443e14087e0db35c2b6ac5.png

831d28346140e66bef121e2d950d6020.jpeg

关注我们

案例精选、技术干货 第一时间与您分享

3877a35f82a7ecff05785c34700270df.jpeg

长按二维码加关注

更多内容,请点击左下角“阅读原文”查看

64d0698a5532f52783279032fe0be531.gif

这篇关于R语言利用基线协变量提高随机对照试验的效率的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/329545

相关文章

变量与命名

引言         在前两个课时中,我们已经了解了 Python 程序的基本结构,学习了如何正确地使用缩进来组织代码,并且知道了注释的重要性。现在我们将进一步深入到 Python 编程的核心——变量与命名。变量是我们存储数据的主要方式,而合理的命名则有助于提高代码的可读性和可维护性。 变量的概念与使用         在 Python 中,变量是一种用来存储数据值的标识符。创建变量很简单,

科研绘图系列:R语言扩展物种堆积图(Extended Stacked Barplot)

介绍 R语言的扩展物种堆积图是一种数据可视化工具,它不仅展示了物种的堆积结果,还整合了不同样本分组之间的差异性分析结果。这种图形表示方法能够直观地比较不同物种在各个分组中的显著性差异,为研究者提供了一种有效的数据解读方式。 加载R包 knitr::opts_chunk$set(warning = F, message = F)library(tidyverse)library(phyl

透彻!驯服大型语言模型(LLMs)的五种方法,及具体方法选择思路

引言 随着时间的发展,大型语言模型不再停留在演示阶段而是逐步面向生产系统的应用,随着人们期望的不断增加,目标也发生了巨大的变化。在短短的几个月的时间里,人们对大模型的认识已经从对其zero-shot能力感到惊讶,转变为考虑改进模型质量、提高模型可用性。 「大语言模型(LLMs)其实就是利用高容量的模型架构(例如Transformer)对海量的、多种多样的数据分布进行建模得到,它包含了大量的先验

键盘快捷键:提高工作效率与电脑操作的利器

键盘快捷键:提高工作效率与电脑操作的利器 在数字化时代,键盘快捷键成为了提高工作效率和优化电脑操作的重要工具。无论是日常办公、图像编辑、编程开发,还是游戏娱乐,掌握键盘快捷键都能带来极大的便利。本文将详细介绍键盘快捷键的概念、重要性、以及在不同应用场景中的具体应用。 什么是键盘快捷键? 键盘快捷键,也称为热键或快捷键,是指通过按下键盘上的一组键来完成特定命令或操作的方式。这些快捷键通常涉及同

CSP 2023 提高级第一轮 CSP-S 2023初试题 完善程序第二题解析 未完

一、题目阅读 (最大值之和)给定整数序列 a0,⋯,an−1,求该序列所有非空连续子序列的最大值之和。上述参数满足 1≤n≤105 和 1≤ai≤108。 一个序列的非空连续子序列可以用两个下标 ll 和 rr(其中0≤l≤r<n0≤l≤r<n)表示,对应的序列为 al,al+1,⋯,ar​。两个非空连续子序列不同,当且仅当下标不同。 例如,当原序列为 [1,2,1,2] 时,要计算子序列 [

C语言 | Leetcode C语言题解之第393题UTF-8编码验证

题目: 题解: static const int MASK1 = 1 << 7;static const int MASK2 = (1 << 7) + (1 << 6);bool isValid(int num) {return (num & MASK2) == MASK1;}int getBytes(int num) {if ((num & MASK1) == 0) {return

MiniGPT-3D, 首个高效的3D点云大语言模型,仅需一张RTX3090显卡,训练一天时间,已开源

项目主页:https://tangyuan96.github.io/minigpt_3d_project_page/ 代码:https://github.com/TangYuan96/MiniGPT-3D 论文:https://arxiv.org/pdf/2405.01413 MiniGPT-3D在多个任务上取得了SoTA,被ACM MM2024接收,只拥有47.8M的可训练参数,在一张RTX

如何确定 Go 语言中 HTTP 连接池的最佳参数?

确定 Go 语言中 HTTP 连接池的最佳参数可以通过以下几种方式: 一、分析应用场景和需求 并发请求量: 确定应用程序在特定时间段内可能同时发起的 HTTP 请求数量。如果并发请求量很高,需要设置较大的连接池参数以满足需求。例如,对于一个高并发的 Web 服务,可能同时有数百个请求在处理,此时需要较大的连接池大小。可以通过压力测试工具模拟高并发场景,观察系统在不同并发请求下的性能表现,从而

C语言:柔性数组

数组定义 柔性数组 err int arr[0] = {0}; // ERROR 柔性数组 // 常见struct Test{int len;char arr[1024];} // 柔性数组struct Test{int len;char arr[0];}struct Test *t;t = malloc(sizeof(Test) + 11);strcpy(t->arr,

如何提高 GitHub 的下载速度

如何提高 GitHub 的下载速度 文章目录 如何提高 GitHub 的下载速度1. 注册账号2. 准备好链接3. 创建仓库4. 在码云上下载代码5. 仓库更新了怎么办 一般来说,国内的朋友从 GitHub 上面下载代码,速度最大是 20KB/s,这种龟速,谁能忍受呢? 本文介绍一种方法——利用“码云”,可以大大提高下载速度,亲测有效。 1. 注册账号 去“码云”注册一