本文主要是介绍R语言利用基线协变量提高随机对照试验的效率,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!
原文链接:http://tecdat.cn/?p=6391
在这篇文章中,我将介绍基于半参数理论的最近开发的改进边际治疗效果估计的方法之一。
边际处理与条件处理效应
未经调整和调整后的治疗效果不同的一个重要例子是使用逻辑回归来模拟二元结果。也就是说,治疗效果的边际或未调整比值比不同于以一个或多个基线协变量为条件的治疗效果。这意味着如果调整基线测量,真实治疗效果估计实际上与边际未调整治疗效果不同。事实证明,治疗的条件(调整后)比值比绝对值大于边际(未调整)效应。
以提高的精度估计边际处理效果
基本思想是我们可以通过添加增强函数来修改由边际(未调整)处理效果估计器求解的估计方程,该函数利用基线协变量。
这是一个二进制变量,指示受试者被随机分配到哪个治疗组。我们将表示基线协变量的向量。
由于我们假设这里是二元,我们将使用这两个模型的逻辑回归模型。
R中的实现
我们将使用单个基线协变量模拟一些简单试验的数据:
set.seed(65456461)
n < - 1000
z < - 1 *(runif(n)<0.5)
x < - rnorm(n)
xb < - -2 + x + z
prob < - exp(xb)/(1 + exp(xb))
y < - 1 *(runif(n)<prob)
首先,让我们拟合简单的未调整模型来估计边际治疗效果,但不使用基线协变量:
Call:
glm(formula = y ~ z, family = binomial)Deviance Residuals:Min 1Q Median 3Q Max
-0.8753 -0.8753 -0.6324 1.5132 1.8482Coefficients:Estimate Std. Error z value Pr(>|z|)
(Intercept) -1.5080 0.1199 -12.580 < 2e-16 ***
z 0.7462 0.1518 4.915 8.86e-07 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1(Dispersion parameter for binomial family taken to be 1)Null deviance: 1133.4 on 999 degrees of freedom
Residual deviance: 1108.3 on 998 degrees of freedom
AIC: 1112.3Number of Fisher Scoring iterations: 4
干预对照对照的估计对数比值比为0.746,标准误差为0.152,z统计值为4.915。现在让我们执行标准调整分析,包括逻辑回归的线性预测器:
> adjusted <- glm(y~z+x, data, family=binomial)
> summary(adjusted)Call:
glm(formula = y ~ z + x, family = binomial)Deviance Residuals:Min 1Q Median 3Q Max
-2.3303 -0.7392 -0.4792 0.6146 2.5612Coefficients:Estimate Std. Error z value Pr(>|z|)
(Intercept) -1.88117 0.14173 -13.273 < 2e-16 ***
z 0.94074 0.16850 5.583 2.36e-08 ***
x 1.07543 0.09532 11.282 < 2e-16 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1(Dispersion parameter for binomial family taken to be 1)Null deviance: 1133.37 on 999 degrees of freedom
Residual deviance: 941.29 on 997 degrees of freedom
AIC: 947.29Number of Fisher Scoring iterations: 5
调整后的条件处理效果估计值为0.941,标准误差为0.169,z统计量为5.583。正如我们预期的那样(平均而言),条件处理效应的幅度大于边际效应。
现在我们将估计边际治疗效果,但利用基线协变量来获得更精确的估计。
接下来,我们必须适应两个工作模型和。为此,我们在两个治疗组中拟合了单独的逻辑回归模型:
q0mod < - glm(y [z == 0] ~x [z == 0],data,family = binomial)
q1mod < - glm(y [z == 1] ~x [z == 1],data,family = binomial)现在我们需要计算并针对每个受试者 。为此,我们可以使用以下代码:expit < - function(linpred){EXP(linpred)/(1 + EXP(linpred))
}
q0hat < - expit(cbind(rep(1,n),x)%*%q0mod $ coef)
q1hat < - expit(cbind(rep(1,n),x)%*%q1mod $ coef)
最后,我们称之为speff函数:
semiPara < - (y~1,endpoint =“dichotomous”,data,trt.id =“z”,endCtrlPre = q0hat,endTreatPre = q1hat)
我们首先指定结果变量y,并且不要在等式的右边放置任何变量(尽管稍后会看到变量选择)。为了获得治疗效果估计,我们只是总结拟合对象:
Treatment effectLog OR SE LB UB p
Naive 0.74625 0.15182 0.44869 1.0438 8.8591e-07
Speff 0.78412 0.13967 0.51036 1.0579 1.9771e-08
接下来,我们得到了利用基线协变量的估计边际对数比值比。正如我们希望从理论上看,标准误差更小,p值更显着,置信区间更窄 - 我们通过使用基线协变量获得了精确度/统计效率。
模型选择
最后一点。这种方法依赖于渐近无偏性的渐近参数,也依赖于使用夹心方法的标准误差估计。因此,我会谨慎地在“小型”研究中使用它。小有多小?在张等人的论文中,使用n = 600进行了模拟,估计是无偏的,置信区间的标称覆盖率为95%。
非常感谢您阅读本文,有任何问题请在下方留言!
点击标题查阅往期内容
R语言用Rcpp加速Metropolis-Hastings抽样估计贝叶斯逻辑回归模型的参数
R语言Copula的贝叶斯非参数MCMC估计
R语言用Rcpp加速Metropolis-Hastings抽样估计贝叶斯逻辑回归模型的参数
在R语言和Stan中估计截断泊松分布
R语言估计时变VAR模型时间序列的实证研究分析案例
R语言GARCH-DCC模型和DCC(MVT)建模估计
随机搜索变量选择SSVS估计贝叶斯向量自回归(BVAR)模型
R语言混合正态分布EM最大期望估计
matlab估计armagarch条件均值和方差模型
WinBUGS对多元随机波动率模型:贝叶斯估计与模型比较
更多内容,请点击左下角“阅读原文”查看
关注我们
案例精选、技术干货 第一时间与您分享
长按二维码加关注
更多内容,请点击左下角“阅读原文”查看
这篇关于R语言利用基线协变量提高随机对照试验的效率的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!