【斯坦福因果推断课程全集】1_随机对照试验1

2024-06-02 03:04

本文主要是介绍【斯坦福因果推断课程全集】1_随机对照试验1,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

目录

The average treatment effect

Difference-in-means estimation

IID Sampling and Population Asymptotics

Example: The linear model

Regression adjustments with a linear model


随机对照试验(RCT)是统计因果推论的基础。如果有的话,从随机对照试验中得出的证据通常被认为是金标准证据;即使由于伦理或实际原因无法进行随机对照试验,观察性研究的质量通常也是根据观察性研究与随机对照试验的近似程度来评估的。

今天的讲座将从潜在结果模型的角度来估算 RCT 的平均治疗效果,并讨论回归调整在因果效应估算中的作用。平均治疗效果完全通过随机化(或实验设计)确定。回归调整可用于减少方差,但回归模型在确定平均治疗效果方面不起任何作用。

The average treatment effect

我们通过潜在的结果来定义一种治疗的因果效应。对于w∈{0,1}的二元治疗,我们定义了潜在的结果Yi (1)和Yi (0)对应于第i个受试者的结果他们是否分别接受过治疗。治疗对第i个单位的因果效应是 \Delta_i=Y_i(1)-Y_i(0).

因果推论的根本问题在于,只能给给定个体分配一种干预,因此只能观察到 Yi(0) 和 Yi(1) 中的一种。因此,永远无法观测到 ∆i。

现在,尽管 ∆i 本身从根本上说是不可知的,但我们可以(也许是显著地)利用随机实验来了解 ∆i 的某些特性。特别是,大型随机实验可以让我们恢复平均干预效果(ATE)\tau=\mathbb{E}\left[Y_i(1)-Y_i(0)\right].

为此,假设我们观察到n个独立且同分布的样本(Yi,Wi)满足以下两个性质:\begin{aligned}Y_i&=Y_i(W_i)&\text{(SUTVA)}\\W_i&\perp\{Y_i(0), Y_i(1)\}&\text{(random treatment assignment)}\end{aligned}

那么,均值差估计器

\hat{\tau}_{DM}=\frac1{n_1}\sum_{W_i=1}Y_i-\frac1{n_0}\sum_{W_i=1}Y_i,\quad n_w=|\{i:W_i=w\}|对平均治疗效果是无偏不倚和一致的。

Difference-in-means estimation

τDM 的统计特性很容易建立。我们随机干预分配假设的一个关键结果是,在所有潜在结果 \{Y_i(0),|Y_i(1)\}_{i=1}^n 和 n1 的条件下,所有单位都以相同的概率接受干预:

\mathbb{P}\begin{bmatrix}W_i=1&\{Y_i(0), Y_i(1)\}_{i=1}^n, n_1\end{bmatrix}=\frac{n_1}n,\quad i=1, \ldots, n.

因此,对于治疗单位的平均结果,我们得到

\begin{aligned} &&&\begin{aligned}\mathbb{E}\left[\frac{1}{n_1}\sum_{W_i=1}Y_i \Big| \{Y_i(0), Y_i(1)\}_{i=1}^n , n_1\right]\end{aligned} \\ &&&=\mathbb{E}\left[\frac{1}{n_{1}}\sum_{i=1}^{n}W_{i}Y_{i} \Big| \{Y_{i}(0), Y_{i}(1)\}_{i=1}^{n} , n_{1}\right]& (\ldots) \\ &&&=\mathbb{E}\left[\frac{1}{n_1}\sum_{i=1}^nW_iY_i(1)\left| \{Y_i(0), Y_i(1)\}_{i=1}^n , n_1\right]\right. & \begin{aligned}(\mathrm{SUTVA})\end{aligned} \\ &&&=\frac{1}{n_1}\sum_{i=1}^nY_i(1)\mathbb{E}\left[W_i\left| \{Y_i(0), Y_i(1)\}_{i=1}^n , n_1\right]\right.& (\text{chain rule}) \\ &&&=\frac1n\sum_{i=1}^nY_i(1)& (\text{random assignment}), \end{aligned}而对照组的平均值也有类似的结果。因此,我们可以看到

\mathbb{E}\left[\hat{\tau}_{DM} \left| \{Y_i(0), Y_i(1)\}_{i=1}^n , n_1\right]=\tau_{SATE}:=\frac{1}{n}\sum_{i=1}^n\left(Y_i(1)-Y_i(0)\right).\quad(1.5)\right.

换句话说,仅仅由于随机化,均值差估计器对研究中 n 个单位潜在结果的平均差异是无偏的。这个量 \tau_{SATE} 通常称为样本平均干预效果。

IID Sampling and Population Asymptotics

无偏性结果(1.5)在潜在结果的任何实现条件下都成立,这意味着,在无条件的情况下、

\mathbb{E}\left[\hat{\tau}_{DM}\right]=\mathbb{E}\left[Y_i(1)\right]-\mathbb{E}\left[Y_i(0)\right]=\tau.

此外,考虑到 IID 采样,我们还可以将方差写成

\left.\text{Var}\left[\hat{\tau}_{DM}\left|\begin{array}{c|c}n_0, n_1\end{array}\right.\right.\right]=\frac{1}{n_0}\text{Var}\left[Y_i(0)\right]+\frac{1}{n_1}\text{Var}\left[Y_i(1)\right].

一个标准的中心极限定理可以用来验证这一点

\begin{aligned}\sqrt{n}\left(\hat{\tau}_{DM}-\tau\right)&\Rightarrow\mathcal{N}\left(0,V_{DM}\right), \\V_{DM}&=\text{Var}\left[Y_i(0)\right] \Big/ \mathbb{P}\left[W_i=0\right]+\text{Var}\left[Y_i(1)\right] \Big/ \mathbb{P}\left[W_i=1\right].\end{aligned}\quad(1.6)

最后,请注意,我们可以通过常规插件估计器来估计 VDM,为 τ 建立有效的高斯置信区间:

\lim_{n\to\infty}\mathbb{P}\left[\tau\in\left(\hat{\tau}_{DM}\pm\Phi^{-1}(1-\alpha/2)\sqrt{\widehat{V}_{DM}/n}\right)\right]=1-\alpha,\quad(1.7)

其中,Φ为标准高斯累积分布函数,

\widehat{V}_{DM}=\frac1{n_1-1}\sum_{W_i=1}\left(Y_i-\frac1{n_1}\sum_{W_i=1}Y_i\right)^2+\frac1{n_0-1}\sum_{W_i=0}\left(Y_i-\frac1{n_0}\sum_{W_i=0}Y_i\right)^2

从某种角度看,上述内容就是随机试验中估计平均干预效果所需要的全部内容。均值差估算器\hat{\tau}_{DM} 是一致的,可以进行有效的渐进推断;此外,该估算器的实现非常简单,很难 "作弊"(不择手段的分析师几乎不可能尝试不同的估算策略,并报告最接近他们想要的答案)。

另一方面,\hat{\tau}_{DM} 是否是使用数据的 "最优 "方法,即在给定样本量下提供最准确的 τ 值,这一点还很不明确。下面,我们将尝试看看是否/何时可以做得更好。

Example: The linear model

为了更好地理解 \hat{\tau}_{DM} 的行为,研究一下特殊情况是有帮助的。首先,我们考虑线性模型: 我们假设 (X_i,Y_i,W_i) 的生成方式为

Y_i(w)=c_{(w)}+X_i\beta_{(w)}+\varepsilon_i(w), \mathbb{E}\left[\varepsilon_i(w) \big| X_i\right]=0, \mathrm{Var}\left[\varepsilon_i(w) \big| X_i\right]=\sigma^2. (1.8)

在这里,\hat{\tau}_{DM} 并不使用 X_i;但是,我们可以根据 X_i 的分布来描述它的行为。在整个分析过程中,为简单起见,我们假设我们处于一个平衡的随机试验中,其中

\mathbb{P}\left[W_{i}=0\right]=\mathbb{P}\left[W_{i}=1\right]=\frac{1}{2}.

此外,我们假设(但不失一般性):

\mathbb{E}\left[X\right]=0,\quad\mathrm{and~define}\quad A=\mathrm{Var}\left[X\right].

假设 \mathbb{E}\left[X\right]=0 并不失一般性,因为我们今天要考虑的所有估计器都是平移不变的(当然,不能让分析师利用 \mathbb{E}\left[X\right]=0 的知识)。

在这种情况下,我们可以将 \hat{\tau}_{DM} 的渐近方差写成

\begin{aligned} V_{DM}& \begin{aligned}=\text{Var}\left[Y_i(0)\right] \Big/ \mathbb{P}\left[W_i=0\right]+\text{Var}\left[Y_i(1)\right] \Big/ \mathbb{P}\left[W_i=1\right]\end{aligned} \\ &=2\left(\mathrm{Var}\left[X_i\beta_{(0)}\right]+\sigma^2\right)+2\left(\mathrm{Var}\left[X_i\beta_{(1)}\right]+\sigma^2\right) \\ &&(1.9) \\ &=4\sigma^{2}+2\begin{Vmatrix}\beta_{(0)}\end{Vmatrix}_{A}^{2}+2\begin{Vmatrix}\beta_{(1)}\end{Vmatrix}_{A}^{2} \\ &=4\sigma^{2}+\begin{Vmatrix}\beta_{(0)}+\beta_{(1)}\end{Vmatrix}_{A}^{2}+\begin{Vmatrix}\beta_{(0)}-\beta_{(1)}\end{Vmatrix}_{A}^{2}, \end{aligned}

\left\|v\right\|_A^2=v^\prime Av.

这是τ的最佳估计器吗?

Regression adjustments with a linear model

如果我们假设是线性模型(1.8),那么我们很自然地想要使用它来进行更好的估计。请注意,给定这个模型,我们可以将该ATE写成

\tau=\mathbb{E}\left[Y(1)-Y(0)\right]=c_{(1)}-c_{(0)}+\mathbb{E}\left[X\right]\left(\beta_{(1)}-\beta_{(0)}\right).

这表明了一个普通的最小二乘估计量

\hat{\tau}_{OLS}=\hat{c}_{(1)}-\hat{c}_{(0)}+\overline{X}\left(\hat{\beta}_{(1)}-\hat{\beta}_{(0)}\right),\quad\overline{X}=\frac1n\sum_{i=1}^nX_i,

其中 (\hat{c}_{(w)}, \hat{\beta}_{(w)}) 是通过对W_{i}=w的观察结果运行OLS获得的(即,我们对处理单元和控制单元运行单独的回归)。关于OLS的标准结果表明(回想一下,wlog,我们使用 \mathbb{E}\left[X\right]=0 )

\sqrt{n_w}\left(\begin{pmatrix}\hat c_{(w)}\\\hat\beta_{(w)}\end{pmatrix}-\begin{pmatrix}c_{(w)}\\\beta_{(w)}\end{pmatrix}\right)\Rightarrow\mathcal N\left(0, \sigma^2\begin{pmatrix}1&0\\0&A^{-1}\end{pmatrix}\right).

特别地,我们发现\hat{c}_{(0)}, \hat{c}_{(1)}, \hat{\beta}_{(0)}, \hat{\beta}_{(1)}\overline{X}都是渐近独立的。然后,我们可以写

\begin{aligned}\hat{\tau}_{OLS}-\tau&=\underbrace{\hat{c}_{(1)}-c_{(1)}}_{\approx\mathcal{N}(0,\sigma^2/n_1)}-\underbrace{\hat{c}_{(0)}-c_{(0)}}_{\approx\mathcal{N}(0,\sigma^2/n_0)}+\underbrace{\overline{X}\left(\beta_{(1)}-\beta_{(0)}\right)}_{\approx\mathcal{N}\left(0,\left\|\beta_{(1)}-\beta_{(0)}\right\|_A^2/n\right)}\\&+\underbrace{\overline{X}\left(\hat{\beta}_{(1)}-\hat{\beta}_{(0)}-\beta_{(1)}+\hat{\beta}_{(0)}\right)}_{\mathcal{O}_P(1/n)},\end{aligned}

这就引出了中心极限定理

\begin{aligned}\sqrt{n}\left(\hat{\tau}_{OLS}-\tau\right)\Rightarrow\mathcal{N}\left(0,V_{OLS}\right),\quad V_{OLS}=4\sigma^2+\left\|\beta_{(0)}-\beta_{(1)}\right\|_A^2.\end{aligned}

特别要注意的是,V_{DM}=V_{OLS}+\left\|\beta_{(0)}+\beta_{(1)}\right\|_{A}^{2} ,因此OLS实际上有助于减少线性模型中的渐近误差。

这篇关于【斯坦福因果推断课程全集】1_随机对照试验1的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1022859

相关文章

《数字图像处理(面向新工科的电工电子信息基础课程系列教材)》P98

更改为 差分的数学表达式从泰勒级数展开式可得: 后悔没听廖老师的。 禹晶、肖创柏、廖庆敏《数字图像处理(面向新工科的电工电子信息基础课程系列教材)》 禹晶、肖创柏、廖庆敏《数字图像处理》资源二维码

【python因果推断库11】工具变量回归与使用 pymc 验证工具变量4

目录  Wald 估计与简单控制回归的比较 CausalPy 和 多变量模型 感兴趣的系数 复杂化工具变量公式  Wald 估计与简单控制回归的比较 但现在我们可以将这个估计与仅包含教育作为控制变量的简单回归进行比较。 naive_reg_model, idata_reg = make_reg_model(covariate_df.assign(education=df[

CNN-LSTM模型中应用贝叶斯推断进行时间序列预测

这篇论文的标题是《在混合CNN-LSTM模型中应用贝叶斯推断进行时间序列预测》,作者是Thi-Lich Nghiem, Viet-Duc Le, Thi-Lan Le, Pierre Maréchal, Daniel Delahaye, Andrija Vidosavljevic。论文发表在2022年10月于越南富国岛举行的国际多媒体分析与模式识别会议(MAPR)上。 摘要部分提到,卷积

C++ 模板进阶知识——类型推断

目录 C++ 模板进阶知识——类型推断1. 如何查看类型推断结果使用Boost库步骤注意 2. 理解函数模板类型推断2.1 指针或引用类型2.1.1 忽略引用2.1.2 保持const属性2.1.3 处理指针类型2.1.4 结果说明 2.2 万能引用类型2.3 传值方式2.3.1 函数模板和参数推导结论 2.3.2 指针的情况在`myfunc()`中测试指针行为 2.4 传值方式的引申—s

【python因果推断库7】使用 pymc 模型的工具变量建模 (IV)2

目录 与普通最小二乘法 (OLS) 的比较 应用理论:政治制度与GDP 拟合模型:贝叶斯方法  多变量结果和相关性度量 结论 与普通最小二乘法 (OLS) 的比较 simple_ols_reg = sk_lin_reg().fit(X.reshape(-1, 1), y)print("Intercept:", simple_ols_reg.intercept_, "Bet

《数字图像处理(面向新工科的电工电子信息基础课程系列教材)》出版1周年

去年为廖老师的甲子而出书,时光荏苒如白驹过隙,转眼出版一周年了。这本书能有这样的品质,与廖老师的指导密不可分,尤其是在他擅长的统计学领域。巩固了统计学基础,对我深入理解当前最热门的生成模型(如VAE、扩散模型)起到了至关重要的作用。 最让我感动的是,最初他给我指出问题,我不认为我有问题,我认为是他不懂,他坚持不懈地找我讨论。我作为老师我做不到,如果学生觉得自己什么都知道,我肯定就不理他了。感谢廖

斯坦福UE4 C++课学习补充25:寻路EQS

文章目录 一、创建EQS二、修改行为树三、查询上下文 一、创建EQS 场景查询系统EQS:可用于收集场景相关的数据。然后该系统可以使用生成器,通过各种用户定义的测试就这些数据提问,返回符合所提问题类型的最佳项目Item。 EQS的一些使用范例包括:找到最近的回复剂或弹药、判断出威胁最大的敌人,或者找到能看到玩家的视线 参考链接:https://dev.epicgames.c

软件测试中错误推断法(错误猜测法或错误推测法)

在软件测试中,错误推测法(又称为错误猜测法或错误推测法)是一种基于测试人员的经验、直觉和对软件错误原因的分析来预测并设计测试用例的方法。这种方法强调测试人员对软件需求和设计实现的深入理解,以及对以往项目中发现的缺陷、故障或失效数据的积累。以下是关于错误推测法的详细解析: 一、定义与基本思想 错误推测法是通过列举出程序中可能存在的错误和容易发生错误的特殊情况,并基于这些推测来设计测试用例的方法。

【python因果推断库6】使用 pymc 模型的工具变量建模 (IV)1

目录 使用 pymc 模型的工具变量建模 (IV) 使用 pymc 模型的工具变量建模 (IV) 这份笔记展示了一个使用工具变量模型(Instrumental Variable, IV)的例子。我们将会遵循 Acemoglu, Johnson 和 Robinson (2001) 的一个案例研究,该研究尝试解开强大的政治机构对于以国内生产总值(GDP)衡量的经济生产力的影响。本示例借鉴

王立铭脑科学50讲后续10,自己从课程中提起自己所需的知识,安放到自己的知识体系中。

王立铭脑科学50讲后续10,自己从课程中提起自己所需的知识,安放到自己的知识体系中。 1、大脑功能是由先天、后天两方便共同决定,先天有一堆带电量的开关,后天通过学习不断电量这些开关。 这部分知识放在整个体系中,在需求和动机之内,每个人还有自己不同程度的动机偏好,围绕着动机,产生的一些列奖惩机制、预设的情绪处理算法、语言能力、预测未来的能力等,每个人都有不同程度的差别,同时提醒自己,像价值观、人