【因果推断python】36_断点回归2

2024-06-15 19:20

本文主要是介绍【因果推断python】36_断点回归2,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

目录

RDD 估计

内核加权


RDD 估计

RDD 依赖的关键假设是阈值处潜在结果的平滑性。用比较正式地表述来说,当运行变量从右侧和左侧接近阈值时,潜在结果的极限应该是相同的。

\lim_{r\to c^-}E[Y_{ti}|R_i=r]=\lim_{r\to c^+}E[Y_{ti}|R_i=r]

如果这是真的,我们可以在阈值处找到因果关系

\begin{aligned} \lim_{r\to c^+}E[Y_{ti}|R_i=r]-\lim_{r\to c^-}E[Y_{ti}|R_i=r]& =\lim_{r\to c^+}E[Y_{1i}|R_i=r]-\lim_{r\to c^-}E[Y_{0i}|R_i=r] \\ &=E[Y_{1i}|R_i=r]-E[Y_{0i}|R_i=r] \\ &=E[Y_{1i}-Y_{0i}|R_i=r] \end{aligned}

从其本身意义来说,这是一种局部平均干预效果(LATE),因为我们只能在阈值处知道它。在这种情况下,我们可以将 RDD 视为局部随机试验。对于那些处于阈值附近的人来说,干预可能会采取任何一种方式,有些人可能低于门槛,有些人则可能超过了门槛。在我们的示例中,在同一时间点,有些人刚刚超过 21 岁,有些人刚刚低于 21 岁。决定这一点的是某人是否在几天后出生,这是非常随机的。基于这个原因,RDD 提供了一个非常引人注目的因果故事。它不是 RCT 的黄金标准,但很接近。

现在,要估计阈值处的干预效果,我们需要做的就是估计上面公式中的两个极限值并进行比较。最简单的方法是运行线性回归

为了使其工作,我们将一个高于阈值的虚拟变量与运行变量进行交叉

y_i=\beta_0+\beta_1r_i+\beta_21r_i>c+\beta_31r_i>cr_i

本质上,这与在阈值之上拟合线性回归并在阈值之下拟合另一个线性回归相同。参数 \beta_{0} 是低于阈值的回归的截距,而 \beta_0+\beta_2 是高于阈值的回归的截距。

这就是将运行变量在阈值处取零的技巧发挥作用的地方。在这个预处理步骤之后,阈值变为零。这导致截距 \beta_{0} 成为阈值处的预测值,用于低于它的回归。换句话说,\beta_0=\lim_{r\to c^-}E[Y_{ti}|R_i=r]。同理,\beta_0+\beta_2 是上述结果的极限。威奇的意思是

\lim_{r\to c^+}E[Y_{ti}|R_i=r]-\lim_{r\to c^-}E[Y_{ti}|R_i=r]=\beta_2=E[ATE|R=c]

下面的代码展示了当我们想估计在21 岁时饮酒对死亡造成的影响。

rdd_df = drinking.assign(threshold=(drinking["agecell"] > 0).astype(int))model = smf.wls("all~agecell*threshold", rdd_df).fit()model.summary().tables[1]

这个模型告诉我们,随着饮酒,死亡率会增加 7.6627 个百分点。 另一种说法是,酒精会使各种原因的死亡几率增加 8% ((7.6627+93.6184)/93.6184)。 请注意,这也为我们的因果效应估计提供了标准误差。 在这种情况下,效果具有统计显着性,因为 p 值低于 0.01。

如果我们想直观地验证这个模型,我们可以在我们拥有的数据上显示预测值。 您可以看到,就好像我们有 2 个回归模型:一个用于高于阈值的模型,一个用于低于阈值的模型。

ax = drinking.plot.scatter(x="agecell", y="all", color="C0")
drinking.assign(predictions=model.fittedvalues).plot(x="agecell", y="predictions", ax=ax, color="C1")
plt.title("Regression Discontinuity");

如果我们对其他原因做同样的事,这是我们会得到的结果。

plt.figure(figsize=(8,8))for p, cause in enumerate(["all", "mva", "suicide"], 1):ax = plt.subplot(3,1,p)drinking.plot.scatter(x="agecell", y=cause, ax=ax)m = smf.wls(f"{cause}~agecell*threshold", rdd_df).fit()ate_pct = 100*((m.params["threshold"] + m.params["Intercept"])/m.params["Intercept"] - 1)drinking.assign(predictions=m.fittedvalues).plot(x="agecell", y="predictions", ax=ax, color="C1")plt.title(f"Impact of Alcohol on Death: {np.round(ate_pct, 2)}%")plt.tight_layout()

RDD 告诉我们,酒精会使自杀和车祸死亡的几率增加 15%,这是一个相当大的数字。如果我们想尽量减少死亡率,这些结果是不降低饮酒年龄的有力论据。

内核加权

回归不连续性在很大程度上依赖于线性回归的外推特性。由于我们正在查看 2 条回归线的开头和结尾处的值,因此我们最好正确设置这些限制。可能发生的情况是,回归可能过于关注拟合其他数据点,而代价是在阈值处拟合不佳。如果发生这种情况,我们可能会得到错误的治疗效果衡量标准。

解决此问题的一种方法是为更接近阈值的点赋予更高的权重。有很多方法可以做到这一点,但一种流行的方法是使用 triangular kernel 重新加权样本

K(R,c,h)=|R-c|\leq h*(1-\frac{|R-c|}h)

这个内核的第一部分是我们是否接近阈值的指示函数。多近?这由带宽参数 hℎ 确定。这个内核的第二部分是一个加权函数。随着我们远离阈值,权重变得越来越小。这些权重除以带宽。如果带宽很大,则权重会以较慢的速度变小。如果带宽很小,权重很快就会变为零。

为了更容易理解,下面是这个内核应用于我们的问题的权重。我在这里将带宽设置为 1,这意味着我们只会考虑来自不超过 22 岁且不低于 20 岁的人的数据。

def kernel(R, c, h):indicator = (np.abs(R-c) <= h).astype(float)return indicator * (1 - np.abs(R-c)/h)
plt.plot(drinking["agecell"], kernel(drinking["agecell"], c=0, h=1))
plt.xlabel("agecell")
plt.ylabel("Weight")
plt.title("Kernel Weight by Age");

如果我们将这些权重应用于我们最初的问题,酒精的影响会变得更大,至少对于死于"所有原因"的情况是如此。 它从 7.6627 跃升至 9.7004。 结果仍然非常显著。 另外,请注意我使用的是 wls 而不是 ols

model = smf.wls("all~agecell*threshold", rdd_df,weights=kernel(drinking["agecell"], c=0, h=1)).fit()model.summary().tables[1]

ax = drinking.plot.scatter(x="agecell", y="all", color="C0")
drinking.assign(predictions=model.fittedvalues).plot(x="agecell", y="predictions", ax=ax, color="C1")
plt.title("Regression Discontinuity (Local Regression)");

plt.figure(figsize=(8,8))
weights = kernel(drinking["agecell"], c=0, h=1)for p, cause in enumerate(["all", "mva", "suicide"], 1):ax = plt.subplot(3,1,p)drinking.plot.scatter(x="agecell", y=cause, ax=ax)m = smf.wls(f"{cause}~agecell*threshold", rdd_df, weights=weights).fit()ate_pct = 100*((m.params["threshold"] + m.params["Intercept"])/m.params["Intercept"] - 1)drinking.assign(predictions=m.fittedvalues).plot(x="agecell", y="predictions", ax=ax, color="C1")plt.title(f"Impact of Alcohol on Death: {np.round(ate_pct, 2)}%")plt.tight_layout()

除了自杀之外,似乎使用核函数加权会使对酒精的负面影响更大。再同样的,如果我们想将死亡率降到最低,我们不应该建议降低法定饮酒年龄,因为酒精对死亡率有明显的影响。

这个简单的案例涵盖了当断点回归完美运行​​时会发生什么。接下来,我们将看到一些我们应该运行的诊断步骤,以检查我们对 RDD 的信任程度,并讨论一个我们非常关心的话题:教育对收入的影响。

这篇关于【因果推断python】36_断点回归2的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1064349

相关文章

Python调用Orator ORM进行数据库操作

《Python调用OratorORM进行数据库操作》OratorORM是一个功能丰富且灵活的PythonORM库,旨在简化数据库操作,它支持多种数据库并提供了简洁且直观的API,下面我们就... 目录Orator ORM 主要特点安装使用示例总结Orator ORM 是一个功能丰富且灵活的 python O

Python使用国内镜像加速pip安装的方法讲解

《Python使用国内镜像加速pip安装的方法讲解》在Python开发中,pip是一个非常重要的工具,用于安装和管理Python的第三方库,然而,在国内使用pip安装依赖时,往往会因为网络问题而导致速... 目录一、pip 工具简介1. 什么是 pip?2. 什么是 -i 参数?二、国内镜像源的选择三、如何

python使用fastapi实现多语言国际化的操作指南

《python使用fastapi实现多语言国际化的操作指南》本文介绍了使用Python和FastAPI实现多语言国际化的操作指南,包括多语言架构技术栈、翻译管理、前端本地化、语言切换机制以及常见陷阱和... 目录多语言国际化实现指南项目多语言架构技术栈目录结构翻译工作流1. 翻译数据存储2. 翻译生成脚本

如何通过Python实现一个消息队列

《如何通过Python实现一个消息队列》这篇文章主要为大家详细介绍了如何通过Python实现一个简单的消息队列,文中的示例代码讲解详细,感兴趣的小伙伴可以跟随小编一起学习一下... 目录如何通过 python 实现消息队列如何把 http 请求放在队列中执行1. 使用 queue.Queue 和 reque

Python如何实现PDF隐私信息检测

《Python如何实现PDF隐私信息检测》随着越来越多的个人信息以电子形式存储和传输,确保这些信息的安全至关重要,本文将介绍如何使用Python检测PDF文件中的隐私信息,需要的可以参考下... 目录项目背景技术栈代码解析功能说明运行结php果在当今,数据隐私保护变得尤为重要。随着越来越多的个人信息以电子形

使用Python快速实现链接转word文档

《使用Python快速实现链接转word文档》这篇文章主要为大家详细介绍了如何使用Python快速实现链接转word文档功能,文中的示例代码讲解详细,感兴趣的小伙伴可以跟随小编一起学习一下... 演示代码展示from newspaper import Articlefrom docx import

Python Jupyter Notebook导包报错问题及解决

《PythonJupyterNotebook导包报错问题及解决》在conda环境中安装包后,JupyterNotebook导入时出现ImportError,可能是由于包版本不对应或版本太高,解决方... 目录问题解决方法重新安装Jupyter NoteBook 更改Kernel总结问题在conda上安装了

Python如何计算两个不同类型列表的相似度

《Python如何计算两个不同类型列表的相似度》在编程中,经常需要比较两个列表的相似度,尤其是当这两个列表包含不同类型的元素时,下面小编就来讲讲如何使用Python计算两个不同类型列表的相似度吧... 目录摘要引言数字类型相似度欧几里得距离曼哈顿距离字符串类型相似度Levenshtein距离Jaccard相

Python安装时常见报错以及解决方案

《Python安装时常见报错以及解决方案》:本文主要介绍在安装Python、配置环境变量、使用pip以及运行Python脚本时常见的错误及其解决方案,文中介绍的非常详细,需要的朋友可以参考下... 目录一、安装 python 时常见报错及解决方案(一)安装包下载失败(二)权限不足二、配置环境变量时常见报错及

Python中顺序结构和循环结构示例代码

《Python中顺序结构和循环结构示例代码》:本文主要介绍Python中的条件语句和循环语句,条件语句用于根据条件执行不同的代码块,循环语句用于重复执行一段代码,文章还详细说明了range函数的使... 目录一、条件语句(1)条件语句的定义(2)条件语句的语法(a)单分支 if(b)双分支 if-else(