【python因果推断库11】工具变量回归与使用 pymc 验证工具变量4

2024-09-07 22:20

本文主要是介绍【python因果推断库11】工具变量回归与使用 pymc 验证工具变量4,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

目录

 Wald 估计与简单控制回归的比较

CausalPy 和 多变量模型

感兴趣的系数

复杂化工具变量公式


 Wald 估计与简单控制回归的比较

但现在我们可以将这个估计与仅包含教育作为控制变量的简单回归进行比较。

naive_reg_model, idata_reg = make_reg_model(covariate_df.assign(education=df["education"])
)
az.summary(idata_reg, var_names=["beta_z"])[["mean", "sd", "hdi_3%", "hdi_97%", "r_hat"]
]

在这里,我们看到包含我们的工具变量和处理变量的回归中,分配给我们的工具变量 `nearcollege_indicator` 的系数权重 beta_z[nearcollege_indicator] 进一步向 0 缩小。这在一定程度上表明排除限制假设仍然是合理的。工具变量的影响被吸收到了处理变量更直接的影响中。

ols_estimate = az.extract(idata_reg["posterior"])["beta_z"].sel(covariates="education")
fig, axs = plt.subplots(2, 1, figsize=(7, 9))
axs = axs.flatten()
ax = axs[0]
ax1 = axs[1]
ax.hist(estimate,bins=30,ec="black",alpha=0.5,label=r"IV $\beta$ Education",rasterized=True,
)
ax1.hist(ols_estimate,bins=30,ec="black",alpha=0.5,label=r"Simple $\beta$ Education",color="red",rasterized=True,
)
ax.axvline(np.mean(estimate),linestyle="--",color="k",label=f"Expected IV Estimate: {np.round(np.mean(estimate.values), 2)}",
)
ax1.axvline(np.mean(ols_estimate),linestyle="--",color="k",label=f"Expected: {np.round(np.mean(ols_estimate.values), 2)}",
)
ax1.set_xlabel(r"$\beta$ coefficient Education")ax.legend()
ax1.legend(loc="upper left")
ax.set_title("Estimated IV Effect \n  Returns to Schooling",
)
ax1.set_title("Estimated Simple Effect \n  Returns to Schooling");

注意这里简单回归和工具变量估计之间的显著差异。这种对比在许多方面是工具变量设计的核心。通过为我们的问题提出一个工具变量模型,我们争论的是简单回归和工具变量估计之间的差异是由于混淆变量的影响,这种影响扭曲了我们对处理变量对结果的理解。工具变量设计旨在消除这种扭曲效应。了解这些估计之间的差异大小可以让我们感受到所谓的混淆变量所产生的影响。

CausalPy 和 多变量模型

现在我们使用 CausalPy 的贝叶斯工具变量回归来拟合模型。在这里,我们可以明确地陈述构成我们模型的结构方程。重要的是,我们确保包含在工具变量公式中的控制变量也被包含在结果公式中。

sample_kwargs = {"chains": 4,"cores": 4,"target_accept": 0.95,"progressbar": True,"nuts_sampler": "numpyro",  ## requires Jax and Numpyro install"idata_kwargs": {"log_likelihood": True},
}
instruments_formula = "education ~ 1 + experience_1 + experience_2 + ethnicity_indicator + south_indicator + smsa_indicator + nearcollege_indicator"
formula = "log_wage ~ 1 + education  + experience_1 + experience_2 + ethnicity_indicator + south_indicator + smsa_indicator"
instruments_data = df[["education","nearcollege_indicator","experience_1","experience_2","ethnicity_indicator","smsa_indicator","south_indicator",]
]
data = df[["log_wage","education","experience_1","experience_2","ethnicity_indicator","smsa_indicator","south_indicator",]
]
iv = InstrumentalVariable(instruments_data=instruments_data,data=data,instruments_formula=instruments_formula,formula=formula,model=InstrumentalVariableRegression(sample_kwargs=sample_kwargs),
)az.summary(iv.idata, var_names=["beta_t", "beta_z"])[["mean", "sd", "hdi_3%", "hdi_97%", "r_hat"]
]

感兴趣的系数

如我们所见,beta_z[education] 系数记录了我们的 LATE 估计,并且实质上恢复了与上面的两步 Wald 估计相同的价值。同时请注意,experience_1 变量似乎与其他变量处于不同的数量级。

默认情况下,InstrumentalVariable 类不会从先验预测分布或后验预测分布中采样,就像典型的 CausalPy 模型那样。这主要是因为在工具变量回归中,重点在于 beta_z 和 beta_t 参数,以及在 beta_z[education] 上记录的处理效应的焦点参数。

然而,在模型估计之后完全有可能从后验预测分布中采样。如果您确实希望从后验预测分布中采样,我们强烈建议安装并使用 Jax 采样器进行后验预测采样,因为它通常比基础的 pymc 采样器快得多。

iv.model.sample_predictive_distribution(ppc_sampler="jax")

同样地,我们也可以提取先验预测检查,并观察后验分布如何更新了我们的先验。 

with iv.model:iv.idata.extend(pm.sample_prior_predictive(var_names=["beta_z"]))
az.plot_dist_comparison(iv.idata, var_names=["beta_z"], coords={"covariates": ["education"]}, figsize=(8, 4)
);

上面的图展示了我们对处理效应可能实现的广泛假设,以及在考虑到观测数据的情况下,可能实现的狭窄范围。

复杂化工具变量公式

我们可以通过添加额外的工具变量来进一步评估加强工具变量效应的想法。一个自然的想法是观察当我们添加额外的 `nearcollege2_indicator` 时,教育方程中的工具变量值如何变化。从我们对数据的视觉检查来看,似乎有必要尝试确定接近两年制和四年制大学如何影响教育程度。

instruments_formula = """education ~  experience_1 + experience_2 + ethnicity_indicator + south_indicator + smsa_indicator + nearcollege_indicator + nearcollege2_indicator"""formula = "log_wage ~ 1 + education  + experience_1 + experience_2 + ethnicity_indicator + south_indicator + smsa_indicator"instruments_data = df[["education","nearcollege_indicator","nearcollege2_indicator","experience_1","experience_2","ethnicity_indicator","smsa_indicator","south_indicator",]
]data = df[["log_wage","education","experience_1","experience_2","ethnicity_indicator","smsa_indicator","south_indicator",]
]
iv1 = InstrumentalVariable(instruments_data=instruments_data,data=data,instruments_formula=instruments_formula,formula=formula,model=InstrumentalVariableRegression(sample_kwargs=sample_kwargs),
)
iv1.model.sample_predictive_distribution(ppc_sampler="jax")az.summary(iv1.idata, var_names=["beta_t", "beta_z"])[["mean", "sd", "hdi_3%", "hdi_97%", "r_hat"]
]

 

在这里,我们看到额外工具变量 `beta_t[nearcollege2_indicator]` 和原有工具变量 `beta_t[nearcollege_indicator]` 的加入使得 LATE 估计值从 0.13 提升到了 0.16。这在直觉上是合理的,并且或许增强了整体观点,即接近度是一个好的工具变量。

这篇关于【python因果推断库11】工具变量回归与使用 pymc 验证工具变量4的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1146323

相关文章

Spring Security基于数据库验证流程详解

Spring Security 校验流程图 相关解释说明(认真看哦) AbstractAuthenticationProcessingFilter 抽象类 /*** 调用 #requiresAuthentication(HttpServletRequest, HttpServletResponse) 决定是否需要进行验证操作。* 如果需要验证,则会调用 #attemptAuthentica

中文分词jieba库的使用与实景应用(一)

知识星球:https://articles.zsxq.com/id_fxvgc803qmr2.html 目录 一.定义: 精确模式(默认模式): 全模式: 搜索引擎模式: paddle 模式(基于深度学习的分词模式): 二 自定义词典 三.文本解析   调整词出现的频率 四. 关键词提取 A. 基于TF-IDF算法的关键词提取 B. 基于TextRank算法的关键词提取

python: 多模块(.py)中全局变量的导入

文章目录 global关键字可变类型和不可变类型数据的内存地址单模块(单个py文件)的全局变量示例总结 多模块(多个py文件)的全局变量from x import x导入全局变量示例 import x导入全局变量示例 总结 global关键字 global 的作用范围是模块(.py)级别: 当你在一个模块(文件)中使用 global 声明变量时,这个变量只在该模块的全局命名空

使用SecondaryNameNode恢复NameNode的数据

1)需求: NameNode进程挂了并且存储的数据也丢失了,如何恢复NameNode 此种方式恢复的数据可能存在小部分数据的丢失。 2)故障模拟 (1)kill -9 NameNode进程 [lytfly@hadoop102 current]$ kill -9 19886 (2)删除NameNode存储的数据(/opt/module/hadoop-3.1.4/data/tmp/dfs/na

Hadoop数据压缩使用介绍

一、压缩原则 (1)运算密集型的Job,少用压缩 (2)IO密集型的Job,多用压缩 二、压缩算法比较 三、压缩位置选择 四、压缩参数配置 1)为了支持多种压缩/解压缩算法,Hadoop引入了编码/解码器 2)要在Hadoop中启用压缩,可以配置如下参数

Makefile简明使用教程

文章目录 规则makefile文件的基本语法:加在命令前的特殊符号:.PHONY伪目标: Makefilev1 直观写法v2 加上中间过程v3 伪目标v4 变量 make 选项-f-n-C Make 是一种流行的构建工具,常用于将源代码转换成可执行文件或者其他形式的输出文件(如库文件、文档等)。Make 可以自动化地执行编译、链接等一系列操作。 规则 makefile文件

使用opencv优化图片(画面变清晰)

文章目录 需求影响照片清晰度的因素 实现降噪测试代码 锐化空间锐化Unsharp Masking频率域锐化对比测试 对比度增强常用算法对比测试 需求 对图像进行优化,使其看起来更清晰,同时保持尺寸不变,通常涉及到图像处理技术如锐化、降噪、对比度增强等 影响照片清晰度的因素 影响照片清晰度的因素有很多,主要可以从以下几个方面来分析 1. 拍摄设备 相机传感器:相机传

变量与命名

引言         在前两个课时中,我们已经了解了 Python 程序的基本结构,学习了如何正确地使用缩进来组织代码,并且知道了注释的重要性。现在我们将进一步深入到 Python 编程的核心——变量与命名。变量是我们存储数据的主要方式,而合理的命名则有助于提高代码的可读性和可维护性。 变量的概念与使用         在 Python 中,变量是一种用来存储数据值的标识符。创建变量很简单,

高效录音转文字:2024年四大工具精选!

在快节奏的工作生活中,能够快速将录音转换成文字是一项非常实用的能力。特别是在需要记录会议纪要、讲座内容或者是采访素材的时候,一款优秀的在线录音转文字工具能派上大用场。以下推荐几个好用的录音转文字工具! 365在线转文字 直达链接:https://www.pdf365.cn/ 365在线转文字是一款提供在线录音转文字服务的工具,它以其高效、便捷的特点受到用户的青睐。用户无需下载安装任何软件,只

【Python编程】Linux创建虚拟环境并配置与notebook相连接

1.创建 使用 venv 创建虚拟环境。例如,在当前目录下创建一个名为 myenv 的虚拟环境: python3 -m venv myenv 2.激活 激活虚拟环境使其成为当前终端会话的活动环境。运行: source myenv/bin/activate 3.与notebook连接 在虚拟环境中,使用 pip 安装 Jupyter 和 ipykernel: pip instal