【因果推断python】32_合成控制2

2024-06-13 21:52

本文主要是介绍【因果推断python】32_合成控制2,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

目录

合成控制作为线性回归的一种实现​编辑


合成控制作为线性回归的一种实现

为了估计综合控制的治疗效果,我们将尝试构建一个类似于干预期之前的治疗单元的“假单元”。然后,我们将看到这个“假单位”在干预后的表现。合成控制和它所模仿的单位之间的区别在于治疗效果。

要使用线性回归做到这一点,我们将使用 OLS 找到权重。我们将最小化干预前期间供体池中单位的加权平均值与治疗单位之间的平方距离。

为此,我们需要的第一件事是将单位(在我们的例子中为状态)转换为列,将时间转换为行。由于我们有 2 个功能,cigsale 和 retprice,我们将它们堆叠在一起,就像我们在上图中所做的那样。我们将建立一个在干预前看起来很像加利福尼亚的合成控制,并看看它在干预后的表现如何。出于这个原因,重要的是我们只选择干预前的时期。在这里,这些功能似乎具有相似的规模,因此我们不会对它们做任何事情。如果特征的比例不同,一个是千位,另一个是小数,在最小化差异时,较大的特征将是最重要的。为避免这种情况,首先对它们进行扩展很重要。

features = ["cigsale", "retprice"]inverted = (cigar.query("~after_treatment") # filter pre-intervention period.pivot(index='state', columns="year")[features] # make one column per year and one row per state.T) # flip the table to have one column per stateinverted.head()

现在,我们可以将 Y 变量定义为加利福尼亚州,将 X 定义为其他州。

y = inverted[3].values # state of california
X = inverted.drop(columns=3).values  # other states

然后,我们运行回归。 有一个截距相当于添加另一个状态,其中每一行都是 1。你可以这样做,但我认为它更复杂,我就省略了。 回归将返回一组权重,以最小化治疗单位与供体池中单位之间的平方差。

from sklearn.linear_model import LinearRegression
weights_lr = LinearRegression(fit_intercept=False).fit(X, y).coef_
weights_lr.round(3)array([-0.436, -1.038,  0.679,  0.078,  0.339,  1.213,  0.143,  0.555,-0.295,  0.052, -0.529,  1.235, -0.549,  0.437, -0.023, -0.266,-0.25 , -0.667, -0.106, -0.145,  0.109,  0.242, -0.328,  0.594,0.243, -0.171, -0.02 ,  0.14 , -0.811,  0.362,  0.519, -0.304,0.805, -0.318, -1.246,  0.773, -0.055, -0.032])

这些权重向我们展示了如何构建合成控制。 我们将状态 1 的结果乘以 -0.436,状态 2 的结果乘以 -1.038,状态 4 的结果乘以 0.679,依此类推。 我们可以通过池中状态的矩阵和权重之间的点积来实现这一点。

calif_synth_lr = (cigar.query("~california").pivot(index='year', columns="state")["cigsale"].values.dot(weights_lr))

现在我们有了合成控制,我们可以用加利福尼亚州的结果变量来绘制它。

plt.figure(figsize=(10,6))
plt.plot(cigar.query("california")["year"], cigar.query("california")["cigsale"], label="California")
plt.plot(cigar.query("california")["year"], calif_synth_lr, label="Synthetic Control")
plt.vlines(x=1988, ymin=40, ymax=140, linestyle=":", lw=2, label="Proposition 99")
plt.ylabel("Gap in per-capita cigarette sales (in packs)")
plt.legend();

好吧……似乎有些不对劲。这张照片中什么吸引了你的注意力?首先,干预后,合成控制的卷烟销量超过了加州。这表明干预措施成功地降低了卷烟需求。其次,注意干预前的时期是如何完美拟合的。合成控制能够与加利福尼亚州完全匹配。这表明我们的综合控制模型可能过度拟合数据。另一个迹象是干预后综合控制结果变量的巨大差异。注意它是如何不遵循平滑模式的。相反,它会上下波动。

如果我们思考为什么会发生这种情况,请记住我们的供体池中有 38 个州。因此,我们的线性回归有 38 个参数可供使用,以使预处理池与处理尽可能接近。在这种情况下,即使 T 很大,N 也很大,这给我们的线性回归模型提供了太多的灵活性。如果您熟悉正则化模型,可以使用 Ridge 或 Lasso 回归来解决此问题。在这里,我们将研究另一种更传统的避免过拟合的方法。

这篇关于【因果推断python】32_合成控制2的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1058523

相关文章

Python将博客内容html导出为Markdown格式

《Python将博客内容html导出为Markdown格式》Python将博客内容html导出为Markdown格式,通过博客url地址抓取文章,分析并提取出文章标题和内容,将内容构建成html,再转... 目录一、为什么要搞?二、准备如何搞?三、说搞咱就搞!抓取文章提取内容构建html转存markdown

Python获取中国节假日数据记录入JSON文件

《Python获取中国节假日数据记录入JSON文件》项目系统内置的日历应用为了提升用户体验,特别设置了在调休日期显示“休”的UI图标功能,那么问题是这些调休数据从哪里来呢?我尝试一种更为智能的方法:P... 目录节假日数据获取存入jsON文件节假日数据读取封装完整代码项目系统内置的日历应用为了提升用户体验,

Python FastAPI+Celery+RabbitMQ实现分布式图片水印处理系统

《PythonFastAPI+Celery+RabbitMQ实现分布式图片水印处理系统》这篇文章主要为大家详细介绍了PythonFastAPI如何结合Celery以及RabbitMQ实现简单的分布式... 实现思路FastAPI 服务器Celery 任务队列RabbitMQ 作为消息代理定时任务处理完整

Python Websockets库的使用指南

《PythonWebsockets库的使用指南》pythonwebsockets库是一个用于创建WebSocket服务器和客户端的Python库,它提供了一种简单的方式来实现实时通信,支持异步和同步... 目录一、WebSocket 简介二、python 的 websockets 库安装三、完整代码示例1.

揭秘Python Socket网络编程的7种硬核用法

《揭秘PythonSocket网络编程的7种硬核用法》Socket不仅能做聊天室,还能干一大堆硬核操作,这篇文章就带大家看看Python网络编程的7种超实用玩法,感兴趣的小伙伴可以跟随小编一起... 目录1.端口扫描器:探测开放端口2.简易 HTTP 服务器:10 秒搭个网页3.局域网游戏:多人联机对战4.

使用Python实现快速搭建本地HTTP服务器

《使用Python实现快速搭建本地HTTP服务器》:本文主要介绍如何使用Python快速搭建本地HTTP服务器,轻松实现一键HTTP文件共享,同时结合二维码技术,让访问更简单,感兴趣的小伙伴可以了... 目录1. 概述2. 快速搭建 HTTP 文件共享服务2.1 核心思路2.2 代码实现2.3 代码解读3.

Python使用自带的base64库进行base64编码和解码

《Python使用自带的base64库进行base64编码和解码》在Python中,处理数据的编码和解码是数据传输和存储中非常普遍的需求,其中,Base64是一种常用的编码方案,本文我将详细介绍如何使... 目录引言使用python的base64库进行编码和解码编码函数解码函数Base64编码的应用场景注意

用js控制视频播放进度基本示例代码

《用js控制视频播放进度基本示例代码》写前端的时候,很多的时候是需要支持要网页视频播放的功能,下面这篇文章主要给大家介绍了关于用js控制视频播放进度的相关资料,文中通过代码介绍的非常详细,需要的朋友可... 目录前言html部分:JavaScript部分:注意:总结前言在javascript中控制视频播放

Python基于wxPython和FFmpeg开发一个视频标签工具

《Python基于wxPython和FFmpeg开发一个视频标签工具》在当今数字媒体时代,视频内容的管理和标记变得越来越重要,无论是研究人员需要对实验视频进行时间点标记,还是个人用户希望对家庭视频进行... 目录引言1. 应用概述2. 技术栈分析2.1 核心库和模块2.2 wxpython作为GUI选择的优

Python如何使用__slots__实现节省内存和性能优化

《Python如何使用__slots__实现节省内存和性能优化》你有想过,一个小小的__slots__能让你的Python类内存消耗直接减半吗,没错,今天咱们要聊的就是这个让人眼前一亮的技巧,感兴趣的... 目录背景:内存吃得满满的类__slots__:你的内存管理小助手举个大概的例子:看看效果如何?1.