DPSS quant 1.1 因果 芝加哥大学Uchicago暑校数理统计部分

本文主要是介绍DPSS quant 1.1 因果 芝加哥大学Uchicago暑校数理统计部分,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

Causality

  • 1.1 因果(Causality)
    • 1.1.1 Motivation
      • 1.1.1.1 例子
      • 1.1.1.2 例子
    • 1.1.2 Rubin Model
      • 1.1.2.1 Estimator
      • 1.1.2.2 Assignment Machanism
        • Rubin‘s “Perfect Doctor”
    • 1.1.3 Non-Causal Relationships
    • 1.1.4 Conclusion

1.1 因果(Causality)

1.1.1 Motivation

理清数据间的因果关系对于解释和指导现实世界具有重要意义

1.1.1.1 例子

1665年,伦敦爆发鼠疫,是时人们猜测鼠疫成因与动物有关,并因此屠杀了40000余狗和5倍于此的猫

当时的数据表明,猫的数量与黑死病死亡数正相关,烟雾与黑死病死亡数负相关

在这里插入图片描述

看起来,杀死猫似乎并非毫无根据,然而事实是这样的

在这里插入图片描述

有老鼠滋蔓的地方黑死病的死亡数更高,而因为有老鼠,这里的猫才会更多!杀死猫只会增加死亡数量!

1.1.1.2 例子

1854年,伦敦医生John Snow通过分析患者分布推测水源出现污染,成功避免了感染进一步扩大

1.1.2 Rubin Model

对于给定的对象i和一种干涉(intervention)t,对i有状态世界 S , S ∈ { t , c } S,S\in \{t,c\} S,S{t,c},其中t和c分别对应实验(施加干涉)和对照(不施加干涉),记其对应的结果(outcome by the measure of interest)为 Y Y Y,用下标i对应对象,用上标S表示是否施加干涉。

所谓的因果影响(Causal Effect)即是潜在的两种结果( Y i t , Y i c Y_i^t,Y_i^c Yit,Yic)的不同 Y i t − Y i c = T i Y_i^t-Y_i^c=T_i YitYic=Ti,t对于c的TE(treatment effect)也是 Y i t − Y i c = T i Y_i^t-Y_i^c=T_i YitYic=Ti

然而有一个很核心的问题(Fundmental problem of causal inference)——你只能看到潜在结果中的一个,不可能在现实世界同时观测到两种结果!(这就意味着任意一个对象的TE是不可知的)

1.1.2.1 Estimator

因为对于任意给定 i i i T i T_i Ti都是不可知的,所以我们放弃计算每个特定的 T i T_i Ti(intervention在i上的TE),转而计算ATE(average treatment effect, 平均实验效果)
T = E ( Y i t − Y i c ) = E ( T i ) T=E(Y_i^t-Y_i^c)=E(T_i) T=E(YitYic)=E(Ti)
(这个公式假设了 T i T_i Ti是对应研究对象的简单随机样本或者相应的随机变量)

T也是不可观测的,但是现实中我们可以估算
T ^ = E ^ ( Y i t ∣ S = t ) − E ^ ( Y i c ∣ S = c ) \hat T=\hat E(Y_i^t|S=t)-\hat E(Y_i^c|S=c) T^=E^(YitS=t)E^(YicS=c)
$\hat T 是 否 是 一 个 是否是一个 T$的好的估计取决于取样方式(assignment mechanism)

若满足下列条件,则可以认为 T ^ \hat T T^是一个好的估计
E ( Y i t ) = E ( Y i t ∣ S = t ) E ( Y i c ) = E ( Y i t ∣ S = c ) E(Y_i^t)=E(Y_i^t|S=t) \\ E(Y_i^c)=E(Y_i^t|S=c) E(Yit)=E(YitS=t)E(Yic)=E(YitS=c)
此时
E ( T ^ ) = T E(\hat T)=T E(T^)=T
当S与Y相互独立,上述条件就会被满足(注:完全随机的分配S看似合理,但是无法验证)

以上公式均来自ppt,容易发现公式在细节上并未深究,例如 E ( E ^ ( Y i t ∣ S = t ) ) E(\hat E(Y_i^t|S=t)) E(E^(YitS=t))因某种未知的良好估计方式确定的等于 E ( Y i t ∣ S = t ) E(Y_i^t|S=t) E(YitS=t) i i i被视为某个 o b j e c t object object,但 T i T_i Ti又被视为样本,这也在公式中造成了混淆

1.1.2.2 Assignment Machanism

Rubin‘s “Perfect Doctor”

现研究某种疾病的一个病人群体,对这种病有一种手术方法,对于某些人有利而对某些人有害,现有一个完美的医生他可以洞悉病人施加手术和不施加手术的两种未来,从而总是对需要手术的人手术,对不需要手术的人不手术

在这里插入图片描述
实验结束后我们得到如下结果
在这里插入图片描述

从第一张表我们发现,这种手术的平均效果是差的(术后平均减寿1年),但根据第二张表我们估算T,结果则是该手术对病人在平均意义上具有积极影响(术后平均延寿3年)

这个医生总是因地制宜,给特定病人施加最好的state

在现实生活中,对于实际的社会问题,我们往往会有知识(例如,救济前往往知道被救济者的收入和消费情况),这种知识辅助了我们更好的实行某种干涉,同时也使得我们在平均意义上的估计可能出现很大的偏差。

1.1.3 Non-Causal Relationships

非因果关系常常很重要,我们将在此后学习估计非因果关系的数理统计方法

一般来说,我们总是想要先搞清楚变量间的关系,然后我们再试图搞清表象背后的实质,那也许是因果

  • 例如,在黑死病的例子中,我们首先发现猫与黑死病死亡数的正相关关系,然后找到了两者间的因果关系——即猫-鼠-蚤-鼠疫-死亡的影响链条

1.1.4 Conclusion

  • 不是所有的数据关系都是因果关系(causal relationships)

  • 即使存在因果关系,也需要合理的取样方法才能克服因果推断的基本问题(也就是不能同时观测到两个未来的问题)

  • 要客观看待问题——人们经常试图强行解释数据,为数据强行施加因果关系,这常常都是不合理的!(例如,猫就被扣上了传播鼠疫的帽子,这就离谱)

这篇关于DPSS quant 1.1 因果 芝加哥大学Uchicago暑校数理统计部分的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/778015

相关文章

usaco 1.1 Broken Necklace(DP)

直接上代码 接触的第一道dp ps.大概的思路就是 先从左往右用一个数组在每个点记下蓝或黑的个数 再从右到左算一遍 最后取出最大的即可 核心语句在于: 如果 str[i] = 'r'  ,   rl[i]=rl[i-1]+1, bl[i]=0 如果 str[i] = 'b' ,  bl[i]=bl[i-1]+1, rl[i]=0 如果 str[i] = 'w',  bl[i]=b

【WebGPU Unleashed】1.1 绘制三角形

一部2024新的WebGPU教程,作者Shi Yan。内容很好,翻译过来与大家共享,内容上会有改动,加上自己的理解。更多精彩内容尽在 dt.sim3d.cn ,关注公众号【sky的数孪技术】,技术交流、源码下载请添加微信号:digital_twin123 在 3D 渲染领域,三角形是最基本的绘制元素。在这里,我们将学习如何绘制单个三角形。接下来我们将制作一个简单的着色器来定义三角形内的像素

poj 2976 分数规划二分贪心(部分对总体的贡献度) poj 3111

poj 2976: 题意: 在n场考试中,每场考试共有b题,答对的题目有a题。 允许去掉k场考试,求能达到的最高正确率是多少。 解析: 假设已知准确率为x,则每场考试对于准确率的贡献值为: a - b * x,将贡献值大的排序排在前面舍弃掉后k个。 然后二分x就行了。 代码: #include <iostream>#include <cstdio>#incl

笔记整理—内核!启动!—kernel部分(2)从汇编阶段到start_kernel

kernel起始与ENTRY(stext),和uboot一样,都是从汇编阶段开始的,因为对于kernel而言,还没进行栈的维护,所以无法使用c语言。_HEAD定义了后面代码属于段名为.head .text的段。         内核起始部分代码被解压代码调用,前面关于uboot的文章中有提到过(eg:zImage)。uboot启动是无条件的,只要代码的位置对,上电就工作,kern

项目实战系列三: 家居购项目 第四部分

购物车 🌳购物车🍆显示购物车🍆更改商品数量🍆清空购物车&&删除商品 🌳生成订单 🌳购物车 需求分析 1.会员登陆后, 可以添加家居到购物车 2.完成购物车的设计和实现 3.每添加一个家居,购物车的数量+1, 并显示 程序框架图 1.新建src/com/zzw/furns/entity/CartItem.java, CartItem-家居项模型 /***

码蹄集部分题目(2024OJ赛9.4-9.8;线段树+树状数组)

1🐋🐋配对最小值(王者;树状数组) 时间限制:1秒 占用内存:64M 🐟题目思路 MT3065 配对最小值_哔哩哔哩_bilibili 🐟代码 #include<bits/stdc++.h> using namespace std;const int N=1e5+7;int a[N],b[N],c[N],n,q;struct QUERY{int l,r,id;}que

关于断言的部分用法

1、带变量的断言  systemVerilog assertion 中variable delay的使用,##[variable],带变量的延时(可变延时)_assertion中的延时-CSDN博客 2、until 的使用 systemVerilog assertion 中until的使用_verilog until-CSDN博客 3、throughout的使用   常用于断言和假设中的

牛客小白月赛100部分题解

比赛地址:牛客小白月赛100_ACM/NOI/CSP/CCPC/ICPC算法编程高难度练习赛_牛客竞赛OJ A.ACM中的A题 #include<bits/stdc++.h>using namespace std;#define ll long long#define ull = unsigned long longvoid solve() {ll a,b,c;cin>>a>>b>

VB和51单片机串口通信讲解(只针对VB部分)

标记:该篇文章全部搬自如下网址:http://www.crystalradio.cn/thread-321839-1-1.html,谢谢啦            里面关于中文接收的部分,大家可以好好学习下,题主也在研究中................... Commport;设置或返回串口号。 SettingS:以字符串的形式设置或返回串口通信参数。 Portopen:设置或返回串口

node快速复制文件或文件夹,排除部分文件(node_modules)

const fs = require('fs')const path = require('path')/*** @description: 获取完整的文件路径* @param {*} url 路径* @return {*} 返回完整的文件路径*/const getPath = (url) => {return path.join(__dirname, url)}/*** @descr