本文主要是介绍【论文解读 WWW2019】|基于开放数据的因果推断:社区环境特征如何影响居民健康?,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!
本篇文章是解读顶会论文的第一篇,为了追求阅读效率,省略了本人认为不影响理解的内容,并非论文的全部中文翻译,主要包括文章的核心内容和方法,想要看包含文献综述等完整论文内容的小伙伴可以自己阅读英文原文哦~
文章标题《Understanding the Effects of the Neighbourhood Built Environment on Public Health with Open Data》
本文发表于2019年CCF-A类顶会WWW,由剑桥大学的学者提出,是关于因果推断,社会科学和计量经济学的论文,属于交叉学科研究方向。关于CV,NLP,RecSys等方向的顶会论文解读已有不少大佬总结,关注计量经济学和社会科学方面的顶会论文相对较少。这篇论文比较有意思,因此简要介绍帮助大家快速了解文章核心。
废话不多说,我们开始吧≡ω≡
1. 文章背景
在公共政策以及社会科学的领域中,研究社区环境对居民健康的影响是一个较为典型的、有价值的方向。传统的研究方法以社会调研为主,其时间和空间跨度是有限的,这会导致时间和空间上的粗粒度数据(如面板数据),且大规模的社会调研会导致较高的人力物力成本,通常来说是效率很低的做法。基于此,本文利用开放数据(如OSM等项目提供的数据),在较细的时空粒度以及因果关系框架的基础上,提出了一种将邻里社区特征对居民健康的影响联系起来的方法。具体而言,作者使用因果推断等方法,研究了三年内伦敦600多个区域的运动场所对抗抑郁药处方流行率的影响,将其作为一个典型案例来证明社区环境对居民健康的影响。这种方法有很多好处,看到后面你就知道了╰( ̄▽ ̄)╭。
2. 研究方法
先介绍总体方法:文章关注的是社区环境的具体特征,如某些特定服务的存在(体育设施)对人口健康的outcome(如抗抑郁药处方)的影响。这里的社区环境特征被称为treatment。这里采取了因果推理的观点(假设你已经了解因果推理相关概念),文章想找到对于社区环境施加体育设施这种treatment会给人口健康结果带来的因果效应,简单来说就是,我们需要评估,当体育设施这个具体特征改变的时候,它对于人口健康结果(如抗抑郁药处方)有什么样的影响。
2.1 研究单位
在因果推理中,实验对象叫做unit,可以是一个或者多个,在本文中可以看作是施加了treatment的研究单位,即不同的neighbourhoods,具体就是伦敦的625个行政选区(ward)。在一年开始时,每个区域都被视为施加了特定单位量的treatment。
2.2 Matching
在介绍matching方法之前,我们要了解一个基础的因果推理方法叫做随机对照实验(RCT,randomized controlled trials),如果应用这种方法,本文的做法理论上应该是随机选择一半的区域(ward),将没有施加treatment的区域集合作为对照组(control group),剩下的作为实验组(treatment group)。但是显而易见这种方法是非常拉垮的,毕竟我们不能随心所欲地控制在哪个区域去施加treatment。
虽然RCT的方法是不可取的,但它背后的思想非常有价值。它确保了除treatment变量的所有影响outcome的变量都是平衡的,这意味着两组对象的实验结果在treatment status上是可比的,因为treatment是唯一的区别所在。
那么问题来了——怎样找到一个alternative method来实现RCT的思想呢?
本文采用的是因果推理中的匹配算法(Matching Procedure)。这里要介绍一个概念叫混杂变量(confounder),它是影响treatment或outcome(包括同时影响)的变量(类似于计量经济学中的协变量&#x
这篇关于【论文解读 WWW2019】|基于开放数据的因果推断:社区环境特征如何影响居民健康?的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!