【论文解读 WWW2019】|基于开放数据的因果推断:社区环境特征如何影响居民健康?

本文主要是介绍【论文解读 WWW2019】|基于开放数据的因果推断:社区环境特征如何影响居民健康?,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

        本篇文章是解读顶会论文的第一篇,为了追求阅读效率,省略了本人认为不影响理解的内容,并非论文的全部中文翻译,主要包括文章的核心内容和方法,想要看包含文献综述等完整论文内容的小伙伴可以自己阅读英文原文哦~

文章标题《Understanding the Effects of the Neighbourhood Built Environment on Public Health with Open Data》

       本文发表于2019年CCF-A类顶会WWW,由剑桥大学的学者提出,是关于因果推断社会科学计量经济学的论文,属于交叉学科研究方向。关于CV,NLP,RecSys等方向的顶会论文解读已有不少大佬总结,关注计量经济学和社会科学方面的顶会论文相对较少。这篇论文比较有意思,因此简要介绍帮助大家快速了解文章核心。

废话不多说,我们开始吧≡ω≡

1. 文章背景

        在公共政策以及社会科学的领域中,研究社区环境对居民健康的影响是一个较为典型的、有价值的方向。传统的研究方法以社会调研为主,其时间和空间跨度是有限的,这会导致时间和空间上的粗粒度数据(如面板数据),且大规模的社会调研会导致较高的人力物力成本,通常来说是效率很低的做法。基于此,本文利用开放数据(如OSM等项目提供的数据),在较细的时空粒度以及因果关系框架的基础上,提出了一种将邻里社区特征对居民健康的影响联系起来的方法。具体而言,作者使用因果推断等方法,研究了三年内伦敦600多个区域的运动场所对抗抑郁药处方流行率的影响,将其作为一个典型案例来证明社区环境对居民健康的影响。这种方法有很多好处,看到后面你就知道了╰( ̄▽ ̄)╭。

2. 研究方法 

        先介绍总体方法:文章关注的是社区环境的具体特征,如某些特定服务的存在(体育设施)对人口健康的outcome(如抗抑郁药处方)的影响。这里的社区环境特征被称为treatment。这里采取了因果推理的观点(假设你已经了解因果推理相关概念),文章想找到对于社区环境施加体育设施这种treatment会给人口健康结果带来的因果效应,简单来说就是,我们需要评估,当体育设施这个具体特征改变的时候,它对于人口健康结果(如抗抑郁药处方)有什么样的影响。

2.1 研究单位

       在因果推理中,实验对象叫做unit,可以是一个或者多个,在本文中可以看作是施加了treatment的研究单位,即不同的neighbourhoods,具体就是伦敦的625个行政选区(ward)。在一年开始时,每个区域都被视为施加了特定单位量的treatment。

2.2 Matching

      在介绍matching方法之前,我们要了解一个基础的因果推理方法叫做随机对照实验(RCT,randomized controlled trials),如果应用这种方法,本文的做法理论上应该是随机选择一半的区域(ward),将没有施加treatment的区域集合作为对照组(control group),剩下的作为实验组(treatment group)。但是显而易见这种方法是非常拉垮的,毕竟我们不能随心所欲地控制在哪个区域去施加treatment。

        虽然RCT的方法是不可取的,但它背后的思想非常有价值。它确保了除treatment变量的所有影响outcome的变量都是平衡的,这意味着两组对象的实验结果在treatment status上是可比的,因为treatment是唯一的区别所在。

        那么问题来了——怎样找到一个alternative method来实现RCT的思想呢?

       本文采用的是因果推理中的匹配算法(Matching Procedure)。这里要介绍一个概念叫混杂变量(confounder),它是影响treatment或outcome(包括同时影响)的变量(类似于计量经济学中的协变量&#x

这篇关于【论文解读 WWW2019】|基于开放数据的因果推断:社区环境特征如何影响居民健康?的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/519808

相关文章

Python将大量遥感数据的值缩放指定倍数的方法(推荐)

《Python将大量遥感数据的值缩放指定倍数的方法(推荐)》本文介绍基于Python中的gdal模块,批量读取大量多波段遥感影像文件,分别对各波段数据加以数值处理,并将所得处理后数据保存为新的遥感影像... 本文介绍基于python中的gdal模块,批量读取大量多波段遥感影像文件,分别对各波段数据加以数值处

使用MongoDB进行数据存储的操作流程

《使用MongoDB进行数据存储的操作流程》在现代应用开发中,数据存储是一个至关重要的部分,随着数据量的增大和复杂性的增加,传统的关系型数据库有时难以应对高并发和大数据量的处理需求,MongoDB作为... 目录什么是MongoDB?MongoDB的优势使用MongoDB进行数据存储1. 安装MongoDB

MySQL中时区参数time_zone解读

《MySQL中时区参数time_zone解读》MySQL时区参数time_zone用于控制系统函数和字段的DEFAULTCURRENT_TIMESTAMP属性,修改时区可能会影响timestamp类型... 目录前言1.时区参数影响2.如何设置3.字段类型选择总结前言mysql 时区参数 time_zon

Python MySQL如何通过Binlog获取变更记录恢复数据

《PythonMySQL如何通过Binlog获取变更记录恢复数据》本文介绍了如何使用Python和pymysqlreplication库通过MySQL的二进制日志(Binlog)获取数据库的变更记录... 目录python mysql通过Binlog获取变更记录恢复数据1.安装pymysqlreplicat

Linux使用dd命令来复制和转换数据的操作方法

《Linux使用dd命令来复制和转换数据的操作方法》Linux中的dd命令是一个功能强大的数据复制和转换实用程序,它以较低级别运行,通常用于创建可启动的USB驱动器、克隆磁盘和生成随机数据等任务,本文... 目录简介功能和能力语法常用选项示例用法基础用法创建可启动www.chinasem.cn的 USB 驱动

Oracle数据库使用 listagg去重删除重复数据的方法汇总

《Oracle数据库使用listagg去重删除重复数据的方法汇总》文章介绍了在Oracle数据库中使用LISTAGG和XMLAGG函数进行字符串聚合并去重的方法,包括去重聚合、使用XML解析和CLO... 目录案例表第一种:使用wm_concat() + distinct去重聚合第二种:使用listagg,

Java中的Opencv简介与开发环境部署方法

《Java中的Opencv简介与开发环境部署方法》OpenCV是一个开源的计算机视觉和图像处理库,提供了丰富的图像处理算法和工具,它支持多种图像处理和计算机视觉算法,可以用于物体识别与跟踪、图像分割与... 目录1.Opencv简介Opencv的应用2.Java使用OpenCV进行图像操作opencv安装j

Python实现将实体类列表数据导出到Excel文件

《Python实现将实体类列表数据导出到Excel文件》在数据处理和报告生成中,将实体类的列表数据导出到Excel文件是一项常见任务,Python提供了多种库来实现这一目标,下面就来跟随小编一起学习一... 目录一、环境准备二、定义实体类三、创建实体类列表四、将实体类列表转换为DataFrame五、导出Da

Python实现数据清洗的18种方法

《Python实现数据清洗的18种方法》本文主要介绍了Python实现数据清洗的18种方法,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学... 目录1. 去除字符串两边空格2. 转换数据类型3. 大小写转换4. 移除列表中的重复元素5. 快速统

Python数据处理之导入导出Excel数据方式

《Python数据处理之导入导出Excel数据方式》Python是Excel数据处理的绝佳工具,通过Pandas和Openpyxl等库可以实现数据的导入、导出和自动化处理,从基础的数据读取和清洗到复杂... 目录python导入导出Excel数据开启数据之旅:为什么Python是Excel数据处理的最佳拍档