学术前沿 |超越预测：用大数据做政策分析

本文主要是介绍学术前沿 |超越预测：用大数据做政策分析，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

超越预测：用大数据做政策分析

Susan Athey

作者介绍：Susan Carleton Athey出生于1970年11月29日，是美国著名的经济学家。她是斯坦福大学商学院的技术经济学教授。在加入斯坦福大学之前，她曾是哈佛大学的教授。她是约翰·贝茨·克拉克奖的第一位女性获得者。目前，她是微软的长期顾问，同时也是微软研究院的咨询研究员。

施丹燕译 2018年7月19日

杨奇明校 2018年7月19日

摘要：机器学习的预测方法被有效应用于从医学到城市中消防和卫生检查员的分配等多个领域。然而，在预测和决策之间仍存在不少差距，为了优化数据驱动（data-driven）的决策，需要理解机器学习预测方法的潜在假设。

机器学习的广泛应用

近期，在科学、工业和政府领域的一类分析研究呈爆炸式增长，它们试图将大数据用于解决各种问题。大数据的应用越来越多地采用来自监督机器学习（SML）工具箱中的方法。监督机器学习中的软件程序通过输入训练数据集来估计或“学习”参数，并在新数据中将其用于预测。在描述SML在临床医学领域中的潜力时，Obermeyer等(2016)评论说，"机器学习通过研究数据规律来解决问题的过程与医生诊断治疗的过程非常相似。类似于医生诊断从观察患者开始，机器学习首先基于某些算法从海量的数据变量中，筛选并寻找能够可靠预测结果的变量组合。机器学习的亮点在于处理大量的预测值（preditor），有时候预测值会显著多于观测值（observations），并以非线性和高度交互的方式对它们进行组合。"

SML技术主要源于计算机科学与工程，并广泛应用于搜索引擎和图像分类等工程应用中。最近，在计算机科学与工程以外，SML技术在解决科学和政策问题中的应用愈加广泛。在公共部门，SML模型被引入刑事司法当中（如Berk R., 2012）；使用粒度级别上的移动数据、卫星图和谷歌街景来预测经济状况（Naik N.等，2016；Blumenstock J.等，2015；Engstrom R.等，2016）；城市中消防和卫生检查员的配置( Glaeser E.等，2016)以及一些其他的城市治理的应用(Glaeser E.等，2015)。这项技术还被用来对文本的政治偏见（Grimmer J.等，2013）或评论情绪（sentiment of reviews）（Kang J.等，2013）进行归类。在医学领域，基于SML的预测算法已经在医院中展开应用。根据对患者并发症风险的预测来对病人的药物干预进行优先级排序（Bayati M.等，2014），以及包括个性化医疗在内的各种其他医学应用（Obermeyer Z.等，2016）。

SML方法的快速传播可部分归因于数据的可得性、计算技术与资源，数据分析技术和开源软件等方面的进步。另一个因素是（该技术被设计用来解决的）问题本身的简洁性（simplicity）。只需要对现有的预测技术做出很少的假设：环境必须是稳定的；并且用于研究其行为的单位（units）之间不应相互作用或“干扰”。在许多应用中，数据科学·家应用技术解决问题，无需基于对问题本身的了解。例如，Kaggle公司主持预测竞赛（www.kaggle.com/competitions），由赞助商提供数据集，世界各地的参赛者均可提交参赛作品。尽管对相关问题的背景知之甚少，但参赛者仍能成功预测。

机器学习用于政策效应推断的局限性

然而，目前对SML这种纯预测方法的局限性关注还很少。在不了解基本假设或未确保满足稳定性等条件的情况下使用SML应用程序，所得结论的有效性和可用性将会受到影响。一个更深层次的问题是，是否可以仅使用预测技术来解决给定问题，或者能否采用统计方法来估计干预的因果效应。

机器学习直接用于政策分析的“坏例子”

例1：稀缺公共医疗资源配置

Kleinberg等人（2015）强调了一种情况，即现有的SML技术可以部分但并不能完全地解决卫生政策中的资源分配问题。在考虑那些符合条件的患者是否应该通过医疗保险进行髋关节置换手术的问题上，他们使用SML来预测进行髋关节替换的患者在一年内死于其他原因的可能性，认为风险特别高的患者不应该接受髋关节替换手术。他们认为，“效益随时间而累积。人只有活得足够长久以享受手术所带来的益处，手术才具有意义。对于那些很快就会死亡的人来说，进行髋关节替换手术是徒劳无功的——在生命的最后几个月浪费金钱并强加不必要的痛苦”（p.493)。在这类问题中，关注预测的理由是明确的；在某些情况下（如果患者很快就会死亡），干预的平均效果是负的，那么预测到这种情况就足以决定放弃手术。然而，作者强调了这样一个事实：纯预测方法无法回答更复杂的问题，即在可能存活一年以上的患者中，哪些患者应该最优先接受手术。完整的资源分配问题需要估计手术效果的异质性，例如，因为一些患者的手术并发症发生率可能高于其他患者。一个更难的问题是，如何合理分配稀缺资源（髋关节置换手术），才能使手术对患者的效用到达最大化。

例2：客户流失干预

另一个利用SML解决资源配置问题的例子是，公司通常使用SML来预测客户“流失”的概率。客户可能会放弃该家公司或其服务而流失。公司则需针对这些存在最高流失风险的客户，采取各种干预措施（例如销售人员的推广）以挽留客户。Ascarza（2016）记录了遵循此类实践的公司，然后使用来自因果推理文献中的方法来提供经验证据，表明根据简单的预测模型分配资源不是最优的。流失风险最高的群体与对干预措施反应最大的群体之间的重叠率仅为50％。因此，仅采用这种预测的方法来解决挽留客户的问题，将会给公司带来较低的回报。

例3：城市公共服务资源的配置

一个城市应该如何配置建筑检查员才能最大限度地减少安全和健康违规问题，是公共部门资源分配的一个问题。纽约市的火灾预测算法主要根据在消防检查时发现违规行为的预测概率来分配消防检查员。Glaeser等（2016）开发并实施了一个类似的系统，用于向波士顿的餐馆分配卫生检查员。初步估测发现，每次检查发现违规行为的数量都会增加30％至50％。

如果以下简化假设成立，那么如何最佳分配检查员的决策问题将完全符合预期：（1）被检查的各个机构的行为是固定的; （2）当问题被识别时，可以立即以较低的成本固定它们，而不会因单位而异。知道哪些机构更容易发生违规行为相当于知道了应该检查哪些机构。但是，一个更为现实的情形下需要考虑不同单位的异质性：由于布线老旧的原因，某些建筑物可能具有更高的火灾风险。但是出于其他因素的考虑，更换布线可能非常困难。而其他建筑尽管可能具有更低的火灾预测风险，但对其进行布线的改进可能更为容易且成本低廉。另一个考虑是响应（responsiveness）。如果对违规行为进行罚款，一些公司可能对罚款更为敏感。总体而言，解决城市的检查员分配问题涉及到对检查政策因果效应的估计：在新的检查员分配制度下，城市单位（如食物中毒率）整体质量的预期改进是什么？

预测 ≠ 因果效应分析

因此，尽管密切相关，但预测和因果推断是不同的问题。除随机实验之外，只有当分析师在预测方法所需假设的基础上做出额外的假设时，才有可能进行因果推断。这些假设通常不能直接检验，因此需要该领域的专业知识来验证。大量跨学科（社会科学，计算机科学，医学，统计学，流行病学和工程学）的因果推断文献已经出现，以分析这类问题[参见Imbens和Rubin（2015）的综述]。使用非随机实验产生的数据来估计因果效应的一种方法是调整导致过去差异检查概率的因素，然后估计检查对餐馆特定卫生结果的影响（或可采用审核的方式）。最近方法论的推进集中于调整大数据应用中观察到的混杂因素（observed confounders）[如（Dudık M.等，2011；Belloni A.等，2014；Athey S.等，2016]。该文献的中心思想是，现有的SML预测方法会导致因果效应的有偏估计，但通过对SML技术的修正，可以实现对因果效应的一致且有效的估计。

估计因果效应的另一种方法是利用设计的实验。Blake等（Blake T.等，2015）使用基于城市的双重差分法（在一组随机选择的“干预（treatment）”城市实施新政策，同时通过测度一组“控制”城市的结果来控制时间趋势）以评估搜索广告对eBay的因果效应。和许多搜索广告客户一样，eBay依靠历史数据来衡量搜索广告的好处，但它并没有将相关性与因果关系分开。相反，eBay通过一个简单的预测模型来衡量广告的效果。用广告点击量来预测销售额，并在此基础上发现广告点击的投资回报率（eBay因点击而增加的销售额与其广告点击费用的比率）大约为1400%。作者发现，如果使用实验数据来衡量广告的因果效应，则真正的投资回报率为-63％。纯理论分析和实验分析之间的差距，一部分是因为许多点击eBay搜索广告的人本来就会从eBay上购买物品，而非受搜索广告的影响。因此，尽管通过eBay的点击量可以很好地预测销售（消费者通常在点击后立即购买），但无法完全展示其与销售之间的因果效应。

不仅是资源配置的问题，纯预测方法和因果推断之间的区别已成为数十年来许多学科方法论和实证研究的主题。经济学特别关注这种区别。或许因为一些最基本的经济问题，如消费者需求如何随价格而变化，无法用纯粹的预测模型来回答。例如，消费者在不同（假设的）价格水平下购买多少产品？虽然使用现有的SML预测方法，将价格水平作为解释“特征（feature）”来预测“售出数量”似乎很简单。但在实践中，如果将这种方法用于估计价格对销售数量的因果影响，则会严重失败。假设分析师拥有酒店价格和入住率的历史数据。通常情况下，价格和入住率是正相关的。因为酒店的现有定价政策（一般通过收益管理软件制定）规定酒店在预订率高时提高价格。现有的基于SML技术的应用程序旨在回答如下相似问题：已知某天的价格异常之高，那么那天的入住率预期是多少？正确答案是入住率可能很高。相比之下，定价政策修改所带来的影响是一个因果问题。经验表明，如果公司实施了一项新政策，例如在各地系统性地将价格提高5％，那么酒店客房的出售量将不会增加。因此，需要一套不同的统计方法来回答这个问题。或许我们可以利用数据中的“自然实验”或“工具变量”的方法[参见（Imbens G.和Rubin D.，2015）关于这项技术的综述]来解决。最近，一些学者将SML与传统的“小数据”方法结合起来，既可用于估计平均因果效应（Belloni A.等，2012），也可用于个体化因果效应的估计（Athey S.等，2016）。

其他局限性

除了预测和因果推断之间的区别之外，纯预测方法无法考虑到那些在数据驱动政策分析或资源分配中可能发挥重要作用的其他因素。例如，激励和可操作性是很重要的。如果建筑物或餐馆老板预计因为他们的一些特征导致被检查到的可能性很低，他或她可能会减少相应的安全措施。

一些例子中可操作性在数据驱动策略分析中发挥重要作用。举例来说，不列颠哥伦比亚的市场定价系统（MPS）被用于设定从长期租赁给木材公司的政府土地上采伐木材的价格。MPS使用拍卖中出售的木材数据建立预测模型，来预测长期土地租赁的价格，并以此替代直接出售土地所能获得的售价。然而，租赁人可能有动机在拍卖中人为地低价竞标，以影响长期租赁下收获木材的预测价格，从而降低长期租赁成本。作为模型选择过程的一部分，MPS的预测模型需要进行模拟，以评估每一家大型木材公司的可操作性（Athey S.等，2002）。实施的模型并不是具备最佳预测能力的那个模型，目的是为了实现足够稳健的可操作性。

在实践中使用统计模型时，还有其他一些因素需要考虑。有时决策者需要了解所做决定的具体原因，有时决策者可能仅凭经验来提交决策（例如，医生）。出于透明度和可解释性因素的考虑，分析师可能会牺牲预测能力，转而采用更加简单的模型。另一个考虑因素是公平和歧视。美国的贷款消费者保护法禁止种族歧视。公司可能希望使用SML方法在求职者中进行选择。但他们可能希望在算法中纳入多样性目标，或者至少防止因性别或种族而产生的不公平现象。最近，这些问题在关于SML的文献中受到广泛关注（如，Kamishima T.等，2012）。

结论

总的来说，要使大数据在商业、科学和政策中发挥其全部潜力，需要建立多学科交叉的研究方法。这些方法不仅需要建立在SML文献中的新计算算法的基础之上，同时也要借鉴那些十几年来运用经验证据为政策提供信息的其他多学科研究方法。例如，2016年国际机器学习大会（ICML）举办了关于SML方法的因果推理、可解释性和可靠性的单独研讨会。而谷歌（Scott S.，2015），Facebook（Bakshy E.等，2014）和微软（Agarwal A.等，2016）的多学科研究团队则提供了具有可扩展算法的可用工具包，用于因果推理、实验设计和估计最优资源分配策略。随着SML和其他学科的进一步交叉结合，大数据将越来越多地被应用于解决现实世界的政策问题。我们预计，用于制定数据驱动政策的方法论的进步和成功应用也将迎来重大机遇。

参考文献

Z. Obermeyer, E. J. Emanuel, N. Engl. J. Med. 375, 1216–1219 (2016).

R. Berk, Criminal Justice Forecasts of Risk: A Machine Learning Approach (Springer Briefs in Computer Science, 2012).

N. Naik, R. Raskar, C. A. Hidalgo, Am. Econ. Rev. 106, 128–132 (2016).

J. Blumenstock, G. Cadamuro, R. On, Science 350, 1073–1076 (2015).

R. Engstrom, J. Hersh, D. Newhouse, “Poverty in HD: What Does High Resolution Satellite Imagery Reveal about Economic Welfare?” (2016).

E. L. Glaeser, A. Hillis, S. D. Kominers, M. Luca, Am. Econ. Rev. 106, 114 –118 (2016).

E. L. Glaeser, S. D. Kominers, M. Luca, N. Naik, Big data and big cities: The promises and limitations of improved measures of urban life (Technical Report, National Bureau of Economic Research, 2015).

J. Grimmer, B. M. Stewart, Polit. Anal. 21, 267 –297 (2013).

J. S. Kang, P. Kuznetsova, M. Luca, Y. Choi, in Proceedings of the 2013 Conference on Empirical Methods in Natural Language Processing (Association for Computational Linguistics, 2013), pp. 1443–1448.

M. Bayati et al., PLOS ONE 9, e109264 (2014).

J. Kleinberg, J. Ludwig, S. Mullainathan, Z. Obermeyer, Am. Econ. Rev. 105, 491–495 (2015).

E. Ascarza, Retention futility: Targeting high risk customers might be ineffective (2016); available at SSRN.

G. W. Imbens, D. B. Rubin, Causal Inference in Statistics, Social, and Biomedical Sciences (Cambridge Univ. Press, 2015).

M. Dudık, J. Langford, L. Li, inProceedings of the 28th International Conference on Machine Learning (ICML, 2011), pp. 1097–1104.

A. Belloni, V. Chernozhukov, C. Hansen, Rev. Econ. Stud. 81, 608–650 (2014).

S. Athey, G. Imbens, S. Wager, Approximate residual balancing: De-biased inference of average treatment effects in high dimensions; https://arxiv.org/abs/1604.07125 (2016).

T. Blake, C. Nosko, S. Tadelis, Econometrica 83, 155–174 (2015).

A. Belloni, D. Chen, V. Chernozhukov, C. Hansen, Econometrica 80, 2369–2429 (2012).

S. Athey, J. Tibshirani, S. Wager, Solving heterogeneous estimating equations with gradient forests; https://arxiv.org/ abs/1610.01271 (2016).

S. Athey, P. Cramton, A. Ingraham, Auction based timber pricing and complementary market reforms in British Columbia, White Paper; ftp://www.cramton.umd.edu/ papers2000-2004/ (2002).

T. Kamishima et al., “Fairness-aware classifier with prejudice remover regularizer,” Joint European Conference on Machine Learning and Knowledge Discovery in Databases (Springer, 2012).

S. L. Scott, Appl. Stochastic Models Data Anal. 31, 37 –45 (2015).

E. Bakshy, D. Eckles, M. S. Bernstein, “Designing and deploying online field experiments,” Proceedings of the 23rd International Conference on World Wide Web (Association for Computing Machinery, 2014).