因果推理“三问”：是什么？为什么需要？如何使用？

本文主要是介绍因果推理“三问”：是什么？为什么需要？如何使用？，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

译者：AI研习社（听风1996）

双语原文链接：Causal Inference: What, Why, and How

作为一名经济学博士，我致力于寻找某些变量之间的因果关系，用来完成我的论文。因果关系强大到可以让人们有足够的信心去做决策、防止损失、求解最优解等。在本文中，我将讨论什么是因果关系，为什么需要发现因果关系，以及进行因果推理的常用技巧。

1. 什么是因果关系？

因果关系描述的是两个变量之间的关系，即一个变量如何诱发另一个变量的发生。它比相关关系要强得多，因为相关关系只是描述两个变量之间的共同运动模式。通过绘制散点图，可以很容易地观察到两个连续变量的相关性。对于分类变量，我们可以绘制柱状图来观察其关系。要知道两个连续变量之间的确切相关性，我们可以使用皮尔逊相关公式。皮尔逊（Pearson）的相关性介于-1和1之间，绝对值越大表示相关性越强。正相关意味着两个变量在同一方向共同运动，反之亦然。

但对于因果关系，要把握的关系就要复杂得多。为了知道变量A是否引起了变量B的发生，即干预A是否引起了结果B，我们需要保持所有其他变量不变，以隔离和量化干预的效果。我们需要控制的其他变量称为混杂变量，即与干预和结果都相关的变量：

有关混淆变量的例子

在上图中，我举了一个混淆变量，其中年龄与戒烟率和致死率都是正相关的。年龄越大，死亡率越高，但吸烟率越低。如果我们在估计吸烟对死亡率的影响时没有控制年龄，我们可能会观察到吸烟会减少死亡率这样荒谬结果。我们不能在这里得出因果关系，因为我们没有控制所有混杂变量。关于这个例子的更多细节，你可以阅读我讨论 "辛普森悖论 "的文章：

所谓的“辛普森悖论”

在得出因果效应的结论时，我们需要记住的另一个因素是选择偏差。为了隔离治疗效果，我们需要确保治疗组单位是在人群中随机选择的。这样，我们在治疗后观察到的差异不是因为其他因素，而是因为治疗。举个例子，当一家超市想估计提供优惠券对提高整体销售额的影响时。如果超市只把优惠券传递给在店里购物的顾客（干预组），发现他们比没有收到优惠券的顾客（对照组）购买了更多的商品，那

这篇关于因果推理“三问”：是什么？为什么需要？如何使用？的文章就介绍到这儿，希望我们推荐的文章对编程师们有所帮助！