相关性和因果性：周扒皮原来是大数据应用的先驱者

0?wx_fmt=gif

在大数据时代，相关关系似乎替代了因果关系。然而世界具有复杂性，大数据时代世界似乎被数据统治，是混沌的。

相关关系是指当一个数据变化时，另一个数据也可能随之变化，不论是这两个数据也没有必然联系。相关关系有可能是正相关也有可能是负相关，有可能是强相关也有可能是弱相关。

因果关系是指当一个作为原因的数据变化时，另一个作为结果的数据在一定程度发生变化，这两个数据存在着必然联系。因果关系可能是线性关系，也可能是非线性关系。

大数据来了，相关性的凸显，使我们看到了以前不曾注意的联系，掌握了以前很难理解的复杂系统。通过相关性的研究，可以帮助企业赚钱，帮助政府决策就够了，不要讲究“为什么”，至于因果关系就让科学家们慢慢琢磨去吧。

相关性倒不是什么新鲜话题，于是乎我想起了地主周扒皮。上世纪四十年代，中国农村某地有个地主叫周扒皮，他雇佣了几个长工为他种地，周扒皮不可能懂得相关关系和因果关系，但他很狡猾，他悟出了两个现象之间的联系，公鸡一叫，太阳不久就会升起。旧时中国农民有个习惯，日出而作，日落而息。于是，每天半夜他到鸡窝旁学鸡叫，引得鸡窝里的公鸡一起打鸣，然后周扒皮到长工屋大喊：鸡都叫了，快下地干活。

显然，公鸡叫，太阳升这两个事儿之间并没有什么因果关系，他们之间仅仅是相关关系，因为不能认为公鸡叫是太阳升的原因，太阳升是公鸡叫的结果。如果把天下的公鸡都杀了，太阳从此不升起来了，因果关系才能得到验证。但周扒皮利用相关关系延长了长工的劳动时间，达到了剥削的目的。

0?wx_fmt=jpeg

古时候没有天气预报，人们往往根据蛙鸣预测有没有雨，但雨水不应是蛤蟆叫出来的。地震前动物往往有异常表现，但地震不应是阿猫阿狗闹出来的。但是了解这些现象之间的相关关系往往有用处。

有些学者用世界的复杂性解释大数据复杂性，认为这个世界是混乱的，世界上大多数发生的事是碰巧出现的，完全不受定律和因果性的支配，但这个世界又是数据的，混乱性只有使用大数据才能进行说明。这些观点又用蝴蝶效应进行了说明。据说地球一端更多一只蝴蝶煽动了一下翅膀能引起地球另一端一场暴风雨，并将这一现象引人复杂性科学，是指在一个动力系统中，初始条件下微小的变化能带动整个系统长期巨大的连锁反映。我们不怀疑复杂适应系统理论的科学性，但实在无法验证中国哪一场暴风雨是由美国的哪一只蝴蝶的翅膀引发的，更无法分析其相关性。

科学研究的现象都是可重复的，重复考研在实验室中复制，也可以在现实世界中产生。蝴蝶翅膀和暴风雨的关系显然不能在实验室中实验，但我们也无法在现实世界中取得它们相关性的数据。我奶奶和我讲过她父亲的故事，有一天我奶奶的父亲在祖坟里看到了一只狐狸，第二年我奶奶的父亲便娶了一个美如妖的媳妇，就是我奶奶的母亲，但这种事情以后再也没有发生过，不能重复。千年一现的事物只能是传说，不是科学研究的对象。实验室中的实验结果每一次都会有差异，我们通过统计平均，在变化中研究规律，因而千年不变的事物也不是科学研究的对象。现实世界产生的大数据在一定条件下是可以重复和多变的，给科学研究提供了基本条件，也对科学研究提出了新的挑战。

几千年来，探讨事物之间的因果关系是理、工、农、医、文几乎所有科学研究的重要目的。相关性和因果性是哲学问题，哲学家、数学家、统计学家、物理学家、医学家、经济学家大都将寻找自身研究领域中的因果关系当做一生的追求。古希腊哲学家说：“我宁肯找到一个因果关系的说明，不愿获得一个波斯王位。”千百年，虽然哲学家思辩方式已深入人心，老百姓还是相信事出有因，宗教人士宣传因果报应。

在研究相关关系和因果关系方面，统计学做出了巨大贡献。统计学提出了相关系数，通过计算相关系数判断事物之间的相关关系，对相关系数教学统计检验，若通过检验，证明事物之间的相关程度高，便可以进一步做回归分析。在计算相关系数时，首先要通过理论研究和定性分析筛选变量，对有内在联系的数据做相关分析。与大数据思维不同，统计学认为公鸡叫与太阳升、蛙鸣与下雨，它们之间没有内在联系，即无因果关系，属于虚假相关，尽管相关系数可能很高，也没有做回归分析的必要了。

在回归分析中，设xi为自变量，设yi为因变量，统计学的研究几乎穷尽了因果关系的所有可能。对一因一果的现象，可以建立一元回归模型；对多因一果的现象，可以建立多元回归模型；对一因多果的现象，可以建立路径分析等模型；对多因多果的现象，可以建立联立方程等模型。

显然，回归模型比相关系数进了一步，它可以解释数据之间作用机制和作用的大小。但回归模型即使通过了各种统计检验，也可能只在一定程度上说明事物之间的因果关系。模型的自变量不一定是原因，因变量不一定是结果。Xi与yi之间的因果关系是否成立，还要由统计学所应用领域的专家来判断，如经济学家、管理学家、生物学家、医学家等，并大量的实践得到检验。统计模型只能说包含真正因果关系的可能性较大，二真值在哪里？上帝知道。

大数据可理解为大而复杂的数据，具有异母体、噪音累积、虚假相关、内生性、时变性等，我们几乎被数据包围。在这种数据环境下，寻找数据之间因果关系非常困难，也有观点认为在大数据时代，探索因果关系几乎不可能，因而因果关系消失了，相关关系替代了因果关系。但我们也应看到，在大数据环境下，做相关性的研究也非常困难，几十万个样本规模，几十万个维度，甚至更多，怎么计算相关系数？如果不用相关系数，用什么方法？

相关关系是比因果关系更宽泛的概念，事物之间有相关关系不一定存在因果关系，有因果关系必定有相关关系。相关分析是因果分析的基础，因果分析是相关分析的深化。大数据的相关关系不仅没有替代因果关系，反而给因果关系的研究提供了更广泛的发展空间。

医疗大数据、药物研发大数据、基因大数据给精准医疗、药物研究等领域带来一切变革，但仅靠相关关系很难找到病因，无法对症下药，药物的研发也很难针对各种病症，当然也不需要建立起因果模型后再实践。阿司匹林是治疗感冒的药，后来人们发现这种药对预防心脑血管疾病有疗效，经过大量临床，发现阿司匹林对预防心脑血管疾病疗效显著，有相关关系。而后，对阿司匹林进行药理分析，才发现阿司匹林中含有治疗心脑血管疾病的药物成分，建立了因果关系。

那么我们期望大数据引来因果分析的一场革命吧。

原文发布时间为：2016-12-03

本文来自云栖社区合作伙伴“大数据文摘”，了解相关信息可以关注“BigDataDigest”微信公众号