相关性和因果性:周扒皮原来是大数据应用的先驱者

2023-10-09 08:50

本文主要是介绍相关性和因果性:周扒皮原来是大数据应用的先驱者,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!


0?wx_fmt=gif

在大数据时代,相关关系似乎替代了因果关系。然而世界具有复杂性,大数据时代世界似乎被数据统治,是混沌的。


相关关系是指当一个数据变化时,另一个数据也可能随之变化,不论是这两个数据也没有必然联系。相关关系有可能是正相关也有可能是负相关,有可能是强相关也有可能是弱相关。


因果关系是指当一个作为原因的数据变化时,另一个作为结果的数据在一定程度发生变化,这两个数据存在着必然联系。因果关系可能是线性关系,也可能是非线性关系。


大数据来了,相关性的凸显,使我们看到了以前不曾注意的联系,掌握了以前很难理解的复杂系统。通过相关性的研究,可以帮助企业赚钱,帮助政府决策就够了,不要讲究“为什么”,至于因果关系就让科学家们慢慢琢磨去吧。


相关性倒不是什么新鲜话题,于是乎我想起了地主周扒皮。上世纪四十年代,中国农村某地有个地主叫周扒皮,他雇佣了几个长工为他种地,周扒皮不可能懂得相关关系和因果关系,但他很狡猾,他悟出了两个现象之间的联系,公鸡一叫,太阳不久就会升起。旧时中国农民有个习惯,日出而作,日落而息。于是,每天半夜他到鸡窝旁学鸡叫,引得鸡窝里的公鸡一起打鸣,然后周扒皮到长工屋大喊:鸡都叫了,快下地干活。


显然,公鸡叫,太阳升这两个事儿之间并没有什么因果关系,他们之间仅仅是相关关系,因为不能认为公鸡叫是太阳升的原因,太阳升是公鸡叫的结果。如果把天下的公鸡都杀了,太阳从此不升起来了,因果关系才能得到验证。但周扒皮利用相关关系延长了长工的劳动时间,达到了剥削的目的。


0?wx_fmt=jpeg


古时候没有天气预报,人们往往根据蛙鸣预测有没有雨,但雨水不应是蛤蟆叫出来的。地震前动物往往有异常表现,但地震不应是阿猫阿狗闹出来的。但是了解这些现象之间的相关关系往往有用处。


有些学者用世界的复杂性解释大数据复杂性,认为这个世界是混乱的,世界上大多数发生的事是碰巧出现的,完全不受定律和因果性的支配,但这个世界又是数据的,混乱性只有使用大数据才能进行说明。这些观点又用蝴蝶效应进行了说明。据说地球一端更多一只蝴蝶煽动了一下翅膀能引起地球另一端一场暴风雨,并将这一现象引人复杂性科学,是指在一个动力系统中,初始条件下微小的变化能带动整个系统长期巨大的连锁反映。我们不怀疑复杂适应系统理论的科学性,但实在无法验证中国哪一场暴风雨是由美国的哪一只蝴蝶的翅膀引发的,更无法分析其相关性。


科学研究的现象都是可重复的,重复考研在实验室中复制,也可以在现实世界中产生。蝴蝶翅膀和暴风雨的关系显然不能在实验室中实验,但我们也无法在现实世界中取得它们相关性的数据。我奶奶和我讲过她父亲的故事,有一天我奶奶的父亲在祖坟里看到了一只狐狸,第二年我奶奶的父亲便娶了一个美如妖的媳妇,就是我奶奶的母亲,但这种事情以后再也没有发生过,不能重复。千年一现的事物只能是传说,不是科学研究的对象。实验室中的实验结果每一次都会有差异,我们通过统计平均,在变化中研究规律,因而千年不变的事物也不是科学研究的对象。现实世界产生的大数据在一定条件下是可以重复和多变的,给科学研究提供了基本条件,也对科学研究提出了新的挑战。


几千年来,探讨事物之间的因果关系是理、工、农、医、文几乎所有科学研究的重要目的。相关性和因果性是哲学问题,哲学家、数学家、统计学家、物理学家、医学家、经济学家大都将寻找自身研究领域中的因果关系当做一生的追求。古希腊哲学家说:“我宁肯找到一个因果关系的说明,不愿获得一个波斯王位。”千百年,虽然哲学家思辩方式已深入人心,老百姓还是相信事出有因,宗教人士宣传因果报应。


在研究相关关系和因果关系方面,统计学做出了巨大贡献。统计学提出了相关系数,通过计算相关系数判断事物之间的相关关系,对相关系数教学统计检验,若通过检验,证明事物之间的相关程度高,便可以进一步做回归分析。在计算相关系数时,首先要通过理论研究和定性分析筛选变量,对有内在联系的数据做相关分析。与大数据思维不同,统计学认为公鸡叫与太阳升、蛙鸣与下雨,它们之间没有内在联系,即无因果关系,属于虚假相关,尽管相关系数可能很高,也没有做回归分析的必要了。


在回归分析中,设xi为自变量,设yi为因变量,统计学的研究几乎穷尽了因果关系的所有可能。对一因一果的现象,可以建立一元回归模型;对多因一果的现象,可以建立多元回归模型;对一因多果的现象,可以建立路径分析等模型;对多因多果的现象,可以建立联立方程等模型。


显然,回归模型比相关系数进了一步,它可以解释数据之间作用机制和作用的大小。但回归模型即使通过了各种统计检验,也可能只在一定程度上说明事物之间的因果关系。模型的自变量不一定是原因,因变量不一定是结果。Xi与yi之间的因果关系是否成立,还要由统计学所应用领域的专家来判断,如经济学家、管理学家、生物学家、医学家等,并大量的实践得到检验。统计模型只能说包含真正因果关系的可能性较大,二真值在哪里?上帝知道。


大数据可理解为大而复杂的数据,具有异母体、噪音累积、虚假相关、内生性、时变性等,我们几乎被数据包围。在这种数据环境下,寻找数据之间因果关系非常困难,也有观点认为在大数据时代,探索因果关系几乎不可能,因而因果关系消失了,相关关系替代了因果关系。但我们也应看到,在大数据环境下,做相关性的研究也非常困难,几十万个样本规模,几十万个维度,甚至更多,怎么计算相关系数?如果不用相关系数,用什么方法?


相关关系是比因果关系更宽泛的概念,事物之间有相关关系不一定存在因果关系,有因果关系必定有相关关系。相关分析是因果分析的基础,因果分析是相关分析的深化。大数据的相关关系不仅没有替代因果关系,反而给因果关系的研究提供了更广泛的发展空间。


医疗大数据、药物研发大数据、基因大数据给精准医疗、药物研究等领域带来一切变革,但仅靠相关关系很难找到病因,无法对症下药,药物的研发也很难针对各种病症,当然也不需要建立起因果模型后再实践。阿司匹林是治疗感冒的药,后来人们发现这种药对预防心脑血管疾病有疗效,经过大量临床,发现阿司匹林对预防心脑血管疾病疗效显著,有相关关系。而后,对阿司匹林进行药理分析,才发现阿司匹林中含有治疗心脑血管疾病的药物成分,建立了因果关系。


那么我们期望大数据引来因果分析的一场革命吧。

 原文发布时间为:2016-12-03


本文来自云栖社区合作伙伴“大数据文摘”,了解相关信息可以关注“BigDataDigest”微信公众号

这篇关于相关性和因果性:周扒皮原来是大数据应用的先驱者的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/171710

相关文章

大模型研发全揭秘:客服工单数据标注的完整攻略

在人工智能(AI)领域,数据标注是模型训练过程中至关重要的一步。无论你是新手还是有经验的从业者,掌握数据标注的技术细节和常见问题的解决方案都能为你的AI项目增添不少价值。在电信运营商的客服系统中,工单数据是客户问题和解决方案的重要记录。通过对这些工单数据进行有效标注,不仅能够帮助提升客服自动化系统的智能化水平,还能优化客户服务流程,提高客户满意度。本文将详细介绍如何在电信运营商客服工单的背景下进行

基于MySQL Binlog的Elasticsearch数据同步实践

一、为什么要做 随着马蜂窝的逐渐发展,我们的业务数据越来越多,单纯使用 MySQL 已经不能满足我们的数据查询需求,例如对于商品、订单等数据的多维度检索。 使用 Elasticsearch 存储业务数据可以很好的解决我们业务中的搜索需求。而数据进行异构存储后,随之而来的就是数据同步的问题。 二、现有方法及问题 对于数据同步,我们目前的解决方案是建立数据中间表。把需要检索的业务数据,统一放到一张M

关于数据埋点,你需要了解这些基本知识

产品汪每天都在和数据打交道,你知道数据来自哪里吗? 移动app端内的用户行为数据大多来自埋点,了解一些埋点知识,能和数据分析师、技术侃大山,参与到前期的数据采集,更重要是让最终的埋点数据能为我所用,否则可怜巴巴等上几个月是常有的事。   埋点类型 根据埋点方式,可以区分为: 手动埋点半自动埋点全自动埋点 秉承“任何事物都有两面性”的道理:自动程度高的,能解决通用统计,便于统一化管理,但个性化定

中文分词jieba库的使用与实景应用(一)

知识星球:https://articles.zsxq.com/id_fxvgc803qmr2.html 目录 一.定义: 精确模式(默认模式): 全模式: 搜索引擎模式: paddle 模式(基于深度学习的分词模式): 二 自定义词典 三.文本解析   调整词出现的频率 四. 关键词提取 A. 基于TF-IDF算法的关键词提取 B. 基于TextRank算法的关键词提取

水位雨量在线监测系统概述及应用介绍

在当今社会,随着科技的飞速发展,各种智能监测系统已成为保障公共安全、促进资源管理和环境保护的重要工具。其中,水位雨量在线监测系统作为自然灾害预警、水资源管理及水利工程运行的关键技术,其重要性不言而喻。 一、水位雨量在线监测系统的基本原理 水位雨量在线监测系统主要由数据采集单元、数据传输网络、数据处理中心及用户终端四大部分构成,形成了一个完整的闭环系统。 数据采集单元:这是系统的“眼睛”,

使用SecondaryNameNode恢复NameNode的数据

1)需求: NameNode进程挂了并且存储的数据也丢失了,如何恢复NameNode 此种方式恢复的数据可能存在小部分数据的丢失。 2)故障模拟 (1)kill -9 NameNode进程 [lytfly@hadoop102 current]$ kill -9 19886 (2)删除NameNode存储的数据(/opt/module/hadoop-3.1.4/data/tmp/dfs/na

异构存储(冷热数据分离)

异构存储主要解决不同的数据,存储在不同类型的硬盘中,达到最佳性能的问题。 异构存储Shell操作 (1)查看当前有哪些存储策略可以用 [lytfly@hadoop102 hadoop-3.1.4]$ hdfs storagepolicies -listPolicies (2)为指定路径(数据存储目录)设置指定的存储策略 hdfs storagepolicies -setStoragePo

Hadoop集群数据均衡之磁盘间数据均衡

生产环境,由于硬盘空间不足,往往需要增加一块硬盘。刚加载的硬盘没有数据时,可以执行磁盘数据均衡命令。(Hadoop3.x新特性) plan后面带的节点的名字必须是已经存在的,并且是需要均衡的节点。 如果节点不存在,会报如下错误: 如果节点只有一个硬盘的话,不会创建均衡计划: (1)生成均衡计划 hdfs diskbalancer -plan hadoop102 (2)执行均衡计划 hd

csu 1446 Problem J Modified LCS (扩展欧几里得算法的简单应用)

这是一道扩展欧几里得算法的简单应用题,这题是在湖南多校训练赛中队友ac的一道题,在比赛之后请教了队友,然后自己把它a掉 这也是自己独自做扩展欧几里得算法的题目 题意:把题意转变下就变成了:求d1*x - d2*y = f2 - f1的解,很明显用exgcd来解 下面介绍一下exgcd的一些知识点:求ax + by = c的解 一、首先求ax + by = gcd(a,b)的解 这个

hdu1394(线段树点更新的应用)

题意:求一个序列经过一定的操作得到的序列的最小逆序数 这题会用到逆序数的一个性质,在0到n-1这些数字组成的乱序排列,将第一个数字A移到最后一位,得到的逆序数为res-a+(n-a-1) 知道上面的知识点后,可以用暴力来解 代码如下: #include<iostream>#include<algorithm>#include<cstring>#include<stack>#in