TED演讲 | 数据滥用时代,3招教你辨别身边不靠谱数据

2023-11-05 21:30

本文主要是介绍TED演讲 | 数据滥用时代,3招教你辨别身边不靠谱数据,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!


0?wx_fmt=jpeg

生活中,我们随处可见各种各样的数据——广告、新闻、公司会议、工作汇报中比比皆是,甚至算命和星座,也开始用数据来证明自己的真实性。

越来越多的数据引用,一方面证明更多的行业与个人开始关注并运用统计,另一方面,也可能会让人迷失在错综纷杂的数据中。

那么,对于众多对数据有兴趣,但非专业出身、不需要太深度复杂学习相关知识的小伙伴来说,到底如何分辨数据真假?今天我们推送的视频《TED演讲 | 数据滥用时代,3招教你辨别身边不靠谱数据》,或许可以给大家带来一些启发。

开篇,Mona谈到,对待统计,我们要保持客观而开放的态度,不盲目接受或者排斥。随后,她展示了3个基础的问题,以便大家可以由此识别面前统计数据的优劣——

1.你是否能发现不确定因素?

2.我能在数据中看到自己吗?

3.这些数据是如何收集到的?

在阐述每一个问题时,Mona不仅介绍了许多相关概念,还援引了许多来自生活中的实例,使得枯燥的课本知识变的通俗易懂起来。

今天我要和大家聊聊统计,如果让你感到一丝警惕的话,没事,这很正常,它不会让你变成那种疯狂的阴谋论者,它会让你变得多疑。

当谈论数字的时候,尤其是现在,你确实应该变得多疑一点,但你应该也有能力告诉人们哪些数字是可靠的,哪些是不可靠的。今天我就是要给大家介绍下可以干这些事的一些工具。

我们生活中有太多数据分析,我们应当抛弃盲目的接受,或盲目的拒绝。并且,我们得学些技巧去发现那些坏的统计。

当我在统计部门工作的时候,我们的工作就是统计有多少伊拉克人在战争中,是被迫离乡的、以及他们需要什么?这真的是一项非常重要的工作,但也极其困难。每一天,我们做的决定都会影响到数据的精度。比如我们应该去伊拉克的哪些地区、应该与哪些人进行沟通、应该问哪些问题。

我开始对我们的工作感到失望,因为起初我认为我们做的工作非常有意义,但是能告诉我们真实情况的是伊拉克人,他们却几乎没有机会看到我们的分析,更别提质疑了,使数据更加精确的方式之一——就是让尽可能多的人来质疑。

所以我成为了一名数据记者,我的工作是找到这些数据集,并且将它们分享给公众。

我这儿给你们准备了三个问题,这些问题能够帮助你们把劣质的统计数据识别出来——

第一个问题是:你能发现不确定因素吗?

真正改变了人们和数据的关系的因素之一,甚至包括对于媒体的信任,是政治民意调查的使用。我个人对于政治民意调查有许多不同意见,因为我认为记者的真正作用是报道事实、而不是去预测,尤其是当这些预测能够破坏民主的时候。通过向人们发出这样的信号:“不用费心给那个人投票了、他没有机会的!”

我们先不讨论这个,来看看这样做到底效果如何?

根据英国,意大利,以色列的大选情况,当然,还有最近的美国总统大选,用民调结果来预测选举结果,和用月亮预测医院住院率一样不靠谱!没错,讲真,我是根据一项学术研究的真实数据来画这幅图的。

导致民意调查严重失真的原因有很多,我们社会的多样性非常突出,因此民调专家很难找到真正具有代表性的良好样本,来代表他们进行民调的人群,人们特别不愿意接听民意调查电话,而且,特别令人震惊的是,人们可能会撒谎!但是你在从媒体上获取信息时,可能未必知道这些事情。

我们来看那些图表,看,许多的可视化数据会夸大可信度,事实也确实如此——这些图表能够麻痹我们的大脑,导致我们无法进行批评。当你听到一个统计数据时,你可能会有所怀疑,当数据以图表形式呈现出来时,它看上去就像是某种客观的科学。然而事实并非如此。所以我试图找到一些方式,把这些和大家说明白,向人们展示数据中的不确定性。我的做法就是把真实的数据集——用手绘图的形式展现出来,这样人们就能看到数据是多么的不精确,人们就能够意识到,做这些事情的是人。

有人找到了这些数据并且将它可视化,比如,与其找到在某个月得流感的概率,也许还不如看看这个流感季节大致的分布情况。二月得流感的概率非常高,但是这种数据可视化的形式更加可靠,因为如果你想要显示确切的概率,这可能会导致人们在错误的时间里,接种流感疫苗。这些弯弯曲曲的线旨在让人们记住数据是不准确的,同时,他们也不是非得知道精确的数字,不过他们会记住那些重要的事项。

我们还应该注意一些非常重要的统计学概念,比如平均数。假设 你听到这么一种说法——“美国平均每个游泳池都会有6.32个人在里面便便”。这并不是说 美国的每个游泳池都不多不少有6.23份便便。

所以为了说明这一点,我找到了疾控中心的原始数据,调查范围为47个游泳设施,我花了一整晚来重新分布这些便便。这样一来 你从某种意义上就能看到平均数误导性之大。

你们应该问自己的第二个问题是——我能在数据中看到自己吗?

从某种意义上说 ,这个问题同样也是关于平均数的,人们饱受国家统计数据困扰的部分原因在于他们并没有把赢家和输家的故事原原本本地展示出来。在国家政策的层面上,很容易理解为什么人们对全球平均水平失落不已,因为这些数据不符合他们的个人经历。

并不是每种数据都必须和你扯上点关系,看看你自己对应其中哪种情况。这样做的目的是尽可能多的了解背景。所以我们要从某个数据点上抽身出来。比如失业率是5%,然后看看数据是如何随着时间推移而变化的,或者如何随受教育程度而改变——这就是父母一门心思让你上大学的原因。

或者看看性别对失业率的影响,如今男性失业率高于女性失业率。直到80年代初 它是完全相反的,这是发生在美国社会中具有最大变化之一的故事。一旦你考虑平均值,所有的都在那张图表中了。轴线就是一切。一旦你改变了刻度 你就可以改变这个故事。

好的,所以,我想让你们在看统计数据时考虑的第三个也是最后一个问题是——如何收集数据?

到目前为止我只谈到了数据交流的方式,但收集的方式也同样重要。我知道这很困难,因为方法可能是晦涩难懂的,实际上还会有点无聊,但是有一些简单的步骤 你可以用它们检查一下。

在这里,我将使用最后一个例子,一项调查显示,这个国家中有41%的穆斯林支持圣战,这显然是相当可怕的,并且这在2015年到处都有报道。当我想检查这样的数据时,我会先找到原始问卷。事实证明 那些报道统计数据的记者,忽略了调查中的一个问题——就是问调查对象他们是如何定义“圣战”的?

大多数的穆斯林把它定义为——“穆斯林为了更宗教化而进行个人的、和平的斗争”,只有16%的人把它定义为“对异教徒的暴力圣战”。这是非常重要的一点!根据这些数字,调查中支持圣战的人没有将其定义为暴力圣战是完全可能的!这两个群体可能根本没有重叠!

同样值得一问的是,调查是如何进行的?

这被称为选择性调查,也就是任何人都可以在互联网上找到该调查 并完成它。没有办法知道这些人是否是真正的穆斯林。最后 在该项调查中有600名受访者,根据皮尤研究中心 大约有三百万穆斯林在这个国家。这意味着 在这个国家每5000个穆斯林大概只有1个参与了调查,接受了这项调查。

这是zf统计数据,往往比私人统计数据更好的原因之一,一项民意调查可能面向几百人 也许是一千人。

但是你如何质疑统计数据呢?

你只要继续检查一切,了解他们是如何收集数据的,知道你是否在图表上看到了你需要查看的所有内容,但是不要完全放弃数据 因为如果你放弃了,我们将会在未知中做出公共决策,只有私人利益指导着我们。

原文发布时间为:2017-04-02

本文来自云栖社区合作伙伴“大数据文摘”,了解相关信息可以关注“BigDataDigest”微信公众号

这篇关于TED演讲 | 数据滥用时代,3招教你辨别身边不靠谱数据的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/352631

相关文章

MyBatis-Plus通用中等、大量数据分批查询和处理方法

《MyBatis-Plus通用中等、大量数据分批查询和处理方法》文章介绍MyBatis-Plus分页查询处理,通过函数式接口与Lambda表达式实现通用逻辑,方法抽象但功能强大,建议扩展分批处理及流式... 目录函数式接口获取分页数据接口数据处理接口通用逻辑工具类使用方法简单查询自定义查询方法总结函数式接口

SQL中如何添加数据(常见方法及示例)

《SQL中如何添加数据(常见方法及示例)》SQL全称为StructuredQueryLanguage,是一种用于管理关系数据库的标准编程语言,下面给大家介绍SQL中如何添加数据,感兴趣的朋友一起看看吧... 目录在mysql中,有多种方法可以添加数据。以下是一些常见的方法及其示例。1. 使用INSERT I

Python使用vllm处理多模态数据的预处理技巧

《Python使用vllm处理多模态数据的预处理技巧》本文深入探讨了在Python环境下使用vLLM处理多模态数据的预处理技巧,我们将从基础概念出发,详细讲解文本、图像、音频等多模态数据的预处理方法,... 目录1. 背景介绍1.1 目的和范围1.2 预期读者1.3 文档结构概述1.4 术语表1.4.1 核

MySQL 删除数据详解(最新整理)

《MySQL删除数据详解(最新整理)》:本文主要介绍MySQL删除数据的相关知识,本文通过实例代码给大家介绍的非常详细,对大家的学习或工作具有一定的参考借鉴价值,需要的朋友参考下吧... 目录一、前言二、mysql 中的三种删除方式1.DELETE语句✅ 基本语法: 示例:2.TRUNCATE语句✅ 基本语

MyBatisPlus如何优化千万级数据的CRUD

《MyBatisPlus如何优化千万级数据的CRUD》最近负责的一个项目,数据库表量级破千万,每次执行CRUD都像走钢丝,稍有不慎就引起数据库报警,本文就结合这个项目的实战经验,聊聊MyBatisPl... 目录背景一、MyBATis Plus 简介二、千万级数据的挑战三、优化 CRUD 的关键策略1. 查

python实现对数据公钥加密与私钥解密

《python实现对数据公钥加密与私钥解密》这篇文章主要为大家详细介绍了如何使用python实现对数据公钥加密与私钥解密,文中的示例代码讲解详细,感兴趣的小伙伴可以跟随小编一起学习一下... 目录公钥私钥的生成使用公钥加密使用私钥解密公钥私钥的生成这一部分,使用python生成公钥与私钥,然后保存在两个文

mysql中的数据目录用法及说明

《mysql中的数据目录用法及说明》:本文主要介绍mysql中的数据目录用法及说明,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录1、背景2、版本3、数据目录4、总结1、背景安装mysql之后,在安装目录下会有一个data目录,我们创建的数据库、创建的表、插入的

Navicat数据表的数据添加,删除及使用sql完成数据的添加过程

《Navicat数据表的数据添加,删除及使用sql完成数据的添加过程》:本文主要介绍Navicat数据表的数据添加,删除及使用sql完成数据的添加过程,具有很好的参考价值,希望对大家有所帮助,如有... 目录Navicat数据表数据添加,删除及使用sql完成数据添加选中操作的表则出现如下界面,查看左下角从左

SpringBoot中4种数据水平分片策略

《SpringBoot中4种数据水平分片策略》数据水平分片作为一种水平扩展策略,通过将数据分散到多个物理节点上,有效解决了存储容量和性能瓶颈问题,下面小编就来和大家分享4种数据分片策略吧... 目录一、前言二、哈希分片2.1 原理2.2 SpringBoot实现2.3 优缺点分析2.4 适用场景三、范围分片

Redis分片集群、数据读写规则问题小结

《Redis分片集群、数据读写规则问题小结》本文介绍了Redis分片集群的原理,通过数据分片和哈希槽机制解决单机内存限制与写瓶颈问题,实现分布式存储和高并发处理,但存在通信开销大、维护复杂及对事务支持... 目录一、分片集群解android决的问题二、分片集群图解 分片集群特征如何解决的上述问题?(与哨兵模