TED演讲 | 数据滥用时代,3招教你辨别身边不靠谱数据

2023-11-05 21:30

本文主要是介绍TED演讲 | 数据滥用时代,3招教你辨别身边不靠谱数据,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!


0?wx_fmt=jpeg

生活中,我们随处可见各种各样的数据——广告、新闻、公司会议、工作汇报中比比皆是,甚至算命和星座,也开始用数据来证明自己的真实性。

越来越多的数据引用,一方面证明更多的行业与个人开始关注并运用统计,另一方面,也可能会让人迷失在错综纷杂的数据中。

那么,对于众多对数据有兴趣,但非专业出身、不需要太深度复杂学习相关知识的小伙伴来说,到底如何分辨数据真假?今天我们推送的视频《TED演讲 | 数据滥用时代,3招教你辨别身边不靠谱数据》,或许可以给大家带来一些启发。

开篇,Mona谈到,对待统计,我们要保持客观而开放的态度,不盲目接受或者排斥。随后,她展示了3个基础的问题,以便大家可以由此识别面前统计数据的优劣——

1.你是否能发现不确定因素?

2.我能在数据中看到自己吗?

3.这些数据是如何收集到的?

在阐述每一个问题时,Mona不仅介绍了许多相关概念,还援引了许多来自生活中的实例,使得枯燥的课本知识变的通俗易懂起来。

今天我要和大家聊聊统计,如果让你感到一丝警惕的话,没事,这很正常,它不会让你变成那种疯狂的阴谋论者,它会让你变得多疑。

当谈论数字的时候,尤其是现在,你确实应该变得多疑一点,但你应该也有能力告诉人们哪些数字是可靠的,哪些是不可靠的。今天我就是要给大家介绍下可以干这些事的一些工具。

我们生活中有太多数据分析,我们应当抛弃盲目的接受,或盲目的拒绝。并且,我们得学些技巧去发现那些坏的统计。

当我在统计部门工作的时候,我们的工作就是统计有多少伊拉克人在战争中,是被迫离乡的、以及他们需要什么?这真的是一项非常重要的工作,但也极其困难。每一天,我们做的决定都会影响到数据的精度。比如我们应该去伊拉克的哪些地区、应该与哪些人进行沟通、应该问哪些问题。

我开始对我们的工作感到失望,因为起初我认为我们做的工作非常有意义,但是能告诉我们真实情况的是伊拉克人,他们却几乎没有机会看到我们的分析,更别提质疑了,使数据更加精确的方式之一——就是让尽可能多的人来质疑。

所以我成为了一名数据记者,我的工作是找到这些数据集,并且将它们分享给公众。

我这儿给你们准备了三个问题,这些问题能够帮助你们把劣质的统计数据识别出来——

第一个问题是:你能发现不确定因素吗?

真正改变了人们和数据的关系的因素之一,甚至包括对于媒体的信任,是政治民意调查的使用。我个人对于政治民意调查有许多不同意见,因为我认为记者的真正作用是报道事实、而不是去预测,尤其是当这些预测能够破坏民主的时候。通过向人们发出这样的信号:“不用费心给那个人投票了、他没有机会的!”

我们先不讨论这个,来看看这样做到底效果如何?

根据英国,意大利,以色列的大选情况,当然,还有最近的美国总统大选,用民调结果来预测选举结果,和用月亮预测医院住院率一样不靠谱!没错,讲真,我是根据一项学术研究的真实数据来画这幅图的。

导致民意调查严重失真的原因有很多,我们社会的多样性非常突出,因此民调专家很难找到真正具有代表性的良好样本,来代表他们进行民调的人群,人们特别不愿意接听民意调查电话,而且,特别令人震惊的是,人们可能会撒谎!但是你在从媒体上获取信息时,可能未必知道这些事情。

我们来看那些图表,看,许多的可视化数据会夸大可信度,事实也确实如此——这些图表能够麻痹我们的大脑,导致我们无法进行批评。当你听到一个统计数据时,你可能会有所怀疑,当数据以图表形式呈现出来时,它看上去就像是某种客观的科学。然而事实并非如此。所以我试图找到一些方式,把这些和大家说明白,向人们展示数据中的不确定性。我的做法就是把真实的数据集——用手绘图的形式展现出来,这样人们就能看到数据是多么的不精确,人们就能够意识到,做这些事情的是人。

有人找到了这些数据并且将它可视化,比如,与其找到在某个月得流感的概率,也许还不如看看这个流感季节大致的分布情况。二月得流感的概率非常高,但是这种数据可视化的形式更加可靠,因为如果你想要显示确切的概率,这可能会导致人们在错误的时间里,接种流感疫苗。这些弯弯曲曲的线旨在让人们记住数据是不准确的,同时,他们也不是非得知道精确的数字,不过他们会记住那些重要的事项。

我们还应该注意一些非常重要的统计学概念,比如平均数。假设 你听到这么一种说法——“美国平均每个游泳池都会有6.32个人在里面便便”。这并不是说 美国的每个游泳池都不多不少有6.23份便便。

所以为了说明这一点,我找到了疾控中心的原始数据,调查范围为47个游泳设施,我花了一整晚来重新分布这些便便。这样一来 你从某种意义上就能看到平均数误导性之大。

你们应该问自己的第二个问题是——我能在数据中看到自己吗?

从某种意义上说 ,这个问题同样也是关于平均数的,人们饱受国家统计数据困扰的部分原因在于他们并没有把赢家和输家的故事原原本本地展示出来。在国家政策的层面上,很容易理解为什么人们对全球平均水平失落不已,因为这些数据不符合他们的个人经历。

并不是每种数据都必须和你扯上点关系,看看你自己对应其中哪种情况。这样做的目的是尽可能多的了解背景。所以我们要从某个数据点上抽身出来。比如失业率是5%,然后看看数据是如何随着时间推移而变化的,或者如何随受教育程度而改变——这就是父母一门心思让你上大学的原因。

或者看看性别对失业率的影响,如今男性失业率高于女性失业率。直到80年代初 它是完全相反的,这是发生在美国社会中具有最大变化之一的故事。一旦你考虑平均值,所有的都在那张图表中了。轴线就是一切。一旦你改变了刻度 你就可以改变这个故事。

好的,所以,我想让你们在看统计数据时考虑的第三个也是最后一个问题是——如何收集数据?

到目前为止我只谈到了数据交流的方式,但收集的方式也同样重要。我知道这很困难,因为方法可能是晦涩难懂的,实际上还会有点无聊,但是有一些简单的步骤 你可以用它们检查一下。

在这里,我将使用最后一个例子,一项调查显示,这个国家中有41%的穆斯林支持圣战,这显然是相当可怕的,并且这在2015年到处都有报道。当我想检查这样的数据时,我会先找到原始问卷。事实证明 那些报道统计数据的记者,忽略了调查中的一个问题——就是问调查对象他们是如何定义“圣战”的?

大多数的穆斯林把它定义为——“穆斯林为了更宗教化而进行个人的、和平的斗争”,只有16%的人把它定义为“对异教徒的暴力圣战”。这是非常重要的一点!根据这些数字,调查中支持圣战的人没有将其定义为暴力圣战是完全可能的!这两个群体可能根本没有重叠!

同样值得一问的是,调查是如何进行的?

这被称为选择性调查,也就是任何人都可以在互联网上找到该调查 并完成它。没有办法知道这些人是否是真正的穆斯林。最后 在该项调查中有600名受访者,根据皮尤研究中心 大约有三百万穆斯林在这个国家。这意味着 在这个国家每5000个穆斯林大概只有1个参与了调查,接受了这项调查。

这是zf统计数据,往往比私人统计数据更好的原因之一,一项民意调查可能面向几百人 也许是一千人。

但是你如何质疑统计数据呢?

你只要继续检查一切,了解他们是如何收集数据的,知道你是否在图表上看到了你需要查看的所有内容,但是不要完全放弃数据 因为如果你放弃了,我们将会在未知中做出公共决策,只有私人利益指导着我们。

原文发布时间为:2017-04-02

本文来自云栖社区合作伙伴“大数据文摘”,了解相关信息可以关注“BigDataDigest”微信公众号

这篇关于TED演讲 | 数据滥用时代,3招教你辨别身边不靠谱数据的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/352631

相关文章

Redis的数据过期策略和数据淘汰策略

《Redis的数据过期策略和数据淘汰策略》本文主要介绍了Redis的数据过期策略和数据淘汰策略,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一... 目录一、数据过期策略1、惰性删除2、定期删除二、数据淘汰策略1、数据淘汰策略概念2、8种数据淘汰策略

轻松上手MYSQL之JSON函数实现高效数据查询与操作

《轻松上手MYSQL之JSON函数实现高效数据查询与操作》:本文主要介绍轻松上手MYSQL之JSON函数实现高效数据查询与操作的相关资料,MySQL提供了多个JSON函数,用于处理和查询JSON数... 目录一、jsON_EXTRACT 提取指定数据二、JSON_UNQUOTE 取消双引号三、JSON_KE

Python给Excel写入数据的四种方法小结

《Python给Excel写入数据的四种方法小结》本文主要介绍了Python给Excel写入数据的四种方法小结,包含openpyxl库、xlsxwriter库、pandas库和win32com库,具有... 目录1. 使用 openpyxl 库2. 使用 xlsxwriter 库3. 使用 pandas 库

SpringBoot定制JSON响应数据的实现

《SpringBoot定制JSON响应数据的实现》本文主要介绍了SpringBoot定制JSON响应数据的实现,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们... 目录前言一、如何使用@jsonView这个注解?二、应用场景三、实战案例注解方式编程方式总结 前言

使用Python在Excel中创建和取消数据分组

《使用Python在Excel中创建和取消数据分组》Excel中的分组是一种通过添加层级结构将相邻行或列组织在一起的功能,当分组完成后,用户可以通过折叠或展开数据组来简化数据视图,这篇博客将介绍如何使... 目录引言使用工具python在Excel中创建行和列分组Python在Excel中创建嵌套分组Pyt

在Rust中要用Struct和Enum组织数据的原因解析

《在Rust中要用Struct和Enum组织数据的原因解析》在Rust中,Struct和Enum是组织数据的核心工具,Struct用于将相关字段封装为单一实体,便于管理和扩展,Enum用于明确定义所有... 目录为什么在Rust中要用Struct和Enum组织数据?一、使用struct组织数据:将相关字段绑

在Mysql环境下对数据进行增删改查的操作方法

《在Mysql环境下对数据进行增删改查的操作方法》本文介绍了在MySQL环境下对数据进行增删改查的基本操作,包括插入数据、修改数据、删除数据、数据查询(基本查询、连接查询、聚合函数查询、子查询)等,并... 目录一、插入数据:二、修改数据:三、删除数据:1、delete from 表名;2、truncate

Java实现Elasticsearch查询当前索引全部数据的完整代码

《Java实现Elasticsearch查询当前索引全部数据的完整代码》:本文主要介绍如何在Java中实现查询Elasticsearch索引中指定条件下的全部数据,通过设置滚动查询参数(scrol... 目录需求背景通常情况Java 实现查询 Elasticsearch 全部数据写在最后需求背景通常情况下

Java中注解与元数据示例详解

《Java中注解与元数据示例详解》Java注解和元数据是编程中重要的概念,用于描述程序元素的属性和用途,:本文主要介绍Java中注解与元数据的相关资料,文中通过代码介绍的非常详细,需要的朋友可以参... 目录一、引言二、元数据的概念2.1 定义2.2 作用三、Java 注解的基础3.1 注解的定义3.2 内

将sqlserver数据迁移到mysql的详细步骤记录

《将sqlserver数据迁移到mysql的详细步骤记录》:本文主要介绍将SQLServer数据迁移到MySQL的步骤,包括导出数据、转换数据格式和导入数据,通过示例和工具说明,帮助大家顺利完成... 目录前言一、导出SQL Server 数据二、转换数据格式为mysql兼容格式三、导入数据到MySQL数据