TED演讲 | 数据滥用时代,3招教你辨别身边不靠谱数据

2023-11-05 21:30

本文主要是介绍TED演讲 | 数据滥用时代,3招教你辨别身边不靠谱数据,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!


0?wx_fmt=jpeg

生活中,我们随处可见各种各样的数据——广告、新闻、公司会议、工作汇报中比比皆是,甚至算命和星座,也开始用数据来证明自己的真实性。

越来越多的数据引用,一方面证明更多的行业与个人开始关注并运用统计,另一方面,也可能会让人迷失在错综纷杂的数据中。

那么,对于众多对数据有兴趣,但非专业出身、不需要太深度复杂学习相关知识的小伙伴来说,到底如何分辨数据真假?今天我们推送的视频《TED演讲 | 数据滥用时代,3招教你辨别身边不靠谱数据》,或许可以给大家带来一些启发。

开篇,Mona谈到,对待统计,我们要保持客观而开放的态度,不盲目接受或者排斥。随后,她展示了3个基础的问题,以便大家可以由此识别面前统计数据的优劣——

1.你是否能发现不确定因素?

2.我能在数据中看到自己吗?

3.这些数据是如何收集到的?

在阐述每一个问题时,Mona不仅介绍了许多相关概念,还援引了许多来自生活中的实例,使得枯燥的课本知识变的通俗易懂起来。

今天我要和大家聊聊统计,如果让你感到一丝警惕的话,没事,这很正常,它不会让你变成那种疯狂的阴谋论者,它会让你变得多疑。

当谈论数字的时候,尤其是现在,你确实应该变得多疑一点,但你应该也有能力告诉人们哪些数字是可靠的,哪些是不可靠的。今天我就是要给大家介绍下可以干这些事的一些工具。

我们生活中有太多数据分析,我们应当抛弃盲目的接受,或盲目的拒绝。并且,我们得学些技巧去发现那些坏的统计。

当我在统计部门工作的时候,我们的工作就是统计有多少伊拉克人在战争中,是被迫离乡的、以及他们需要什么?这真的是一项非常重要的工作,但也极其困难。每一天,我们做的决定都会影响到数据的精度。比如我们应该去伊拉克的哪些地区、应该与哪些人进行沟通、应该问哪些问题。

我开始对我们的工作感到失望,因为起初我认为我们做的工作非常有意义,但是能告诉我们真实情况的是伊拉克人,他们却几乎没有机会看到我们的分析,更别提质疑了,使数据更加精确的方式之一——就是让尽可能多的人来质疑。

所以我成为了一名数据记者,我的工作是找到这些数据集,并且将它们分享给公众。

我这儿给你们准备了三个问题,这些问题能够帮助你们把劣质的统计数据识别出来——

第一个问题是:你能发现不确定因素吗?

真正改变了人们和数据的关系的因素之一,甚至包括对于媒体的信任,是政治民意调查的使用。我个人对于政治民意调查有许多不同意见,因为我认为记者的真正作用是报道事实、而不是去预测,尤其是当这些预测能够破坏民主的时候。通过向人们发出这样的信号:“不用费心给那个人投票了、他没有机会的!”

我们先不讨论这个,来看看这样做到底效果如何?

根据英国,意大利,以色列的大选情况,当然,还有最近的美国总统大选,用民调结果来预测选举结果,和用月亮预测医院住院率一样不靠谱!没错,讲真,我是根据一项学术研究的真实数据来画这幅图的。

导致民意调查严重失真的原因有很多,我们社会的多样性非常突出,因此民调专家很难找到真正具有代表性的良好样本,来代表他们进行民调的人群,人们特别不愿意接听民意调查电话,而且,特别令人震惊的是,人们可能会撒谎!但是你在从媒体上获取信息时,可能未必知道这些事情。

我们来看那些图表,看,许多的可视化数据会夸大可信度,事实也确实如此——这些图表能够麻痹我们的大脑,导致我们无法进行批评。当你听到一个统计数据时,你可能会有所怀疑,当数据以图表形式呈现出来时,它看上去就像是某种客观的科学。然而事实并非如此。所以我试图找到一些方式,把这些和大家说明白,向人们展示数据中的不确定性。我的做法就是把真实的数据集——用手绘图的形式展现出来,这样人们就能看到数据是多么的不精确,人们就能够意识到,做这些事情的是人。

有人找到了这些数据并且将它可视化,比如,与其找到在某个月得流感的概率,也许还不如看看这个流感季节大致的分布情况。二月得流感的概率非常高,但是这种数据可视化的形式更加可靠,因为如果你想要显示确切的概率,这可能会导致人们在错误的时间里,接种流感疫苗。这些弯弯曲曲的线旨在让人们记住数据是不准确的,同时,他们也不是非得知道精确的数字,不过他们会记住那些重要的事项。

我们还应该注意一些非常重要的统计学概念,比如平均数。假设 你听到这么一种说法——“美国平均每个游泳池都会有6.32个人在里面便便”。这并不是说 美国的每个游泳池都不多不少有6.23份便便。

所以为了说明这一点,我找到了疾控中心的原始数据,调查范围为47个游泳设施,我花了一整晚来重新分布这些便便。这样一来 你从某种意义上就能看到平均数误导性之大。

你们应该问自己的第二个问题是——我能在数据中看到自己吗?

从某种意义上说 ,这个问题同样也是关于平均数的,人们饱受国家统计数据困扰的部分原因在于他们并没有把赢家和输家的故事原原本本地展示出来。在国家政策的层面上,很容易理解为什么人们对全球平均水平失落不已,因为这些数据不符合他们的个人经历。

并不是每种数据都必须和你扯上点关系,看看你自己对应其中哪种情况。这样做的目的是尽可能多的了解背景。所以我们要从某个数据点上抽身出来。比如失业率是5%,然后看看数据是如何随着时间推移而变化的,或者如何随受教育程度而改变——这就是父母一门心思让你上大学的原因。

或者看看性别对失业率的影响,如今男性失业率高于女性失业率。直到80年代初 它是完全相反的,这是发生在美国社会中具有最大变化之一的故事。一旦你考虑平均值,所有的都在那张图表中了。轴线就是一切。一旦你改变了刻度 你就可以改变这个故事。

好的,所以,我想让你们在看统计数据时考虑的第三个也是最后一个问题是——如何收集数据?

到目前为止我只谈到了数据交流的方式,但收集的方式也同样重要。我知道这很困难,因为方法可能是晦涩难懂的,实际上还会有点无聊,但是有一些简单的步骤 你可以用它们检查一下。

在这里,我将使用最后一个例子,一项调查显示,这个国家中有41%的穆斯林支持圣战,这显然是相当可怕的,并且这在2015年到处都有报道。当我想检查这样的数据时,我会先找到原始问卷。事实证明 那些报道统计数据的记者,忽略了调查中的一个问题——就是问调查对象他们是如何定义“圣战”的?

大多数的穆斯林把它定义为——“穆斯林为了更宗教化而进行个人的、和平的斗争”,只有16%的人把它定义为“对异教徒的暴力圣战”。这是非常重要的一点!根据这些数字,调查中支持圣战的人没有将其定义为暴力圣战是完全可能的!这两个群体可能根本没有重叠!

同样值得一问的是,调查是如何进行的?

这被称为选择性调查,也就是任何人都可以在互联网上找到该调查 并完成它。没有办法知道这些人是否是真正的穆斯林。最后 在该项调查中有600名受访者,根据皮尤研究中心 大约有三百万穆斯林在这个国家。这意味着 在这个国家每5000个穆斯林大概只有1个参与了调查,接受了这项调查。

这是zf统计数据,往往比私人统计数据更好的原因之一,一项民意调查可能面向几百人 也许是一千人。

但是你如何质疑统计数据呢?

你只要继续检查一切,了解他们是如何收集数据的,知道你是否在图表上看到了你需要查看的所有内容,但是不要完全放弃数据 因为如果你放弃了,我们将会在未知中做出公共决策,只有私人利益指导着我们。

原文发布时间为:2017-04-02

本文来自云栖社区合作伙伴“大数据文摘”,了解相关信息可以关注“BigDataDigest”微信公众号

这篇关于TED演讲 | 数据滥用时代,3招教你辨别身边不靠谱数据的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/352631

相关文章

MySQL InnoDB引擎ibdata文件损坏/删除后使用frm和ibd文件恢复数据

《MySQLInnoDB引擎ibdata文件损坏/删除后使用frm和ibd文件恢复数据》mysql的ibdata文件被误删、被恶意修改,没有从库和备份数据的情况下的数据恢复,不能保证数据库所有表数据... 参考:mysql Innodb表空间卸载、迁移、装载的使用方法注意!此方法只适用于innodb_fi

mysql通过frm和ibd文件恢复表_mysql5.7根据.frm和.ibd文件恢复表结构和数据

《mysql通过frm和ibd文件恢复表_mysql5.7根据.frm和.ibd文件恢复表结构和数据》文章主要介绍了如何从.frm和.ibd文件恢复MySQLInnoDB表结构和数据,需要的朋友可以参... 目录一、恢复表结构二、恢复表数据补充方法一、恢复表结构(从 .frm 文件)方法 1:使用 mysq

mysql8.0无备份通过idb文件恢复数据的方法、idb文件修复和tablespace id不一致处理

《mysql8.0无备份通过idb文件恢复数据的方法、idb文件修复和tablespaceid不一致处理》文章描述了公司服务器断电后数据库故障的过程,作者通过查看错误日志、重新初始化数据目录、恢复备... 周末突然接到一位一年多没联系的妹妹打来电话,“刘哥,快来救救我”,我脑海瞬间冒出妙瓦底,电信火苲马扁.

golang获取prometheus数据(prometheus/client_golang包)

《golang获取prometheus数据(prometheus/client_golang包)》本文主要介绍了使用Go语言的prometheus/client_golang包来获取Prometheu... 目录1. 创建链接1.1 语法1.2 完整示例2. 简单查询2.1 语法2.2 完整示例3. 范围值

javaScript在表单提交时获取表单数据的示例代码

《javaScript在表单提交时获取表单数据的示例代码》本文介绍了五种在JavaScript中获取表单数据的方法:使用FormData对象、手动提取表单数据、使用querySelector获取单个字... 方法 1:使用 FormData 对象FormData 是一个方便的内置对象,用于获取表单中的键值

Rust中的BoxT之堆上的数据与递归类型详解

《Rust中的BoxT之堆上的数据与递归类型详解》本文介绍了Rust中的BoxT类型,包括其在堆与栈之间的内存分配,性能优势,以及如何利用BoxT来实现递归类型和处理大小未知类型,通过BoxT,Rus... 目录1. Box<T> 的基础知识1.1 堆与栈的分工1.2 性能优势2.1 递归类型的问题2.2

Python使用Pandas对比两列数据取最大值的五种方法

《Python使用Pandas对比两列数据取最大值的五种方法》本文主要介绍使用Pandas对比两列数据取最大值的五种方法,包括使用max方法、apply方法结合lambda函数、函数、clip方法、w... 目录引言一、使用max方法二、使用apply方法结合lambda函数三、使用np.maximum函数

Redis的数据过期策略和数据淘汰策略

《Redis的数据过期策略和数据淘汰策略》本文主要介绍了Redis的数据过期策略和数据淘汰策略,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一... 目录一、数据过期策略1、惰性删除2、定期删除二、数据淘汰策略1、数据淘汰策略概念2、8种数据淘汰策略

轻松上手MYSQL之JSON函数实现高效数据查询与操作

《轻松上手MYSQL之JSON函数实现高效数据查询与操作》:本文主要介绍轻松上手MYSQL之JSON函数实现高效数据查询与操作的相关资料,MySQL提供了多个JSON函数,用于处理和查询JSON数... 目录一、jsON_EXTRACT 提取指定数据二、JSON_UNQUOTE 取消双引号三、JSON_KE

Python给Excel写入数据的四种方法小结

《Python给Excel写入数据的四种方法小结》本文主要介绍了Python给Excel写入数据的四种方法小结,包含openpyxl库、xlsxwriter库、pandas库和win32com库,具有... 目录1. 使用 openpyxl 库2. 使用 xlsxwriter 库3. 使用 pandas 库