TED演讲 | 数据滥用时代,3招教你辨别身边不靠谱数据

2023-11-05 21:30

本文主要是介绍TED演讲 | 数据滥用时代,3招教你辨别身边不靠谱数据,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!


0?wx_fmt=jpeg

生活中,我们随处可见各种各样的数据——广告、新闻、公司会议、工作汇报中比比皆是,甚至算命和星座,也开始用数据来证明自己的真实性。

越来越多的数据引用,一方面证明更多的行业与个人开始关注并运用统计,另一方面,也可能会让人迷失在错综纷杂的数据中。

那么,对于众多对数据有兴趣,但非专业出身、不需要太深度复杂学习相关知识的小伙伴来说,到底如何分辨数据真假?今天我们推送的视频《TED演讲 | 数据滥用时代,3招教你辨别身边不靠谱数据》,或许可以给大家带来一些启发。

开篇,Mona谈到,对待统计,我们要保持客观而开放的态度,不盲目接受或者排斥。随后,她展示了3个基础的问题,以便大家可以由此识别面前统计数据的优劣——

1.你是否能发现不确定因素?

2.我能在数据中看到自己吗?

3.这些数据是如何收集到的?

在阐述每一个问题时,Mona不仅介绍了许多相关概念,还援引了许多来自生活中的实例,使得枯燥的课本知识变的通俗易懂起来。

今天我要和大家聊聊统计,如果让你感到一丝警惕的话,没事,这很正常,它不会让你变成那种疯狂的阴谋论者,它会让你变得多疑。

当谈论数字的时候,尤其是现在,你确实应该变得多疑一点,但你应该也有能力告诉人们哪些数字是可靠的,哪些是不可靠的。今天我就是要给大家介绍下可以干这些事的一些工具。

我们生活中有太多数据分析,我们应当抛弃盲目的接受,或盲目的拒绝。并且,我们得学些技巧去发现那些坏的统计。

当我在统计部门工作的时候,我们的工作就是统计有多少伊拉克人在战争中,是被迫离乡的、以及他们需要什么?这真的是一项非常重要的工作,但也极其困难。每一天,我们做的决定都会影响到数据的精度。比如我们应该去伊拉克的哪些地区、应该与哪些人进行沟通、应该问哪些问题。

我开始对我们的工作感到失望,因为起初我认为我们做的工作非常有意义,但是能告诉我们真实情况的是伊拉克人,他们却几乎没有机会看到我们的分析,更别提质疑了,使数据更加精确的方式之一——就是让尽可能多的人来质疑。

所以我成为了一名数据记者,我的工作是找到这些数据集,并且将它们分享给公众。

我这儿给你们准备了三个问题,这些问题能够帮助你们把劣质的统计数据识别出来——

第一个问题是:你能发现不确定因素吗?

真正改变了人们和数据的关系的因素之一,甚至包括对于媒体的信任,是政治民意调查的使用。我个人对于政治民意调查有许多不同意见,因为我认为记者的真正作用是报道事实、而不是去预测,尤其是当这些预测能够破坏民主的时候。通过向人们发出这样的信号:“不用费心给那个人投票了、他没有机会的!”

我们先不讨论这个,来看看这样做到底效果如何?

根据英国,意大利,以色列的大选情况,当然,还有最近的美国总统大选,用民调结果来预测选举结果,和用月亮预测医院住院率一样不靠谱!没错,讲真,我是根据一项学术研究的真实数据来画这幅图的。

导致民意调查严重失真的原因有很多,我们社会的多样性非常突出,因此民调专家很难找到真正具有代表性的良好样本,来代表他们进行民调的人群,人们特别不愿意接听民意调查电话,而且,特别令人震惊的是,人们可能会撒谎!但是你在从媒体上获取信息时,可能未必知道这些事情。

我们来看那些图表,看,许多的可视化数据会夸大可信度,事实也确实如此——这些图表能够麻痹我们的大脑,导致我们无法进行批评。当你听到一个统计数据时,你可能会有所怀疑,当数据以图表形式呈现出来时,它看上去就像是某种客观的科学。然而事实并非如此。所以我试图找到一些方式,把这些和大家说明白,向人们展示数据中的不确定性。我的做法就是把真实的数据集——用手绘图的形式展现出来,这样人们就能看到数据是多么的不精确,人们就能够意识到,做这些事情的是人。

有人找到了这些数据并且将它可视化,比如,与其找到在某个月得流感的概率,也许还不如看看这个流感季节大致的分布情况。二月得流感的概率非常高,但是这种数据可视化的形式更加可靠,因为如果你想要显示确切的概率,这可能会导致人们在错误的时间里,接种流感疫苗。这些弯弯曲曲的线旨在让人们记住数据是不准确的,同时,他们也不是非得知道精确的数字,不过他们会记住那些重要的事项。

我们还应该注意一些非常重要的统计学概念,比如平均数。假设 你听到这么一种说法——“美国平均每个游泳池都会有6.32个人在里面便便”。这并不是说 美国的每个游泳池都不多不少有6.23份便便。

所以为了说明这一点,我找到了疾控中心的原始数据,调查范围为47个游泳设施,我花了一整晚来重新分布这些便便。这样一来 你从某种意义上就能看到平均数误导性之大。

你们应该问自己的第二个问题是——我能在数据中看到自己吗?

从某种意义上说 ,这个问题同样也是关于平均数的,人们饱受国家统计数据困扰的部分原因在于他们并没有把赢家和输家的故事原原本本地展示出来。在国家政策的层面上,很容易理解为什么人们对全球平均水平失落不已,因为这些数据不符合他们的个人经历。

并不是每种数据都必须和你扯上点关系,看看你自己对应其中哪种情况。这样做的目的是尽可能多的了解背景。所以我们要从某个数据点上抽身出来。比如失业率是5%,然后看看数据是如何随着时间推移而变化的,或者如何随受教育程度而改变——这就是父母一门心思让你上大学的原因。

或者看看性别对失业率的影响,如今男性失业率高于女性失业率。直到80年代初 它是完全相反的,这是发生在美国社会中具有最大变化之一的故事。一旦你考虑平均值,所有的都在那张图表中了。轴线就是一切。一旦你改变了刻度 你就可以改变这个故事。

好的,所以,我想让你们在看统计数据时考虑的第三个也是最后一个问题是——如何收集数据?

到目前为止我只谈到了数据交流的方式,但收集的方式也同样重要。我知道这很困难,因为方法可能是晦涩难懂的,实际上还会有点无聊,但是有一些简单的步骤 你可以用它们检查一下。

在这里,我将使用最后一个例子,一项调查显示,这个国家中有41%的穆斯林支持圣战,这显然是相当可怕的,并且这在2015年到处都有报道。当我想检查这样的数据时,我会先找到原始问卷。事实证明 那些报道统计数据的记者,忽略了调查中的一个问题——就是问调查对象他们是如何定义“圣战”的?

大多数的穆斯林把它定义为——“穆斯林为了更宗教化而进行个人的、和平的斗争”,只有16%的人把它定义为“对异教徒的暴力圣战”。这是非常重要的一点!根据这些数字,调查中支持圣战的人没有将其定义为暴力圣战是完全可能的!这两个群体可能根本没有重叠!

同样值得一问的是,调查是如何进行的?

这被称为选择性调查,也就是任何人都可以在互联网上找到该调查 并完成它。没有办法知道这些人是否是真正的穆斯林。最后 在该项调查中有600名受访者,根据皮尤研究中心 大约有三百万穆斯林在这个国家。这意味着 在这个国家每5000个穆斯林大概只有1个参与了调查,接受了这项调查。

这是zf统计数据,往往比私人统计数据更好的原因之一,一项民意调查可能面向几百人 也许是一千人。

但是你如何质疑统计数据呢?

你只要继续检查一切,了解他们是如何收集数据的,知道你是否在图表上看到了你需要查看的所有内容,但是不要完全放弃数据 因为如果你放弃了,我们将会在未知中做出公共决策,只有私人利益指导着我们。

原文发布时间为:2017-04-02

本文来自云栖社区合作伙伴“大数据文摘”,了解相关信息可以关注“BigDataDigest”微信公众号

这篇关于TED演讲 | 数据滥用时代,3招教你辨别身边不靠谱数据的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/352631

相关文章

大模型研发全揭秘:客服工单数据标注的完整攻略

在人工智能(AI)领域,数据标注是模型训练过程中至关重要的一步。无论你是新手还是有经验的从业者,掌握数据标注的技术细节和常见问题的解决方案都能为你的AI项目增添不少价值。在电信运营商的客服系统中,工单数据是客户问题和解决方案的重要记录。通过对这些工单数据进行有效标注,不仅能够帮助提升客服自动化系统的智能化水平,还能优化客户服务流程,提高客户满意度。本文将详细介绍如何在电信运营商客服工单的背景下进行

基于MySQL Binlog的Elasticsearch数据同步实践

一、为什么要做 随着马蜂窝的逐渐发展,我们的业务数据越来越多,单纯使用 MySQL 已经不能满足我们的数据查询需求,例如对于商品、订单等数据的多维度检索。 使用 Elasticsearch 存储业务数据可以很好的解决我们业务中的搜索需求。而数据进行异构存储后,随之而来的就是数据同步的问题。 二、现有方法及问题 对于数据同步,我们目前的解决方案是建立数据中间表。把需要检索的业务数据,统一放到一张M

关于数据埋点,你需要了解这些基本知识

产品汪每天都在和数据打交道,你知道数据来自哪里吗? 移动app端内的用户行为数据大多来自埋点,了解一些埋点知识,能和数据分析师、技术侃大山,参与到前期的数据采集,更重要是让最终的埋点数据能为我所用,否则可怜巴巴等上几个月是常有的事。   埋点类型 根据埋点方式,可以区分为: 手动埋点半自动埋点全自动埋点 秉承“任何事物都有两面性”的道理:自动程度高的,能解决通用统计,便于统一化管理,但个性化定

使用SecondaryNameNode恢复NameNode的数据

1)需求: NameNode进程挂了并且存储的数据也丢失了,如何恢复NameNode 此种方式恢复的数据可能存在小部分数据的丢失。 2)故障模拟 (1)kill -9 NameNode进程 [lytfly@hadoop102 current]$ kill -9 19886 (2)删除NameNode存储的数据(/opt/module/hadoop-3.1.4/data/tmp/dfs/na

异构存储(冷热数据分离)

异构存储主要解决不同的数据,存储在不同类型的硬盘中,达到最佳性能的问题。 异构存储Shell操作 (1)查看当前有哪些存储策略可以用 [lytfly@hadoop102 hadoop-3.1.4]$ hdfs storagepolicies -listPolicies (2)为指定路径(数据存储目录)设置指定的存储策略 hdfs storagepolicies -setStoragePo

Hadoop集群数据均衡之磁盘间数据均衡

生产环境,由于硬盘空间不足,往往需要增加一块硬盘。刚加载的硬盘没有数据时,可以执行磁盘数据均衡命令。(Hadoop3.x新特性) plan后面带的节点的名字必须是已经存在的,并且是需要均衡的节点。 如果节点不存在,会报如下错误: 如果节点只有一个硬盘的话,不会创建均衡计划: (1)生成均衡计划 hdfs diskbalancer -plan hadoop102 (2)执行均衡计划 hd

【Prometheus】PromQL向量匹配实现不同标签的向量数据进行运算

✨✨ 欢迎大家来到景天科技苑✨✨ 🎈🎈 养成好习惯,先赞后看哦~🎈🎈 🏆 作者简介:景天科技苑 🏆《头衔》:大厂架构师,华为云开发者社区专家博主,阿里云开发者社区专家博主,CSDN全栈领域优质创作者,掘金优秀博主,51CTO博客专家等。 🏆《博客》:Python全栈,前后端开发,小程序开发,人工智能,js逆向,App逆向,网络系统安全,数据分析,Django,fastapi

烟火目标检测数据集 7800张 烟火检测 带标注 voc yolo

一个包含7800张带标注图像的数据集,专门用于烟火目标检测,是一个非常有价值的资源,尤其对于那些致力于公共安全、事件管理和烟花表演监控等领域的人士而言。下面是对此数据集的一个详细介绍: 数据集名称:烟火目标检测数据集 数据集规模: 图片数量:7800张类别:主要包含烟火类目标,可能还包括其他相关类别,如烟火发射装置、背景等。格式:图像文件通常为JPEG或PNG格式;标注文件可能为X

pandas数据过滤

Pandas 数据过滤方法 Pandas 提供了多种方法来过滤数据,可以根据不同的条件进行筛选。以下是一些常见的 Pandas 数据过滤方法,结合实例进行讲解,希望能帮你快速理解。 1. 基于条件筛选行 可以使用布尔索引来根据条件过滤行。 import pandas as pd# 创建示例数据data = {'Name': ['Alice', 'Bob', 'Charlie', 'Dav

SWAP作物生长模型安装教程、数据制备、敏感性分析、气候变化影响、R模型敏感性分析与贝叶斯优化、Fortran源代码分析、气候数据降尺度与变化影响分析

查看原文>>>全流程SWAP农业模型数据制备、敏感性分析及气候变化影响实践技术应用 SWAP模型是由荷兰瓦赫宁根大学开发的先进农作物模型,它综合考虑了土壤-水分-大气以及植被间的相互作用;是一种描述作物生长过程的一种机理性作物生长模型。它不但运用Richard方程,使其能够精确的模拟土壤中水分的运动,而且耦合了WOFOST作物模型使作物的生长描述更为科学。 本文让更多的科研人员和农业工作者