赠书 | 发自暗处的光:你不知道的暗数据

2024-04-13 19:08

本文主要是介绍赠书 | 发自暗处的光:你不知道的暗数据,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

0bddb60a4028e589a22eefb7bd9c9d27.png

文中有数据派THU福利哦dda7d6ec9936dc8101366d138d2f940e.png

先给大家讲个笑话。

几天前,我在路上碰到一个老头儿。他正在往路中央撒粉末,每隔50 英尺a 撒一小堆。我问他在干什么。“这是驱象粉。”他回答,“大象最怕这个,所以我用它来防大象。”

“但是,这里没有大象啊。”我说。

“这就对啦!”他答道,“驱象粉真灵啊。”

看不见的传染病

麻疹是一种病毒引起的呼吸道急性传染病,每500个麻疹病人中有一个死于并发症,剩下的人会遭受永久性的听力丧失和大脑损伤。

全球每年有近10万人死于麻疹,但这种病并不常见。1999年美国只报告了99例,而在2019年1月,一场麻疹的爆发导致华盛顿州进入紧急状态,同时其他州也发现了大量增加的病例。

类似的情况在全球都有报道,比如2016年1月到2017年3月底,罗马尼亚报告超过4000例麻疹感染者和18个死亡病例;2019年2月乌克兰超过21000人被传染。

幸运的是麻疹是可以防控的,简单的疫苗就能让你获得免疫力。事实上在实施了这类防控的国家,绝大部分人从未见过或者经历过麻疹带来的可怕后果。

也正因为如此,当疾控中心建议家长给孩子接种麻疹疫苗时,家长们自然会将信将疑,因为疾控中心提到的这种疾病从未在他们身边的人身上看到或者听说过。

接种疫苗以预防某种疾病,但这种疾病在当地又不存在。这跟开篇段子里的驱象粉有什么区别?

然而与大象不同的是,得病的风险是真实存在的。仅仅因为那些家长赖以做出决定的信息和数据缺失了,所以风险才变得不可见。

我们把各种缺失的数据称为“暗数据”(dark data)。因为暗数据隐藏在我们的认知之外,意味着我们可能出现误解,得出错误的结论,做出糟糕的决定。简言之,我们的无知意味着犯错。

“暗数据”这个术语与物理学中的暗物质相似。宇宙中大约27%的部分由暗物质组成。暗物质与光或其他电磁辐射不发生作用,因此不可见。因为暗物质无法被看到,所以天文学家长久以来并未意识到它们的存在。

直到后来,对银河系旋转运动的观测揭示出这样的现象:较远处的恒星,并不比靠近中心的恒星转动得更慢。这与我们根据重力原理得出的预期不一致。这种异常转动可以用一种假设来解释:通过我们用天文望远镜能看到的恒星和其他天体来判断,银河系的质量比看起来的大得多。

我们看不见那些多出来的物体,所以称其为暗物质。然而,暗物质不是无意义的(我甚至认为它是很重要的):在我们所在的银河系中,暗物质的数量可能比普通物质的10 倍还多。

暗数据和暗物质有很多类似之处:我们看不到那些数据,它们没有被记录下来,但是它们仍然会对我们的判断、决定和行为产生重大影响。正如后来一些例子显示的那样,除非我们意识到这种可能性,即我们周遭一直潜伏着未被认知的事物,否则,后果可能是灾难性的,甚至是致命的。

消失的统计数据

许多城市都有路面坑洞问题。水流进路面的小裂缝,冬天结冰造成裂缝扩大,然后被汽车轮胎碾压进一步恶化,形成路面坑洞。

波士顿市政部门决定用现代科技解决这个问题,他们发布了一款手机APP,利用手机内部的加速器来监测汽车通过路面坑洞产生的震动,然后用GPS把路面坑洞的位置自动发送给城市管理部门,公路维护人员就知道要去哪里修补路面了。

这个建立在现代数据分析技术基础上的解决方案看起来很完美对吧?但它忽略了一个重要的事实:拥有汽车和智能手机的人,多数集中在富裕地区。因此,那些贫困地区的路面坑洞很可能不会被发现,一些地方的坑洞也许永远无法得到修复。

这种解决方法不但没有从整体上解决路面坑洞的问题,甚至可能加剧社会不平等。

摄影师迈克·约翰斯顿在《摄影师在线》他的专栏给到了另一个很好的例子,他写道:“每当读到一篇描述美国边境那些制作精良、坚固而漂亮的原木小屋的文章时,我就忍不住想笑。

事实更有可能是这样的:99.9% 的原木小屋都是粗制滥造的,只不过它们全都倒塌了。能完好无损地保存下来的极少数小屋的确是被精心建造的,但这并不意味着所有的小屋都是这样的。”

2017年12月29日的《泰晤士报》报道说:“警方数据显示,出租车车司机涉嫌对乘客实施性侵害的案件数量在3 年里攀升了1/5”。比较直白的解释是,更多的此类犯罪发生了。

但是,从暗数据的角度,还有另外一种解释:犯罪率本身其实保持不变,但犯罪的报告率上升了。由于社会习俗和社会规范的改变,此前隐藏的暗数据逐渐显现出来了。”

以上这种我们不知道的缺失数据尤其具有欺骗性,因为一般情况下我们没有理由怀疑它。

四舍五入的坑

测量不可能无限精确。在计数的时候,像一个家庭里的子女人数、海上的船只数这样的数字都可以采用方便的整数数字,但像长度这样的测量值需要四舍五入到某个水平。它们可能被四舍五入到厘米、毫米、微米(百万分之一米)、十分之一微米等,但是我们不可能取无限的小数位。

换句话说,在某种程度上,细节是不可知的。

当你看数据表格时,这种“四舍五入”是显而易见的。在表格里,你会看到70.3、0.04 或41.325 等数字,或者有时出现76.2±0.2等数值,其中±0.2 表示准确度的范围,潜在的准确数字被认为处于这个区间内。“±”这个符号非常清楚地表明,我们面临着暗数据。

四舍五入是必要的,而且我们对此非常熟悉,以至通常根本不会注意到它隐藏了数据。例如,人们的年龄往往用整数来记录,但事实上年龄不仅仅包括已经生存的年数,还包括天数、小时数、分钟数等等。

有时候,年龄固有的不精确性,还源于出生这个事件发生在一个时段之内,而不是在某个精确的瞬间,这意味着我们无法获得进一步的精确度。计算年龄的惯例是将实际数字四舍五入,把小数点后的数字舍去,这意味着年龄似乎是围绕着整数进行分组的,我们声称的年龄比我们实际生存的年数要小。

当数据由人直接收集时,四舍五入过程中的数据暗化会以一种特别隐蔽的方式发生。它甚至会导致错误的决策和行动。

西蒙·德·吕西昂和他的同事研究了8.5 万个血压值。他们发现了一个令人不解的现象,在这8.5万个数值中,有64%的收缩压读数(心脏收缩时的血压)和59% 的舒张压读数(心脏舒张时的血压)都以0 结尾。不仅如此,在非零的数值中,以偶数结尾的数值明显比奇数结尾的数值更普遍,而在那些以奇数结尾的数值中,5是最常见的末尾数。而真实的血压数值是不可能围绕某些特定数字产生奇怪的分组的!这些记录值是人们将数值四舍五入到某个便于记录的数字上的结果。

这很重要吗?《英国高血压指南》给出了血压的临界值,若高于这个值则建议采取药物治疗。收缩压的临界值是140 毫米汞柱,那些四舍五入到以零结尾的数值(例如,把137 四舍五入到140)意味着,在具有这种血压记录的病人中,有相当大比例的真实收缩压实际上低于140 毫米汞柱。

显然,在本例中,四舍五入是由测量仪器的性质所导致的。如果读数出自一个有刻度的物理测量仪器,如教具中的尺子,那么人们自然会倾向于把它们四舍五入到一个方便记录的数值上。当然,如果这些值是由电子测量设备得出,那么它们可能会被精确到更小的数位上。现代测量仪器朝向自动化和更精确的数字读数持续发展的态势是件好事,至少从暗数据的角度看是这样的。

暗数据的分类

由于可能导致暗数据产生的原因在本质上是无限多的,因此,了解哪些东西需要留意可以极大地帮助我们避免错误和失误。

这就是《暗数据》中论述的不同暗数据类型的功能。这些原因并非基本原因,但提供了更具普遍性的分类方法。

具备暗数据分类意识,有助于保护我们,让我们避免因为不了解自己不知道的事情而造成差错、失误和灾难。《暗数据》中所介绍的暗数据类型,详列如下:

第1 种暗数据:已知的缺失数据

第2 种暗数据:未知的缺失数据

第3 种暗数据:局部选择案例

第4 种暗数据:自我选择

第5 种暗数据:关键因素缺失

第6 种暗数据:或可存在的数据

第7 种暗数据:因时而变

第8 种暗数据:数据定义

第9 种暗数据:数据汇总

第10 种暗数据:测量误差与不确定性

第11 种暗数据:反馈与博弈

第12 种暗数据:信息不对称

第13 种暗数据:故意屏蔽的数据

第14 种暗数据:编造与合成的数据

第15 种暗数据:推理僭越数据

09f68f5c4388c4471eaaae9042c44ea9.png

《暗数据》

[英] 戴维·汉德(David Hand

中信出版集团

2022年1月

4658e16820cd38aabb669ba62a25ae54.png数据派THU独家福利!dfa54919ebb1c7450d06e73b2d8509db.png

点点为数据派THU的粉丝们争取了3本赠书福利!欢迎小伙伴儿在下方留言区说出想要获得赠书的理由,我们将为点赞数最高(截止到2022年1月28日早8点)的3位读者免费送上此书~小编会联系你们哦!(之前获得过赠书的粉丝不能参与)

a6d6a98d341af1a01a5b6c165b8bbb84.png

这篇关于赠书 | 发自暗处的光:你不知道的暗数据的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/900968

相关文章

大模型研发全揭秘:客服工单数据标注的完整攻略

在人工智能(AI)领域,数据标注是模型训练过程中至关重要的一步。无论你是新手还是有经验的从业者,掌握数据标注的技术细节和常见问题的解决方案都能为你的AI项目增添不少价值。在电信运营商的客服系统中,工单数据是客户问题和解决方案的重要记录。通过对这些工单数据进行有效标注,不仅能够帮助提升客服自动化系统的智能化水平,还能优化客户服务流程,提高客户满意度。本文将详细介绍如何在电信运营商客服工单的背景下进行

基于MySQL Binlog的Elasticsearch数据同步实践

一、为什么要做 随着马蜂窝的逐渐发展,我们的业务数据越来越多,单纯使用 MySQL 已经不能满足我们的数据查询需求,例如对于商品、订单等数据的多维度检索。 使用 Elasticsearch 存储业务数据可以很好的解决我们业务中的搜索需求。而数据进行异构存储后,随之而来的就是数据同步的问题。 二、现有方法及问题 对于数据同步,我们目前的解决方案是建立数据中间表。把需要检索的业务数据,统一放到一张M

关于数据埋点,你需要了解这些基本知识

产品汪每天都在和数据打交道,你知道数据来自哪里吗? 移动app端内的用户行为数据大多来自埋点,了解一些埋点知识,能和数据分析师、技术侃大山,参与到前期的数据采集,更重要是让最终的埋点数据能为我所用,否则可怜巴巴等上几个月是常有的事。   埋点类型 根据埋点方式,可以区分为: 手动埋点半自动埋点全自动埋点 秉承“任何事物都有两面性”的道理:自动程度高的,能解决通用统计,便于统一化管理,但个性化定

使用SecondaryNameNode恢复NameNode的数据

1)需求: NameNode进程挂了并且存储的数据也丢失了,如何恢复NameNode 此种方式恢复的数据可能存在小部分数据的丢失。 2)故障模拟 (1)kill -9 NameNode进程 [lytfly@hadoop102 current]$ kill -9 19886 (2)删除NameNode存储的数据(/opt/module/hadoop-3.1.4/data/tmp/dfs/na

异构存储(冷热数据分离)

异构存储主要解决不同的数据,存储在不同类型的硬盘中,达到最佳性能的问题。 异构存储Shell操作 (1)查看当前有哪些存储策略可以用 [lytfly@hadoop102 hadoop-3.1.4]$ hdfs storagepolicies -listPolicies (2)为指定路径(数据存储目录)设置指定的存储策略 hdfs storagepolicies -setStoragePo

Hadoop集群数据均衡之磁盘间数据均衡

生产环境,由于硬盘空间不足,往往需要增加一块硬盘。刚加载的硬盘没有数据时,可以执行磁盘数据均衡命令。(Hadoop3.x新特性) plan后面带的节点的名字必须是已经存在的,并且是需要均衡的节点。 如果节点不存在,会报如下错误: 如果节点只有一个硬盘的话,不会创建均衡计划: (1)生成均衡计划 hdfs diskbalancer -plan hadoop102 (2)执行均衡计划 hd

【Prometheus】PromQL向量匹配实现不同标签的向量数据进行运算

✨✨ 欢迎大家来到景天科技苑✨✨ 🎈🎈 养成好习惯,先赞后看哦~🎈🎈 🏆 作者简介:景天科技苑 🏆《头衔》:大厂架构师,华为云开发者社区专家博主,阿里云开发者社区专家博主,CSDN全栈领域优质创作者,掘金优秀博主,51CTO博客专家等。 🏆《博客》:Python全栈,前后端开发,小程序开发,人工智能,js逆向,App逆向,网络系统安全,数据分析,Django,fastapi

烟火目标检测数据集 7800张 烟火检测 带标注 voc yolo

一个包含7800张带标注图像的数据集,专门用于烟火目标检测,是一个非常有价值的资源,尤其对于那些致力于公共安全、事件管理和烟花表演监控等领域的人士而言。下面是对此数据集的一个详细介绍: 数据集名称:烟火目标检测数据集 数据集规模: 图片数量:7800张类别:主要包含烟火类目标,可能还包括其他相关类别,如烟火发射装置、背景等。格式:图像文件通常为JPEG或PNG格式;标注文件可能为X

pandas数据过滤

Pandas 数据过滤方法 Pandas 提供了多种方法来过滤数据,可以根据不同的条件进行筛选。以下是一些常见的 Pandas 数据过滤方法,结合实例进行讲解,希望能帮你快速理解。 1. 基于条件筛选行 可以使用布尔索引来根据条件过滤行。 import pandas as pd# 创建示例数据data = {'Name': ['Alice', 'Bob', 'Charlie', 'Dav

SWAP作物生长模型安装教程、数据制备、敏感性分析、气候变化影响、R模型敏感性分析与贝叶斯优化、Fortran源代码分析、气候数据降尺度与变化影响分析

查看原文>>>全流程SWAP农业模型数据制备、敏感性分析及气候变化影响实践技术应用 SWAP模型是由荷兰瓦赫宁根大学开发的先进农作物模型,它综合考虑了土壤-水分-大气以及植被间的相互作用;是一种描述作物生长过程的一种机理性作物生长模型。它不但运用Richard方程,使其能够精确的模拟土壤中水分的运动,而且耦合了WOFOST作物模型使作物的生长描述更为科学。 本文让更多的科研人员和农业工作者