体系_统计学如何说谎

2024-02-09 10:50
文章标签 体系 统计学 说谎

本文主要是介绍体系_统计学如何说谎,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

参考书籍:《统计数字会说谎》、《谁说图表不会说谎--杰拉尔德.埃弗雷特.琼斯》

统计学是一门关于收集、处理、分析、并解释和展现从数据得到的规律的一门学科,统计学可以提炼数据,但是要小心统计学也是会说谎的,一不小心自己得出的分析结果可能就欺骗了别人,或者被别人提供的统计结果蒙骗而不自知。

统计以事实为基础,尽管如此,有时却具有误导性,利用统计,既可以昭告事实,但也可以瞒天过海。问题是,如何才能判别自己所获悉的是事实,亦或是谎言?

好好掌握统计学将会使你拥有识别统计学结果是否出错或产生误导,换句话说,学习统计学是避免遭人愚弄的良策。

下面分别从统计数据和统计图表两个方面来讲述统计学是如何说谎的。

一、统计数值

误导方式1:统计数值虽然精简,但是屏蔽了细节

汇总统计值虽然精简,但是也使得很多细节变得含糊,而其中包含的信息可能很重要。不过这点在我看来不能说是数字在说谎,应该是取决于决策者对问题的思考,及目的。

例如对于经理想要本月销售总额,但实际情况是,虽然销售总额是没问题,但各个销售员的表现是不一样的,当然也许她就是不关心哪些销售员业绩不好,而她只关心各月是否达标了。

误导方式2:在数据差异较大时,使用平均数代表一般水平

例:若一个高尔夫球手的历史成绩如下:85、83、82、84、83,那么说他的平均成绩是83分,就是比较公正的说法;然而,同样是平均成绩83分,若成绩是:74、73、72、100、98,则用平均数描述该球手的成绩就不太可靠了。

结论:平均数只有在数据接近的情况下,才可靠;单纯的平均数无法让你判断选手的表现是否稳定,有可能在某一场打得精彩绝伦,而剩下的几场却打得一塌胡涂。

(1)使用中位数或众数

(2)使用移动平均:只使用近期的数值,而不是历史所有

(3)不计算空值:因为空值和零值不是一回事,在汇总用来取平均数值的个数时,空白不会计入,但会计入零值。

(4)采用截断均值

误导方式3:只有统计数值,没有带标识或单位

例:20,那到底是20个人,还是20斤

误导方式4:百分数与绝对数量

二、统计图表

我们平时看到的各种图表,虽然是以事实为依据,但它们可以将事实任意夸大或缩小,下面将较大家看透这些把戏,不要被一目了然的图表误导。

1.柱形图/条形图/折现图

误导方式1:柱形图/条形图/折现图坐标轴起点不为0,夸大事物变化趋势或差距

例:下面数据为某公司去年下半年盈利情况:

月份7月

8月

9月10月11月12月
利润(百万)2.02.12.22.12.32.4

(1)下面柱形图/条形图/折现图,纵坐标轴起点不为0开始,导致看起来,该公司盈利状况很好,一飞冲天的感觉:

 ​​​​​​​

(2) 下面柱形图/条形图/折现图,纵坐标轴起点若为0开始,看起来,该公司盈利状况平稳:

  

结论:

1.正确的绘制方式应该是(2)

2.绘制方式(1)误导的原理:纵坐标不从0开始,会使得纵坐标的单位刻度变小,使得同样的差距,需要更长的线/柱形表示,从而看起来变化大。例如(2)的单位刻度是0.5,而(1)的单位刻度是0.1

3.绘图软件可以为我们节省时间,生成有效图表,但至于图表是否正确,这得由我们自己保证;例如上面这个案例,在excel初始绘制出来的图表就是(1)呈现的,是具有误导性的;所以需要我们加以判断是否正确,而别指望软件绘制出来的就是正确的。

2.饼图

误导方式1:用饼图展现各类别频率接近的数据,难以发现细微差别

种类体育策略动作射击其他
销量(件)1050011500120001100012400

                

结论:当各类别比例较接近时,饼图用处不大,因为这时难以根据扇形块尺寸上的微小差别进行判别。应改用柱形图或条形图展现。

误导方式2:三维饼图,视觉上会造成误判

在3D饼状图中,人们通常认为边缘厚的分块最重要,这是因为立体效果为部分分块增加了厚度,从而使分块的表面尺寸失真。人们可能会感觉这个分块比二维的圆形图中出现的分块大。

例:以下数据,二维饼图看,A地区和B地区接近,但是从三维饼图看,B地区远比A地区多。

地区人数
A13
B14
C20

​​​​​​​                   

误导方式3:用绝对数值而非比例作为饼状图的数据标签

当饼状图各扇形被用绝对数值标注时,读者会不自觉地将数值相加,看看总数时多少(就算不那样做,他们至少对总数有个心理印象,即使他们察觉到)

结论:饼状图要用百分比,不要总是忍不住把绝对值加上去,如果绝对数值非常重要,那就用其他的图表形式。

误导方式4:用“其他”来隐藏不想交代的信息,或者是把有问题的数据剔除,这样剩下的“全部”就不是真正的全部了

建议:图表中如果一定要包括一个非常小的分块,1%或更少,建议将其绘制成大约1.5%的分块(大约5度的一个扇形),这样人们就会看到这个薄薄的分块,但一定要在附近标识真正百分比

3.雷达图

误导方式1:各指标的评分标准不一致

例如,你想从迅速、礼节、准确性、效果和跟踪这几个方面评估公司的客服质量,你想用精确到小数点后一位的1到10分制给礼节指标打分,那么你也要这样给其他指标准确打分,这样意味着各维度是可以比较的,但是骗子不一定遵守这个规矩。

假设有两个指标,一个指标评分范围为0-4,另一个为0至100。

(1)将0-100除以25,将得分的值缩短至0-4刻度中,而不用把0-4刻度放大

(2)将(1)得到的结果保持与范围为0-4的指标相同的小数位(保持相同小数位的方法有两种,一种是四舍五入,一种是直接截断,一般用直接截断)

例如指标评分范围为0-100中,有一个取值为85.6,则85.6/25=3.424,四舍五入为3.4,直接截断为3.4

误导方式2:各维度得分点连接起来的形状规则代表最佳选择,最均衡、整体价值最高,这是偏见

误导方式3:将正确的图表和有问题的图表放在相邻位置,例如可能把单位一致和单位不一致的雷达图放一起,给人印象所有图表都是单位一致的。

误导方式4:各指标的单位刻度不同,从而故意将不规则的雷达图调整为规则的

例如,假设有5个指标:节能性、操作性、加速度、外观、乘坐感受,其中节能性、操作性的单位刻度为2,而乘坐感受、外观、加速度的单位刻度为5

4.柱形图/条形图/折现图

误导方式1:坐标轴没有从0开始,夸大变化趋势;

误导方式2:调整y轴值域(包括:扩大y轴值域,缩小变化趋势;缩小y轴值域,放大变化趋势)

例如:

菜品外观
酱汤6.2
黄瓜沙拉4.5
美味金枪鱼7
饼干3.4

正常绘图:y轴起点从0开始,y轴最大刻度与数据的最大值接近

扩大y轴值域:缩小差异

缩小y轴值域方式一:不以0作为起点 

 

 

误导方式3:若只有百分数而没有频数,或只有频数而没有百分数

有时候,这是一种用来隐藏基础数据真实情况的伎俩,因为比如有很大比例的人青睐某种特定游戏类别,但受到调查的仅有10人;或者,你可能发现,有10000个玩家最喜欢玩的是体育游戏,但仅通过这个数据无法判断这个人在所有游戏玩家中占有的比例是高是低。

因此在设计以百分数为表现内容的图形时,请考虑这样一条黄金定律:设法指出频数或是将频数标在图形中间,或是标在图形旁边,都可。

误导方式4:

误导方式4:直方图的误导

这篇关于体系_统计学如何说谎的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/694013

相关文章

Java异常体系----深入讲解

JAVA异常体系 1.error 错误 程序无法处理的异常, 它是由JVM产生和抛出的,比如OutOfMemoryError.ThreadDeath等 示例: public class Test {public static void main(String[] args) {run();}public static void run(){run();}} 堆栈溢出,这是由于JV

统计学(贾俊平)学习笔记--第三章、 数据预处理

数据预处理无论是从数据分类分析、数据信息抽取、数据挖掘、模型建立等方面都是需要的,也是数据工作者最开始招手做的,而统计学(贾俊平)中从理论的角度讲解了数据预处理的概念和方法吗,在此将主要要点列举如下,供有心人参考学些。       数据的预处理是在对数据分类或分组之前所做的必要处理,内容包括数据的审核、筛选、排序等。          审核就是检查数据中是否有错误。从完整性和准

软件架构风格: C2体系风格

通俗示例 想象一下你正在使用一套乐高积木来搭建一个复杂的模型。每块乐高积木都是一个独立的部件,而乐高积木之间的接口设计得非常标准化,使得你可以轻松地将不同的积木组合在一起。如果你想要更换掉模型中的某一块积木,你只需要把它拔下来,然后插入新的积木即可,不需要重新设计整个模型。 通俗解释 C2体系风格 C2是一种软件体系结构风格,它强调组件之间的松耦合和高内聚。在C2风格中,软件系统被设计为一

大数据开发体系,进来了解一下?

“5G失败、物联网已死、鼓吹大数据无用论”打开手机又是承接今日份的“丧”, 这种丧味十足的帖子我们已经被投喂得太多了 ,还是原来的配方,还是熟悉的味道,说这些话的人,多少显得无聊而耸人听闻。 有这样一句话叫数据重构商业,流量改变未来。不管怎么唱衰,大数据时代已经向我们滚滚而来,早已成为现代社会不可缺少的一部分。 “不参与大数据建设,10年后一定后悔”。 早在几年前,马云就在某次

Spark 全套知识体系,终于搞到了!

福利手慢无 ☆☞ 廖雪峰的大数据开发必备教程-Spark视频资料终于免费啦!限额领取~ 2019年已过去3/4,年初许下的愿实现了吗?可爱的程序员们都有哪些愿望呢? 找个女朋友。升级电脑、键盘、鼠标等。来一次说走就走的旅行。升职&加薪。…… 说起“升职&加薪”,一向“多金”的程序员们,今年的职场晋升似乎并非那么顺畅。说是大环境所致,这也没错。 但有一部

SaaS系列介绍之十三: SaaS系统体系架构

1 系统体系架构设计   软件开发中系统体系架构决定了一个系统稳定性、健壮性、可扩展性、兼容性和可用性,它是系统的灵魂。体系架构是架构师所关注的核心。良好的体系架构是系统成功的开端,否则,再好的代码与设计也无济于事。   2 当前.net主要的开发框架简介   l Castle   Castle是针对.NET平台的一个开源项目,从数据访问框架ORM到IOC容器,再到WEB层的MVC框架、A

Java核心知识体系-并发与多线程:线程基础

1 先导 Java线程基础主要包含如下知识点,相信我们再面试的过程中,经常会遇到类似的提问。 1、线程有哪几种状态? 线程之间如何转变? 2、线程有哪几种实现方式? 各优缺点? 3、线程的基本操作(线程管理机制)有哪些? 4、线程如何中断? 5、线程有几种互斥同步方式? 如何选择? 6、线程之间的协作方式(通信和协调)? 下面我们 一 一 解读。 2

调用云服务认证体系

一、介绍 基于鸿蒙Next实现应用的认证注册流程。二、场景需求 用户注册模块: 邮箱/手机号验证: 密码设置: 个人信息填写: 用户登录模块: 邮箱/手机号与密码登录: 用户输入注册时的邮箱/手机号和密码。 第三方登录选项: 提供使用社交账号(如微信、Facebook、Google等)直接登录的选项。 忘记密码模块: 找回密码流程: 用户输入注册时的邮箱/手机号,系统发送重置链接或

知识体系的构建与总结——前言

经过两年的学习, 知识零碎很杂,很多都是凭一时兴趣去学的,缺少一个完整的知识体系,利用闲暇时间把这两年来所学的知识归纳一下,做个总结,同时也以便日后温习。 一、机器视觉VS计算机视觉 1.1机器视觉与计算机视觉的联系与区别 1.2视觉发展现状及应用 二、机器视觉系统 2.1视觉系统的研究层次:计算机理论层次、表达与算法层次、硬件实现层次。 2.2双目视觉系统:图像采集、相机

Linux:深入剖析计算机软硬件架构与体系

Linux:深入剖析计算机软硬件架构与体系 一、引言 在计算机科学领域,Linux系统以其开源、灵活、高效的特性,成为众多服务器、嵌入式系统以及个人计算机的首选操作系统。深入理解Linux的软硬件体系和架构,对于提升系统性能、优化应用程序、以及进行高效的系统管理至关重要。本文将从冯诺依曼体系结构出发,深入探讨Linux系统的软硬件构成及其工作原理。 二、冯诺依曼体系结构 冯诺依曼体系结构是