数据说希拉里会赢,它错在哪里?

2023-10-17 09:40
文章标签 数据 希拉里

本文主要是介绍数据说希拉里会赢,它错在哪里?,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!


0?wx_fmt=jpeg

对搞数字工作的人来说这是一个难熬的夜晚。同时,对商业、政治、体育、学术界等各个领域中越来越重视数据力量的人们来说也是一样。


唐纳德·特朗普的胜利几乎和每一个主要的预测背道而驰,这让分析大量数据便能准确预测事件的信念遭到了质疑。选民们向人们展现了预测性分析尤其是选举预测依旧是很年轻的学科:一些人被误导认为希拉里·克林顿必胜,就是因为一些预测没有考虑到可解释潜在较大误差的背景。


“这是对于精确性的过度吹嘘,”耶鲁大学医药信息学中心的研究者Pradeep Mutalik说道。他计算得出一些投票模型可能和实际结果偏差15到20个百分点。


几乎所有的主要大选预测机构,包括Nate Silver的538网站,纽约时报Upshot,和普林斯顿选举联盟(Princeton Election Consortium),都认为希拉里的获胜概率在百分之70到99之间。


大选预测只是一场正在各行业中发生深远变化的一个小方面,这些行业越来越“着迷”于数据、数据的价值和通过挖掘数据获得节约成本及增加利润的潜力。这是一个幕后的技术,无声的驱动着一切,从人们看到的在线广告,到数十亿美元的并购交易。


从硅谷到工业腹地,例子到处都有。比如微软付给领英260亿美元,很大程度是想要它4亿多人的个人档案和商务交际网数据库。作为美国最大的制造商,通用电气打大赌称产生数据的传感器和软件能够提高它的喷气发动机和其他机械的效率和收益率。


但是数据科学是个需要权衡的科技进步。它能够看到从未有过的东西,但是也可能成为一个缺乏对大环境和细节足够考量的粗钝工具。很多公司和机构悄悄地在幕后应用数据来预测人们的行为,但只是偶尔,就像周二的选举结果一样,消费者很少能够理解这些公式是起什么作用的,以及会出到什么程度的错误。


比如“谷歌流感趋势”项目看似是大数据预测的成功。它根据跟“流感”有关的搜索词来跟踪流感爆发。但是在2012-2013流感季,它的预测夸大了病例数量。


今年,Facebook的程序算法下架了一张挪威人拍的照片,照片上是一个裸体的9岁女孩逃离凝固汽油炸弹的场景。软件代码算下来认为这张照片违反了社交网络上禁止孩童色情作品的规定,而不是展现越南战争和人们苦难的标志性照片。


还有一个微软聊天机器人,本来意图是让它挖掘在线文本来学习“对话理解能力”,但是今年这个机器人很快就被撤回了,因为它的机器学习算法开始生成一些种族歧视的话。

利用数据分析进行善意的尝试,即使其出发点是好的,但不能排除事与愿违的情况。两年前,英国的一个预防自杀群体(the Samaritans),开发了一款免费的App,当自己关注的Twitter用户发布了一些可能表露自杀倾向的短语,比如“憎恨自己”或者“厌倦了孤独”时,可以提醒人们。但是有些人抱怨说这个软件可以在他们最脆弱的时候被滥用来骚扰他们,这个团体很快移走了这个App。


这周选举预测的失败表明,急于利用数据让我们失去了意识到它们局限性的能力。


“民调出现了以前选举从未出现过的偏差。”普林斯顿大学神经科学教授兼普林斯顿选举团创始人萨姆·王(Sam Wang)说。他推测民调可能没有囊括到共和党坚定分子,这些人一开始宣称不投特朗普,但是在投票站改变了他们的想法。


除了选举之夜的教训,还有更多的教训引起了人们对急于在经济和社会中采用数据驱动方式做决策的疑问。


对大数据的狂热来源于硅谷巨人在互联网里的成功故事,比如谷歌,亚马逊和脸书。这些数据大亨利用智能的搜索引擎、社交网络和在线商务,收集了大量的用户数据。数据是燃料,人工智能工具箱里的算法(特别是机器学习)是发动机。


该技术的早期商业用途是通过有针对性的广告,个性化营销和产品推荐来增加销售机会。但是基于大数据的决策分析已经越来越被各个行业所欢迎,也被广泛用于深切影响人们生活的高风险决策,比如帮助人们做医疗诊断,招聘选择和贷款批准。


数据专家说,这种危险在于过度信任数据分析,但是忽视了它的局限性和构建预测模型的人们可能存在的有缺陷的假设。


数据分析这项技术可以是,而且是极其有用的。“但是我们要理解的关键是,数据科学是一个不一定能给你答案,而只能给出概率的工具。”麻省理工商学院的Erick Brynjolfsson教授说道。


Brynjolfsson先生说人们常常不能意识到如果某件事情发生的可能性是70%,这表明还有30%的概率不发生。他说,选举的结果“对数据科学和统计学来说并不是什么令人惊讶之事。它就是这样运作的。”


那么,选举数据和算法发生了什么?看上去答案是:在数字如何呈现和如何让公众理解的两个角度上,投票、分析和解读上缺陷的结合。


538的创始人Silver先生没有立即回复寻求意见的邮件。The Upshot的编辑Amanda Cox和普林斯顿选举联盟的王先生说,州级民调误差很大程度上归因于低估了川普的获胜可能性。


除了民调误差,数据科学家还说选举模型的固有弱点可能导致一些预测错误。在选举之前,预测者把历史民调和最近的民调数据结合在一起,来预测竞选者的获胜几率。一些人还可能考虑了其他变量,比如给在职的竞选人更多的权重。


但是就算有了几十年的民调数据去分析,也难以提前几个月甚至几周,精准地预测一个竞选者成为总统的可能性。耶鲁的Mutalik博士把选举模型预测类比为天气预测。


“就算有最好的模型,依旧很难提前10天预测天气,因为有很多小变化会导致大变化,”Mutalik博士说。“在数学里,这叫做混沌。”


但是不同于天气预测,目前的选举模型一般只考虑到几十年的数据。并且对这个数据集的参数进行微调也能极大地影响计算。


比如说538网站的模型是基于从1972年开始的选举来校准的,这一年是州级民调开始增长的一年。Silver先生在他的博客里写道:在10月24日,这个模型认为希拉里的获胜率为85%,但是当这个网站实验性地以最近的民调数据(追溯到2000年)作校准时,希拉里的获胜率涨到了95%。


分析员说在这次总统大选中另一个大问题是一些州的民调是错误的。比如最近的威斯康星州的民调认为希拉里遥遥领先于川普,而大选的预测用了这个信息来做预测。英国同样遇到了类似的差错,就是民调错误地以为百姓会在6月份的投票里选择留在欧盟。


“如果我们能回到把对竞选人和政党的报告安排在最后的紧要关头的时代,而不是对这些东西的风吹草动进行无止境地播报,我们都会更好。”Brookings研究院的选举专家Thomas E. Mann说道。“它们让人上瘾,而且会让人不再关注更重要的事情。”

原文发布时间为:2016-11-19

本文来自云栖社区合作伙伴“大数据文摘”,了解相关信息可以关注“BigDataDigest”微信公众号


这篇关于数据说希拉里会赢,它错在哪里?的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/224525

相关文章

Redis的数据过期策略和数据淘汰策略

《Redis的数据过期策略和数据淘汰策略》本文主要介绍了Redis的数据过期策略和数据淘汰策略,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一... 目录一、数据过期策略1、惰性删除2、定期删除二、数据淘汰策略1、数据淘汰策略概念2、8种数据淘汰策略

轻松上手MYSQL之JSON函数实现高效数据查询与操作

《轻松上手MYSQL之JSON函数实现高效数据查询与操作》:本文主要介绍轻松上手MYSQL之JSON函数实现高效数据查询与操作的相关资料,MySQL提供了多个JSON函数,用于处理和查询JSON数... 目录一、jsON_EXTRACT 提取指定数据二、JSON_UNQUOTE 取消双引号三、JSON_KE

Python给Excel写入数据的四种方法小结

《Python给Excel写入数据的四种方法小结》本文主要介绍了Python给Excel写入数据的四种方法小结,包含openpyxl库、xlsxwriter库、pandas库和win32com库,具有... 目录1. 使用 openpyxl 库2. 使用 xlsxwriter 库3. 使用 pandas 库

SpringBoot定制JSON响应数据的实现

《SpringBoot定制JSON响应数据的实现》本文主要介绍了SpringBoot定制JSON响应数据的实现,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们... 目录前言一、如何使用@jsonView这个注解?二、应用场景三、实战案例注解方式编程方式总结 前言

使用Python在Excel中创建和取消数据分组

《使用Python在Excel中创建和取消数据分组》Excel中的分组是一种通过添加层级结构将相邻行或列组织在一起的功能,当分组完成后,用户可以通过折叠或展开数据组来简化数据视图,这篇博客将介绍如何使... 目录引言使用工具python在Excel中创建行和列分组Python在Excel中创建嵌套分组Pyt

在Rust中要用Struct和Enum组织数据的原因解析

《在Rust中要用Struct和Enum组织数据的原因解析》在Rust中,Struct和Enum是组织数据的核心工具,Struct用于将相关字段封装为单一实体,便于管理和扩展,Enum用于明确定义所有... 目录为什么在Rust中要用Struct和Enum组织数据?一、使用struct组织数据:将相关字段绑

在Mysql环境下对数据进行增删改查的操作方法

《在Mysql环境下对数据进行增删改查的操作方法》本文介绍了在MySQL环境下对数据进行增删改查的基本操作,包括插入数据、修改数据、删除数据、数据查询(基本查询、连接查询、聚合函数查询、子查询)等,并... 目录一、插入数据:二、修改数据:三、删除数据:1、delete from 表名;2、truncate

Java实现Elasticsearch查询当前索引全部数据的完整代码

《Java实现Elasticsearch查询当前索引全部数据的完整代码》:本文主要介绍如何在Java中实现查询Elasticsearch索引中指定条件下的全部数据,通过设置滚动查询参数(scrol... 目录需求背景通常情况Java 实现查询 Elasticsearch 全部数据写在最后需求背景通常情况下

Java中注解与元数据示例详解

《Java中注解与元数据示例详解》Java注解和元数据是编程中重要的概念,用于描述程序元素的属性和用途,:本文主要介绍Java中注解与元数据的相关资料,文中通过代码介绍的非常详细,需要的朋友可以参... 目录一、引言二、元数据的概念2.1 定义2.2 作用三、Java 注解的基础3.1 注解的定义3.2 内

将sqlserver数据迁移到mysql的详细步骤记录

《将sqlserver数据迁移到mysql的详细步骤记录》:本文主要介绍将SQLServer数据迁移到MySQL的步骤,包括导出数据、转换数据格式和导入数据,通过示例和工具说明,帮助大家顺利完成... 目录前言一、导出SQL Server 数据二、转换数据格式为mysql兼容格式三、导入数据到MySQL数据