分析师和统计学家可以和谐相处吗?

2024-02-27 05:50

本文主要是介绍分析师和统计学家可以和谐相处吗?,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

作者|Cassie Kozyrkov
编译|VK
来源|https://towardsdatascience.com/can-analysts-and-statisticians-get-along-5c9a65c8d056

当你面对不确定性时,分析师会帮助你提出更好的问题,而统计学家则会给出更严谨的答案。看起来他们好像可以互相协作,可是只是一个美好的梦想,但是这些职业最终以某种方式落到了彼此的咽喉。让我们看看我们是否可以理解分析和统计之间的战争(并提出和平条约)。

定义

由于数据科学职位可能无法准确反映人们的实际工作,所以让我定义一下我的术语:

  • 那些关心数据以进行汇总和提取灵感的人就是我所说的分析师。
  • 我所谓的统计学家就是那些为数据驱动的决策而严格检验假设的人。
  • 拥有对应的知识并且知道怎么做的这两方面都应该具备
  • 那些至少缺失了一方面的就是数据骗子。
    那些既知道如何做又拥有ML/AI专业知识的人称为数据科学家。这种多面手确实是罕见的。请注意,不同的组织对于如何定义数据科学角色具有不同的标准,因此最好在假设之前检查每个人都在谈论同一件事。

分析可帮助您形成假设,而统计数据可用于检验它们。

分析师专注于快速探索数据集的混乱情况,而统计学家则更多地关注于推断数据之外的内容。

数据饥荒

上个世纪的数据集往往比较小,因为收集数据的工作量和存储在20世纪小型硬盘上的成本造成了瓶颈。即使是一个像样的数据集.

数据饥荒挥之不去的影响之一是数据专业之间的竞争。

无论你身处哪个阵营,你可能会认为另一个阵营在试图做你的工作,而且他们做得很糟糕。

如果你在数据饥荒的黑暗时代接受了数据科学训练,你可能会有一种令人讨厌的刻板印象,这种印象源于你未能理解分析师和统计学家扮演着不同的角色。无论你身处哪个阵营,你可能会认为另一个阵营在试图做你的工作,而且他们做得很糟糕。

双方印象

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-XAJnah1A-1583819404819)(http://qiniu.aihubs.net/0_5KldUStza9W1bqAU.jpg)]

统计学家对分析师的看法

一句话:马虎。与统计学家不同,大多数分析师没有经过严格的思考,可以准确地思考哪些结论在不确定性下是有效的,但这没关系……只要他们不尝试根据数据得出结论即可。相反,分析师的最高美德是速度,就是尽快找出其数据集中的内容。

在数据中乱窜的想法使许多统计学家误以为是。最近,我不愿意参加这样的谈话:统计学家(不是我!)反对开发更快的分析工具,因为“这会引起滥用。”是的。一种笨的方法,可以踩踏整个分析事业的有效性。

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-O3egsohJ-1583819404819)(http://qiniu.aihubs.net/1_naFUtAYZgOBsu9CzWuSJZA.gif)]

他认为这样的工具对统计学家不利是正确的,但原因是工作是不同。不幸的是,包括他在内的大多数人都不了解这种区别。

如果您无法拆分数据,并且在弄清楚要问的问题之前先查看了所有数据,那么您就在进行分析,而不是统计。那不一定是一件坏事。分析是重要且有用的-这就是我们如何产生灵感以找出应遵循的方向。当分析师试图以更严格的方式出售灵感时,麻烦就开始了。

遵循一条黄金法则:在出手之前先做决定,或者坚持描述眼前的情况。

如果您没有遵循一个黄金法则:在出手之前先做决定,否则,请坚持描述您的数据集。真正的统计学家会对你所谓的“洞见”嗤之以鼻,不要超越它。请不要把自己太当回事,也不要要求别人这么做。

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-Gcv5vz2r-1583819404821)(http://qiniu.aihubs.net/0_rGbxO2xZug5xerjk.jpg)]

事实上,如果我们把每个人都当作是在做描述性分析,那么在我们的数据推理中,我们都会是最安全的。

除非你告诉我,你的理论让你在出手之前先做决定,否则我就会认为,你给我看的东西只存在于你发现它的地方。人们会在各种各样的事物中发现模式——尤其是当他们被激励着去尽可能多的抱着希望去思考的时候——所以你不会给我留下深刻的印象,除非你在看到模式之前就能预测它的存在。除非你能保证(并证明——数据访问日志,有人知道吗?)你的假设先于你的数据,否则你告诉我的任何事情都应该被视为“好像,应该,你的意见”这种不确定词语。

如果你想在数据分析领域有所突破,你必须遵循一个特定的过程。仅仅因为你的软件吐出一个p值并不意味着真正的统计推断发生了。你必须以一种能够解开你所做事情的哲学正确性的方式来构建环境和收集数据。方程是不够的,它们不能把一个破碎的过程变成一个可信的概括。让我们小心地使用我们的语言,称每件事为“灵感”或“分析”,直到有其他证明。

分析师对统计学家的看法

一句话:迂腐。与分析师不同的是,大多数统计学家都没有接受过帮助你了解哪些兔子洞值得去挖的全面和浅层扫描的训练。对一个分析师来说,你的普通统计学家可能看起来像皇家时间浪费者

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-cUHa8TBE-1583819404822)(http://qiniu.aihubs.net/0_JUZi613wgR5-7ZNT.jpg)]

许多统计学家喜欢把事情做好,即使这些事情一开始并不总是值得去做。这让人想起了一个严厉的五岁小孩,他把沙堡当成了神圣的地方,并对着想要加入沙堡乐趣的四岁小孩大喊大叫。(这种自以为高人一等的态度也无济于事)

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-sotEzmXM-1583819404823)(http://qiniu.aihubs.net/1_gyIwjqt4VUBO3GLVlqNNqA.jpeg)]

生活中的许多决定根本不值得去努力,如果我们对每件事都采取仔细的统计方法,我们就不会完成很多事情。如果你把所有的注意力都放在第一件事情上,你确定你没有错过更有价值的时间利用吗?

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-QKxGnPGm-1583819404824)(http://qiniu.aihubs.net/0_SO-kruHR-8f34fSI.jpg)]

当统计学家在对探索性数据进行不严谨的研究时大声表示反对时,他们在有商业头脑的人看来是可笑的

我常常在想,这种“为了严谨而严谨”的现象,是不是修数学课的结果呢?幼儿园的“如果萨利在一块田里有20只兔子……”这个问题如果一直坚持到研究生院,在研究生院它需要一个三重积分才能得正确答案。

在这么多只兔子之后,谁能责怪统计学家把一切都看得太严肃了呢?这些课程实际上要求你为愚蠢的问题提供复杂的答案吗?那么,你对一个在这十年间成长起来的劳动力有什么期望呢?雇佣大量的数学/统计崇拜者可以让你避免一些问题,但也会让你暴露在其他人面前,包括那些不小心建造每一个沙堡的人。

把我随意的因果推论放在一边,如果你有一个愿意全身心投入到严谨工作中的队友,那么希望这种严谨是值得追求的。如果你的队友不知道该去哪个兔子洞,他们需要有人为他们指出正确的方向。

在分析师的帮助下,统计学家们不再需要在黑暗中摸索前进,在他们的头脑中构建一个宇宙来找出如何提问。相反,他们可以让分析师激发他们的假设和假设。

那么,为什么统计学家不高兴有分析师帮助他们识别什么是值得做的,为什么分析师不高兴把检验我们的结论不是胡说八道?为什么对立和缺乏尊重?

协作

在糟糕的过去,数据集太小而无法拆分,因此您必须在使用它们进行分析和统计之间进行选择。这意味着两组将不得不争夺每个数据集。

在采用现代数据科学方法的组织中,分析人员(灵感/探索)和统计学家(严格/测试)之间的紧密合作是这种文化的一部分。

由于硬件的改进和存储成本的降低,如今许多努力都突破了一个数据集的上限,从而迎来了数据丰富的时代。

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-W72fTOjw-1583819404833)(http://qiniu.aihubs.net/1_TaVBYob-YoCeHKKw4xbd1A.png)]

将您的数据分为一个探索性数据集,每个人都可以从中挖掘灵感;一个测试数据集,以后将由专家用来严格确认探索阶段发现的任何“见解”。

现在,分析师和统计人员可以收到他们自己的原始数据集,从而使勘探专家可以与测试专家协调工作,每个小组都尽自己最大的努力。

假设的生成和检验之间有效协作的代价是数据量。

分析师可以将其作为指导性的冥想,以找出值得追求的目标,而当他们缩小了企业最关心的范围时,剩下的部分将使统计学家可以严格检查分析师的直觉是否值得采取行动。

欢迎来到数据丰富的现代时代!

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-IvCCTDO8-1583819404835)(http://qiniu.aihubs.net/0_T8vk9kh8F6Qs07bV.png)]

尽管今天的典型数据集比上个世纪的数据要大得多(并且更容易共享/访问),但由于初始数据收集非常费力或昂贵,因此有些用例被困在一个数据集时代。我的职业生涯中有一个例子是fMRI数据 -即使在今天,扫描单个人脑也非常昂贵,因此具有数十次扫描的神经科学数据集仍然被认为令人印象深刻。这是天真地假设所有数据都是大数据的原因之一。在某些主题中,信息根本是稀缺的,而从事那些主题的人则面临着一个数据集饥荒的现实。

如果这听起来像您的环境,请思考两方的优缺点,以及你自己本身所需要的跟哪一方可以融洽。

欢迎关注磐创博客资源汇总站:
http://docs.panchuang.net/

欢迎关注PyTorch官方中文教程站:
http://pytorch.panchuang.net/

OpenCV中文官方文档:
http://woshicver.com/

这篇关于分析师和统计学家可以和谐相处吗?的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/751392

相关文章

什么才是相处之道

人与人的相处需要很多的技巧,也许很多人都不懂,可是,不懂不要紧,只要你有心,努力去学习就行,在学习中逐渐积累自己与人相处的经验,让自己在与人相处中逐渐游鱼得水。其实,相处之道很简单,就是互相信任,互相理解,可是现代的社会,这些还存在吗?

Linux tcp timewait相处之道

关于Time wait 的特殊细节 熟悉tcp网络编程的同学对于timewait 状态可以说是既熟悉又陌生。在繁忙的server端,该状态经常会使得server无法bind,或者耗尽可用的port资源。此时此刻,心里往往不知所以,万般无奈。本文结合实验,spec和代码原理,解释了timewait 的几种处理方案。 参考文献 1) unix networking programming 2) C

男生报考数据分析师认证有什么优势

在数据驱动的现代社会,数据分析师已成为连接数据与商业决策的桥梁,其角色日益凸显。在众多报考数据分析师认证的群体中,男生有独特的优势,在这一领域展现出了非凡的潜力和竞争力。本文将深入探讨男生报考数据分析师认证所具备的优势。 男生在逻辑思维方面往往展现出较强的能力,在数据分析中尤为重要。数据分析师需要处理大量的数据,并通过逻辑推理和统计分析,揭示数据背后的规律和趋势。擅长运用逻辑思维来构建分析框架,

12星座的相处之道,你知道多少

引导语:与人相处一直是一门学问,如果能够很好的与人交流,那么很多棘手的事情就比较容易解决。然而,每个人都有自己的相处之道,12星座同样也是。那么,在相处的时候,需要注意什么忌讳的地方呢?又需要回避什么呢?接下来就一起来来看看吧!   与白羊座的相处之道分析:   与白羊座相处,你需要放松一些,别太拘泥于模式你只要和对方开心的笑着闹着就能够很快的和对方打成一片。同时和白羊座的

系统分析师5-数据库特训专题

文章目录 1 数据库设计概述2 规范化与反规范化2.1 规范化2.2 反规范化2.3 案例分析例题1 3 数据库索引与视图的应用3.1 数据库索引3.2 数据库视图3.3 案例分析例题2 4 分布式数据库系统5 数据库分区分表分库5.1 案例分析例题3 6 分布式事务增补6.1 案例分析例题4 7 NoSQL8 附录:思维导图 1 数据库设计概述 数据库设计关注的问题:性能、数据

编程世界的平衡术:日常编码与自我提升的和谐共生

前言         在快速迭代的编程世界中,程序员的角色日益复杂且充满挑战,他们不仅是代码的编织者,更是技术进步的推动者。面对日常编码工作的繁重与个人成长的迫切需求,寻找两者之间的平衡点成为了每位程序员必须深思的问题。以下是我的详细观点,旨在探讨如何在高效工作与持续学习之间构建一座友谊、互利的桥梁。 1. 认识平衡的重要性         首先,程序员需要深刻认识到在繁忙工作中保持学习

【系统分析师】-WEB开发技术

目录 1、负载均衡技术 1.1、应用层负载均衡 1.2、传输层负载均衡 2、有状态和无状态问题 3、CDN内容分发网络 4、持久化技术 1、负载均衡技术 1.1、应用层负载均衡 1)http 重定向 HTTP 重定向就是应用层的请求转发。用户的请求其实已经到了HTTP重定向负载均衡服务器,服务器根据算法要求用户重定向,用户收到重定向请求后,再次请求真正的集群。

【系统分析师】-综合知识-计算机系统基础

1、流水线的吞吐率是指流水线在单位时间里所完成的任务数或输出的结果数。设某流水线有 5 段,有 1 段的时间为 2ns ,另外 4 段的每段时间为 1ns,利用此流水线完成 100 个任务的吞吐率约为(16)个/s 。 2、矢量图像通过使用彩色查找表来获得图像颜色。 真彩色是指图像中的每个像素值都分成R、G、B三个基色分量,色度信号 伪彩色图像的每个像素值实际上是一个索引值或代码,

【系统分析师】-综合知识-计算机网络与信息安全

1、要对消息明文进行加密传送,当前通常使用的加密算法是 报文认证算法:数字摘要 RSA  非对称加密,一般不用于明文 MD5 数字摘要 SHA-1 数字摘要,160位的消息摘要 HMAC 以一个密钥和一个消息为输入,生成一个消息摘要作为输出。 对称加密 RC-5  RC4    密钥长度可变的流加密算法簇,用于WEP、WPA 协议加密 DES   密钥长度56位,分组长度

Windows与Linux的和谐共处时代!

目录 🌈 虚拟机简介:开启多系统并行的钥匙 🔧 VMware安装指南:让梦想照进现实 第一步:下载VMware Workstation 第二步:安装VMware Workstation 第三步:创建Linux虚拟机 你是否曾经梦想过,在同一台电脑上,既能享受Windows的便捷与普及,又能体验到Linux的开源与强大?现在,这一切都不再是梦!借助虚拟机的魔力,Windows