分析师和统计学家可以和谐相处吗?

2024-02-27 05:50

本文主要是介绍分析师和统计学家可以和谐相处吗?,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

作者|Cassie Kozyrkov
编译|VK
来源|https://towardsdatascience.com/can-analysts-and-statisticians-get-along-5c9a65c8d056

当你面对不确定性时,分析师会帮助你提出更好的问题,而统计学家则会给出更严谨的答案。看起来他们好像可以互相协作,可是只是一个美好的梦想,但是这些职业最终以某种方式落到了彼此的咽喉。让我们看看我们是否可以理解分析和统计之间的战争(并提出和平条约)。

定义

由于数据科学职位可能无法准确反映人们的实际工作,所以让我定义一下我的术语:

  • 那些关心数据以进行汇总和提取灵感的人就是我所说的分析师。
  • 我所谓的统计学家就是那些为数据驱动的决策而严格检验假设的人。
  • 拥有对应的知识并且知道怎么做的这两方面都应该具备
  • 那些至少缺失了一方面的就是数据骗子。
    那些既知道如何做又拥有ML/AI专业知识的人称为数据科学家。这种多面手确实是罕见的。请注意,不同的组织对于如何定义数据科学角色具有不同的标准,因此最好在假设之前检查每个人都在谈论同一件事。

分析可帮助您形成假设,而统计数据可用于检验它们。

分析师专注于快速探索数据集的混乱情况,而统计学家则更多地关注于推断数据之外的内容。

数据饥荒

上个世纪的数据集往往比较小,因为收集数据的工作量和存储在20世纪小型硬盘上的成本造成了瓶颈。即使是一个像样的数据集.

数据饥荒挥之不去的影响之一是数据专业之间的竞争。

无论你身处哪个阵营,你可能会认为另一个阵营在试图做你的工作,而且他们做得很糟糕。

如果你在数据饥荒的黑暗时代接受了数据科学训练,你可能会有一种令人讨厌的刻板印象,这种印象源于你未能理解分析师和统计学家扮演着不同的角色。无论你身处哪个阵营,你可能会认为另一个阵营在试图做你的工作,而且他们做得很糟糕。

双方印象

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-XAJnah1A-1583819404819)(http://qiniu.aihubs.net/0_5KldUStza9W1bqAU.jpg)]

统计学家对分析师的看法

一句话:马虎。与统计学家不同,大多数分析师没有经过严格的思考,可以准确地思考哪些结论在不确定性下是有效的,但这没关系……只要他们不尝试根据数据得出结论即可。相反,分析师的最高美德是速度,就是尽快找出其数据集中的内容。

在数据中乱窜的想法使许多统计学家误以为是。最近,我不愿意参加这样的谈话:统计学家(不是我!)反对开发更快的分析工具,因为“这会引起滥用。”是的。一种笨的方法,可以踩踏整个分析事业的有效性。

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-O3egsohJ-1583819404819)(http://qiniu.aihubs.net/1_naFUtAYZgOBsu9CzWuSJZA.gif)]

他认为这样的工具对统计学家不利是正确的,但原因是工作是不同。不幸的是,包括他在内的大多数人都不了解这种区别。

如果您无法拆分数据,并且在弄清楚要问的问题之前先查看了所有数据,那么您就在进行分析,而不是统计。那不一定是一件坏事。分析是重要且有用的-这就是我们如何产生灵感以找出应遵循的方向。当分析师试图以更严格的方式出售灵感时,麻烦就开始了。

遵循一条黄金法则:在出手之前先做决定,或者坚持描述眼前的情况。

如果您没有遵循一个黄金法则:在出手之前先做决定,否则,请坚持描述您的数据集。真正的统计学家会对你所谓的“洞见”嗤之以鼻,不要超越它。请不要把自己太当回事,也不要要求别人这么做。

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-Gcv5vz2r-1583819404821)(http://qiniu.aihubs.net/0_rGbxO2xZug5xerjk.jpg)]

事实上,如果我们把每个人都当作是在做描述性分析,那么在我们的数据推理中,我们都会是最安全的。

除非你告诉我,你的理论让你在出手之前先做决定,否则我就会认为,你给我看的东西只存在于你发现它的地方。人们会在各种各样的事物中发现模式——尤其是当他们被激励着去尽可能多的抱着希望去思考的时候——所以你不会给我留下深刻的印象,除非你在看到模式之前就能预测它的存在。除非你能保证(并证明——数据访问日志,有人知道吗?)你的假设先于你的数据,否则你告诉我的任何事情都应该被视为“好像,应该,你的意见”这种不确定词语。

如果你想在数据分析领域有所突破,你必须遵循一个特定的过程。仅仅因为你的软件吐出一个p值并不意味着真正的统计推断发生了。你必须以一种能够解开你所做事情的哲学正确性的方式来构建环境和收集数据。方程是不够的,它们不能把一个破碎的过程变成一个可信的概括。让我们小心地使用我们的语言,称每件事为“灵感”或“分析”,直到有其他证明。

分析师对统计学家的看法

一句话:迂腐。与分析师不同的是,大多数统计学家都没有接受过帮助你了解哪些兔子洞值得去挖的全面和浅层扫描的训练。对一个分析师来说,你的普通统计学家可能看起来像皇家时间浪费者

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-cUHa8TBE-1583819404822)(http://qiniu.aihubs.net/0_JUZi613wgR5-7ZNT.jpg)]

许多统计学家喜欢把事情做好,即使这些事情一开始并不总是值得去做。这让人想起了一个严厉的五岁小孩,他把沙堡当成了神圣的地方,并对着想要加入沙堡乐趣的四岁小孩大喊大叫。(这种自以为高人一等的态度也无济于事)

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-sotEzmXM-1583819404823)(http://qiniu.aihubs.net/1_gyIwjqt4VUBO3GLVlqNNqA.jpeg)]

生活中的许多决定根本不值得去努力,如果我们对每件事都采取仔细的统计方法,我们就不会完成很多事情。如果你把所有的注意力都放在第一件事情上,你确定你没有错过更有价值的时间利用吗?

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-QKxGnPGm-1583819404824)(http://qiniu.aihubs.net/0_SO-kruHR-8f34fSI.jpg)]

当统计学家在对探索性数据进行不严谨的研究时大声表示反对时,他们在有商业头脑的人看来是可笑的

我常常在想,这种“为了严谨而严谨”的现象,是不是修数学课的结果呢?幼儿园的“如果萨利在一块田里有20只兔子……”这个问题如果一直坚持到研究生院,在研究生院它需要一个三重积分才能得正确答案。

在这么多只兔子之后,谁能责怪统计学家把一切都看得太严肃了呢?这些课程实际上要求你为愚蠢的问题提供复杂的答案吗?那么,你对一个在这十年间成长起来的劳动力有什么期望呢?雇佣大量的数学/统计崇拜者可以让你避免一些问题,但也会让你暴露在其他人面前,包括那些不小心建造每一个沙堡的人。

把我随意的因果推论放在一边,如果你有一个愿意全身心投入到严谨工作中的队友,那么希望这种严谨是值得追求的。如果你的队友不知道该去哪个兔子洞,他们需要有人为他们指出正确的方向。

在分析师的帮助下,统计学家们不再需要在黑暗中摸索前进,在他们的头脑中构建一个宇宙来找出如何提问。相反,他们可以让分析师激发他们的假设和假设。

那么,为什么统计学家不高兴有分析师帮助他们识别什么是值得做的,为什么分析师不高兴把检验我们的结论不是胡说八道?为什么对立和缺乏尊重?

协作

在糟糕的过去,数据集太小而无法拆分,因此您必须在使用它们进行分析和统计之间进行选择。这意味着两组将不得不争夺每个数据集。

在采用现代数据科学方法的组织中,分析人员(灵感/探索)和统计学家(严格/测试)之间的紧密合作是这种文化的一部分。

由于硬件的改进和存储成本的降低,如今许多努力都突破了一个数据集的上限,从而迎来了数据丰富的时代。

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-W72fTOjw-1583819404833)(http://qiniu.aihubs.net/1_TaVBYob-YoCeHKKw4xbd1A.png)]

将您的数据分为一个探索性数据集,每个人都可以从中挖掘灵感;一个测试数据集,以后将由专家用来严格确认探索阶段发现的任何“见解”。

现在,分析师和统计人员可以收到他们自己的原始数据集,从而使勘探专家可以与测试专家协调工作,每个小组都尽自己最大的努力。

假设的生成和检验之间有效协作的代价是数据量。

分析师可以将其作为指导性的冥想,以找出值得追求的目标,而当他们缩小了企业最关心的范围时,剩下的部分将使统计学家可以严格检查分析师的直觉是否值得采取行动。

欢迎来到数据丰富的现代时代!

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-IvCCTDO8-1583819404835)(http://qiniu.aihubs.net/0_T8vk9kh8F6Qs07bV.png)]

尽管今天的典型数据集比上个世纪的数据要大得多(并且更容易共享/访问),但由于初始数据收集非常费力或昂贵,因此有些用例被困在一个数据集时代。我的职业生涯中有一个例子是fMRI数据 -即使在今天,扫描单个人脑也非常昂贵,因此具有数十次扫描的神经科学数据集仍然被认为令人印象深刻。这是天真地假设所有数据都是大数据的原因之一。在某些主题中,信息根本是稀缺的,而从事那些主题的人则面临着一个数据集饥荒的现实。

如果这听起来像您的环境,请思考两方的优缺点,以及你自己本身所需要的跟哪一方可以融洽。

欢迎关注磐创博客资源汇总站:
http://docs.panchuang.net/

欢迎关注PyTorch官方中文教程站:
http://pytorch.panchuang.net/

OpenCV中文官方文档:
http://woshicver.com/

这篇关于分析师和统计学家可以和谐相处吗?的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/751392

相关文章

如何与情绪好好相处,真正成为情绪的主人

一、教程描述 若要成为一个聪明的人,就要学会做情绪的主人,而不是被情绪控制自己,为什么要做情绪的主人?至少有以下两个方面原因。 其一,都说,世上还是好人多。可是,为什么你身边没有一个好人?其实,不是你身边没有好人,是因为你自己不够好。很多事情,就是“一环扣一环,环环相扣”的,如果事情在你的手上搞砸了,那么整件事就搞砸了。事情搞砸了还可以挽救,要是情绪也坏了,那么就真的没有挽回的余地了,只会越

业务需求分析师的岗位职责说明(合集)

业务需求分析师的岗位职责说明1   职责:   1、研究并理解客户的战略、商业模式,挖掘并揭示客户的痛点和诉求;   2、引导需求探寻,创建并清楚展示方案蓝图,确保客户和交付团队理解并达成共识;   3、定义关键目标、成功要素,识别风险、挑战、依赖和约束;   4、高效梳理业务需求,负责产品的业务需求分解,流程、功能与交互设计,制作原型,协助项目经理设计商业需求和市场需求分析;

CDA二级(Level II)数据分析师——考试内容梳理四

定额抽样不属于概率抽样 、类型抽样就是分群抽样; 在假设检验中,两类错误的概率相加后不等于1, 在样本量增大的条件下,两类错误的概率可以同时减小, 通常控制第一类错误的概率 ;(去真) 假设检验使用的是反证法,即先提出一个关于总体参数的假设,然后用样本数据来检验这个假设是否可能为真; 在假设检验中,左侧检验为>=,右侧检验为<=,指原假设; 区间估计是使用顺推法,即先不对总体参数提出具体假

Web Workers 与 DOM:异步处理与用户界面的和谐共存

在现代Web应用开发中,处理复杂的计算任务与维护流畅的用户界面体验是两大核心挑战。HTML5引入的Web Workers为解决这一难题提供了有效途径,它允许在后台线程执行脚本,从而避免了长时间运行的计算任务阻塞用户界面(UI)线程。然而,由于Web Workers设计上无法直接访问或修改DOM(文档对象模型),开发者需要巧妙地设计通信策略,以确保计算结果能安全有效地反映在界面上。本文将深入探讨We

抖抖分析师和抖音分析有什么区别?

"抖抖分析师"和"抖音分析"虽然都与抖音这个平台有关,但是二者的含义有很大的区别。 首先,抖抖分析师通常指的是专门对抖音平台进行各种数据分析、用户行为研究、内容趋势预测等工作的人员。他们可能会洞察用户在抖音上的行为习惯,分析最受欢迎的内容类型,或者预测将来可能出现的新趋势。他们的工作成果能够帮助抖音平台自身优化运营策略,也能帮助其他企业或者个人在抖音上开展更有效的广告推广和内容创作。 然后

如何快速上手Python,成为一名数据分析师

如何快速上手Python,成为一名数据分析师 成为一名数据分析师需要掌握Python编程语言以及数据分析相关的知识和技能。以下是一些步骤和建议,帮助你快速上手Python并成为一名数据分析师: 学习Python基础知识:首先,你需要学习Python的基本语法、数据类型、控制流和函数等基础知识。可以通过在线教程、书籍或参加线下课程来学习。 学习数据分析库:Python有许多用于数据分析的库,

从报名到领证:软考高级【系统分析师】报名考试全攻略

本文共计13156字,预计阅读39分钟。包括七个篇章:报名、准考证打印、备考、考试、成绩查询、证书领取及常见问题。 不想看全文的可以点击目录,找到自己想看的篇章进行阅读。 一、报名篇 报名条件要求: 1.凡遵守中华人民共和国宪法和各项法律,恪守职业道德,具有一定计算机技术应用能力的人员,均可根据情况报名参加相应专业类别、级别的考试。 2.获准在中华人民共和国境内就业的外籍人员及港、澳、台

最新!!2024上半年软考【高级】系统分析师 综合知识真题解析

2024上半年软考考试已经结束了,为大家整理了网友回忆版的系统分析师选择题真题及答案,总共30道题。 上半年考试的宝子们可以对答案预估分数!准备下半年考的宝子可以提前把握考试知识点和出题方向,说不定会遇到相同考点的题目! 1、在企业战略与信息化战略集成中,( )是一种以业务为导向的、全面的IT管理咨询实施方法论。 A.业务与IT整合 B.业务架构 C.业务与IT架构

[机缘参悟-190] - 《道家-水木然人间清醒1》读书笔记 -13- 关系界限 - IT人学会欣赏自己、与自己孤独相处,向内求

目录 前言: 1. 做人不求全,做事不求多 2. 一个人成熟的标志 3. 不必向别人解释自己 4. 孤独常伴,唯有内心强大 5. 下一轮文明的引领者 6. 外求与内求 7. 总有人能让我们欣赏 8. 凶狠和温柔 9. 陪伴自己 10. 珍惜拥有 11. 抽离感 12. 利 他 13. 利他与利己的统一:佛家的福报 14. 期 待:外求与内求 15. 内 核 前

抚顺天童美语:让孩子与手机和谐共处:家长只需做这三步!

在数字化时代,手机成为孩子们生活中的一部分。如何引导孩子合理使用手机,成为家长们关注的焦点。其实,家长只需做好以下三点,便能帮助孩子培养手机自律,让手机成为助力成长的工具而非绊脚石。 一、设定明确的手机使用时间 家长要与孩子共同制定每天的手机使用时间,如学习时间、娱乐时间、休息时间等。这样,孩子会明确知道何时可以使用手机,何时应该放下手机。同时,家长也要监督孩子遵守这些规定,确保他们不会沉迷于手机