推荐 :数据科学与大数据技术面试建议与技巧之危险信号

2024-04-28 13:18

本文主要是介绍推荐 :数据科学与大数据技术面试建议与技巧之危险信号,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

本文列举了12个危险信号,当数据科学家职位面试中发现公司存在这些危险信号时,你应该要远离这家公司。如果你想加入一家公司作为他们的第一个数据科学家,你将面临一系列不同的挑战。例如你极有可能要做很多数据工程工作(参见信号1),拓宽自己的数据科学思维模式。这些工作的确需要有人来完成,但我们通常建议你不要担任第一个数据科学角色,除非你有数据工程背景并且想做这方面的工作。如果你所面试的公司只有一位数据科学领导者并且他们正在建立一个团队,你可以询问他们计划如何处理下面提出的问题。但请记住,承诺一个理想的系统总是比实现一个更容易。


数据科学团队运行方面的危险信号


1没有数据工程或基础设施

数据科学要求数据在分析环节能被方便使用或获取。如果公司没有一个维护良好的数据基础设施,那么你将无法获得工作所需。数据工程师的职责是获取数据以供数据分析环节使用,如果公司没有数据工程师,那么你不得不自己完成数据获取工作。如果你觉得你能胜任数据工程师的角色,上述问题可能无所谓,否则你不得不在获取有价值的数据上花费很多精力。

在面试期间要问的问题:贵公司的数据基础设施是什么样的?维护者是谁? 数据通常采用什么格式(Excel、SQL数据库、csv)?


2没有数据科学家之间的同行评审

一个强大的数据科学团队有办法确保任何错误不被遗漏。实现方法包括代码审查、练习演示以及与团队的一致性检查。如果团队不能始终如一地执行这些操作,那么错误在工作交付之后才会被发现,并导致某些人因此受到斥责。

在面试期间要问的问题:团队采取哪些步骤进行质量保证和同行评审?


3团队中没有标准的语言集

许多数据科学团队允许团队中的任何人使用他们想要使用的任何语言。这个想法的初衷是,如果每个人都使用他们喜欢的语言,工作将更快完成。但这种做法存在一个很大的问题:当每个人都使用不同的语言时,人们无法将自己的工作交付给其他人。每项数据科学任务都由独立的个体负责,如果他们辞职了、生病了、或者需要帮助时,没有人能够接手他们的工作或者帮助他们,这就会造成一个非常紧张的工作环境。其实在工作中使用R、Python、甚至SAS其实都是可以的,但团队必须使用一套一致的语言。

在面试期间要问的问题:您的团队使用哪些语言?贵公司如何决定是否采用新语言?


4不了解数据的需求层次

与没有数据基础设施类似,有些公司对人工智能这样的概念感到非常兴奋,但却没有相应的基础。机器学习和人工智能要求公司具备高水平的数据科学成熟度,包括了解如何构建模型、它们的局限性以及如何部署它们。当公司不切实际的期望与现实相遇时,你可能会受到指责。

在面试期间要问的问题:公司如何平衡花费在实现复杂算法(如人工智能)与基础性工作(如清洗数据、检查数据质量和添加日志)上的时间?


5团队没有版本控制

成熟的数据科学团队使用git(开源的分布式版本控制系统)来跟踪分析和代码的变化。不够成熟的团队则使用诸如共享网络文件夹之类的方法,采用这些方法会导致你无法了解内容是何时被更改的、内容为何被更改、以前版本的内容是什么。甚至有些团队根本不会共享代码,只依靠数据科学家的个人笔记本电脑进行工作。你应当像避免瘟疫一样,对最后列举的这种团队敬而远之。 因为团队若无法共享代码,则团队成员也无法一起工作。

在面试期间要问的问题:贵公司如何在团队中共享代码?是所有代码都是共享的还是只是其中一部分?


6未划分运行报表和做分析间的界限

创建和维护报表、构建数据科学模型、将机器学习模型投入生产等不同的工作任务所需的技能组合都是不同的。如果公司无法明确每个人具体做什么工作,那么你将以完全不同于你预期的方式开始并结束你的工作。相信你并不希望在第一天进入公司时,期望的工作内容为建立时间序列预测,结果发现实际工作任务却是刷新月度销售的Excel电子表格。

在面试期间要问的问题:贵公司如何划分报表管理、分析、生产模型构建的任务?



公司如何评估他人方面的危险信号


1面试过程是非结构化的

结构化的面试过程意味着每位应聘者都能得到相同的问题集,从而可以更平等地进行比较。这样做不仅可以减少偏见,还可以促使团队仔细思考在被面试者身上,什么是团队所看重的。如果面试过程是非结构化的,即面试官似乎总是在问一些即兴的问题,那么这就充分表明公司还没有弄清楚自己到底想从应聘者身上得到什么、以及如何得到它。如果公司不知道自己想要什么,那么在工作中你也很难给出他们想要的东西。

建议:观察公司是否为面试准备了一系列问题,或者询问他们是如何选择问你的问题。


2在面试中没有为你预留提问时间

因为面试也是为了让你了解公司情况,所以你需要有时间去询问、去了解。如果公司没有为你预留提问时间,那么说明面试官并不关心你在面试中是否感到舒适,也没有兴趣让你评估自己是否适合该公司和该职位。

建议:如果在面试中你没有时间提问,那么你可以给面试官一张纸条,询问面试官何时适合询问他们问题。


3在面试中没有考察编程能力

虽然编程不是数据科学家最重要的技能,但它是工作中你不得不做的事情。面试的编程部分可以是现场测试,也可以是带回家的测试,但无论如何它肯定是应该存在的。 如果面试过程不包括编程,可能是出于以下几个原因:(1)数据科学团队是新建立的,所以没有人可以主持面试。在这种情况下,你应当意识到你可能无法在工作上获得支持。(2)团队没有时间进行编程面试,这是他们不重视招聘的一个迹象。(3)工作中不需要编程,使用诸如Tableau和Excel等BI(商业智能)工具即可满足工作需求。(4)他们非常信任你的简历内容,所以他们不需要测试你。虽然听起来像是夸赞,但这表明他们迫切希望雇用你。

建议:如果面试不包括编程部分,请询问他们是如何判断哪些应聘者具备该工作所需的技术技能。


4对你入职的前期工作没有计划

公司对于发布的职位招聘应当是有充分理由的。如果公司无法清楚地说明你在前几个月要做些什么,那原因可能是:公司被现有的工作所压垮,需要招聘一些人来一起解决问题。对于团队而言,这是一种非常危险的成长方式。更糟糕的是,这通常发生在没有新员工入职流程的公司。所以这些情况对整个团队来说都非常有压力的,而且这些压力通常也会落在你身上。

建议:请询问公司是否有明确的项目和入职流程。如果他们没有非常明确的答案,那就赶紧溜吧。


5对员工的进修不提供支持

数据科学是一个快速发展的大型领域,如果你不能持续地学习,你就会落后。因而团队应该有相应方法来帮助团队成员保持学习进度。例如可以为员工的在线教育和会议提供资金支持,可以每月组织会议让员工们讨论行业博文,也可以鼓励员工参加会议、开源项目或系列演讲。如果公司愿意这样做,表明公司愿意投资于他们的职员。

建议:询问公司如何支持团队的持续进修。公司是否为会议或研习班提供资金支持?


6不同面试官对职业的认知不一致

通常,面试让你能与公司内部的许多人进行交谈,包括你未来的经理、队友和商业利益相关者。如果对于你所应聘职位的责任、工作类型、角色提供的内容、以及工作的时间,他们有不同的理解与要求,那么他们可能都不认可彼此的观点。如果他们不能达成一致,尤其是在关于你最终要做的工作的相关事情上,那么你的工作最终会充满冲突。

建议:记住面试官们在不同面试中的发言。如果发现不一致,询问为什么。


通过密切观察,你可以避免获得一份你不喜欢的工作。祝你好运!


640?wx_fmt=jpeg

原文URL:http://hookedondata.org/Red-Flags-in-Data-Science-Interviews/

原文标题:Red Flags In Data Science Interviews

原文作者:Emily Robinson

翻译、校对和排版:李雪明、朝乐门


转自:数据科学DataScience 公众号;

END

版权声明:本号内容部分来自互联网,转载请注明原文链接和作者,如有侵权或出处有误请和我们联系。


关联阅读:

原创系列文章:

1:从0开始搭建自己的数据运营指标体系(概括篇)

2 :从0开始搭建自己的数据运营指标体系(定位篇)

3 :从0开始搭建自己的数据运营体系(业务理解篇)

4 :数据指标的构建流程与逻辑

5 :系列 :从数据指标到数据运营指标体系

6:   实战 :为自己的公号搭建一个数据运营指标体系

7:  从0开始搭建自己的数据运营指标体系(运营活动分析)

数据运营 关联文章阅读:  

运营入门,从0到1搭建数据分析知识体系    

推荐 :数据分析师与运营协作的9个好习惯

干货 :手把手教你搭建数据化用户运营体系

推荐 :最用心的运营数据指标解读

干货 : 如何构建数据运营指标体系

从零开始,构建数据化运营体系

干货 :解读产品、运营和数据三个基友关系

干货 :从0到1搭建数据运营体系

数据分析、数据产品 关联文章阅读:

干货 :数据分析团队的搭建和思考

关于用户画像那些事,看这一文章就够了

数据分析师必需具备的10种分析思维。

如何构建大数据层级体系,看这一文章就够了

干货 : 聚焦于用户行为分析的数据产品

如何构建大数据层级体系,看这一文章就够了

80%的运营注定了打杂?因为你没有搭建出一套有效的用户运营体系

从底层到应用,那些数据人的必备技能

读懂用户运营体系:用户分层和分群

做运营必须掌握的数据分析思维,你还敢说不会做数据

合作请加qq:365242293  


更多相关知识请回复:“ 月光宝盒 ”;

数据分析(ID : ecshujufenxi )互联网科技与数据圈自己的微信,也是WeMedia自媒体联盟成员之一,WeMedia联盟覆盖5000万人群。

640?wx_fmt=png

这篇关于推荐 :数据科学与大数据技术面试建议与技巧之危险信号的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/943360

相关文章

Ilya-AI分享的他在OpenAI学习到的15个提示工程技巧

Ilya(不是本人,claude AI)在社交媒体上分享了他在OpenAI学习到的15个Prompt撰写技巧。 以下是详细的内容: 提示精确化:在编写提示时,力求表达清晰准确。清楚地阐述任务需求和概念定义至关重要。例:不用"分析文本",而用"判断这段话的情感倾向:积极、消极还是中性"。 快速迭代:善于快速连续调整提示。熟练的提示工程师能够灵活地进行多轮优化。例:从"总结文章"到"用

大模型研发全揭秘:客服工单数据标注的完整攻略

在人工智能(AI)领域,数据标注是模型训练过程中至关重要的一步。无论你是新手还是有经验的从业者,掌握数据标注的技术细节和常见问题的解决方案都能为你的AI项目增添不少价值。在电信运营商的客服系统中,工单数据是客户问题和解决方案的重要记录。通过对这些工单数据进行有效标注,不仅能够帮助提升客服自动化系统的智能化水平,还能优化客户服务流程,提高客户满意度。本文将详细介绍如何在电信运营商客服工单的背景下进行

不懂推荐算法也能设计推荐系统

本文以商业化应用推荐为例,告诉我们不懂推荐算法的产品,也能从产品侧出发, 设计出一款不错的推荐系统。 相信很多新手产品,看到算法二字,多是懵圈的。 什么排序算法、最短路径等都是相对传统的算法(注:传统是指科班出身的产品都会接触过)。但对于推荐算法,多数产品对着网上搜到的资源,都会无从下手。特别当某些推荐算法 和 “AI”扯上关系后,更是加大了理解的难度。 但,不了解推荐算法,就无法做推荐系

基于MySQL Binlog的Elasticsearch数据同步实践

一、为什么要做 随着马蜂窝的逐渐发展,我们的业务数据越来越多,单纯使用 MySQL 已经不能满足我们的数据查询需求,例如对于商品、订单等数据的多维度检索。 使用 Elasticsearch 存储业务数据可以很好的解决我们业务中的搜索需求。而数据进行异构存储后,随之而来的就是数据同步的问题。 二、现有方法及问题 对于数据同步,我们目前的解决方案是建立数据中间表。把需要检索的业务数据,统一放到一张M

关于数据埋点,你需要了解这些基本知识

产品汪每天都在和数据打交道,你知道数据来自哪里吗? 移动app端内的用户行为数据大多来自埋点,了解一些埋点知识,能和数据分析师、技术侃大山,参与到前期的数据采集,更重要是让最终的埋点数据能为我所用,否则可怜巴巴等上几个月是常有的事。   埋点类型 根据埋点方式,可以区分为: 手动埋点半自动埋点全自动埋点 秉承“任何事物都有两面性”的道理:自动程度高的,能解决通用统计,便于统一化管理,但个性化定

使用SecondaryNameNode恢复NameNode的数据

1)需求: NameNode进程挂了并且存储的数据也丢失了,如何恢复NameNode 此种方式恢复的数据可能存在小部分数据的丢失。 2)故障模拟 (1)kill -9 NameNode进程 [lytfly@hadoop102 current]$ kill -9 19886 (2)删除NameNode存储的数据(/opt/module/hadoop-3.1.4/data/tmp/dfs/na

异构存储(冷热数据分离)

异构存储主要解决不同的数据,存储在不同类型的硬盘中,达到最佳性能的问题。 异构存储Shell操作 (1)查看当前有哪些存储策略可以用 [lytfly@hadoop102 hadoop-3.1.4]$ hdfs storagepolicies -listPolicies (2)为指定路径(数据存储目录)设置指定的存储策略 hdfs storagepolicies -setStoragePo

Hadoop集群数据均衡之磁盘间数据均衡

生产环境,由于硬盘空间不足,往往需要增加一块硬盘。刚加载的硬盘没有数据时,可以执行磁盘数据均衡命令。(Hadoop3.x新特性) plan后面带的节点的名字必须是已经存在的,并且是需要均衡的节点。 如果节点不存在,会报如下错误: 如果节点只有一个硬盘的话,不会创建均衡计划: (1)生成均衡计划 hdfs diskbalancer -plan hadoop102 (2)执行均衡计划 hd

字节面试 | 如何测试RocketMQ、RocketMQ?

字节面试:RocketMQ是怎么测试的呢? 答: 首先保证消息的消费正确、设计逆向用例,在验证消息内容为空等情况时的消费正确性; 推送大批量MQ,通过Admin控制台查看MQ消费的情况,是否出现消费假死、TPS是否正常等等问题。(上述都是临场发挥,但是RocketMQ真正的测试点,还真的需要探讨) 01 先了解RocketMQ 作为测试也是要简单了解RocketMQ。简单来说,就是一个分

深入探索协同过滤:从原理到推荐模块案例

文章目录 前言一、协同过滤1. 基于用户的协同过滤(UserCF)2. 基于物品的协同过滤(ItemCF)3. 相似度计算方法 二、相似度计算方法1. 欧氏距离2. 皮尔逊相关系数3. 杰卡德相似系数4. 余弦相似度 三、推荐模块案例1.基于文章的协同过滤推荐功能2.基于用户的协同过滤推荐功能 前言     在信息过载的时代,推荐系统成为连接用户与内容的桥梁。本文聚焦于