北上广深数据分析岗位的薪资对比

2024-02-26 11:36

本文主要是介绍北上广深数据分析岗位的薪资对比,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

目录

一、数据介绍及预处理

1、数据介绍

2、数据预处理

二、数据分析

1、岗位数量、薪资水平统计

3、企业维度岗位数量

4、top薪资岗位

三、划重点

少走10年弯路


        之前跟大家分享过BOSS直聘上base北京的数据分析职位薪资数据分析,这次爬了北上广深四个城市的数据分析职位数据,本文简单对比分析拿给大家做参考。

一、数据介绍及预处理

1、数据介绍

        数据包括职位名称、base地点、薪资水平、经验及学历要求、招聘公司、行业、融资阶段、员工规模等 文末获取数据集

图片

2、数据预处理

(1)数据筛选

        由于BOSS直聘上搜索数据分析岗位的结果中,包含一些数据开发、需求分析等其他岗位,因此按照岗位名称是否包含数据分析/商业分析来做筛选

图片

图片

(2)数据分割提取

        在job_area中包括市、行政区、乡镇三级地址,tag_list中包含经验要求、学历要求,company_tag_list中包含行业、融资阶段、员工规模,所以结合split方法、正则表达式分别进行数据提取。

import re
def get_industry(string):try:result=re.findall('(.*?)[0-9].*[0-9].*',string)[0]l=['已上市','不需要融资','未融资','天使轮','A轮','B轮','C轮','D轮及以上']for s in l:result=result.replace(s,'')return resultexcept:return Nonedef get_scale(string):try:result=re.findall('([0-9].*[0-9].*)',string)[0]l=['已上市','不需要融资','未融资','天使轮','A轮','B轮','C轮','D轮及以上']for s in l:if s in result:result=result.split(s)[1]return resultexcept:return Nonedef data_pred(data):df=data[data.job_name.str.contains('数据分析')|data.job_name.str.contains('商业分析')|data.job_name.str.lower().str.contains('bi')].reset_index(drop=True).copy()df=df[~df.salary.str.contains('时')][~df.salary.str.contains('周')].reset_index(drop=True).copy()df['district']=df.job_area.str.split('·').str[1]df['town']=df.job_area.str.split('·').str[2]df['experience']=df.tag_list.str.split('\\n').str[0]df['education']=df.tag_list.str.split('\\n').str[1]df['industry']=df.company_tag_list.apply(get_industry)
#     df['scale']=df.company_tag_list.apply(lambda x:re.findall('([0-9].*[0-9].*)',x)).str[0]df['scale']=df.company_tag_list.apply(get_scale)df['base_salary']=df.salary.str.split('-').str[0]df.base_salary=df.base_salary.astype(float)df.loc[df.salary.str.contains('元/月'),'base_salary']=df.base_salary/1000  # 标准化工资单位为kreturn df

(3)薪资数据处理

        考虑到薪资待遇下限更贴近实际,因此提取左边界作为base_salary用于分析,此外发现大部分salary单位是k、但是还有部分为元,所以进行标准化处理、统一为k,对于部分时薪、周薪的兼职岗位直接剔除。

图片

二、数据分析

1、岗位数量、薪资水平统计

        按照经验要求进行分组统计岗位数量、薪资水平,对北上广深四个城市进行对比。从数据结果来看,北京上海薪资还是略高一些、并且对数据分析岗位的需求量也更大一些。

(1)北京

图片

图片

(2)上海

图片

图片

(3)广州

图片

图片

(4)深圳

图片

图片

3、企业维度岗位数量

        不同城市各企业招聘情况取决于企业职场地域分布,从招聘数量数据也可以看出部分企业(职能部门)办公地区的情况。

北京

图片

上海

图片

广州

图片

深圳

图片

4、top薪资岗位

        除个别极端例子外(如华为应届博士95k、广州市创星体育发展机构应届生50k),整体来看,北京和上海在平均薪资待遇和top待遇上都略高于广州和深圳,几千块的差异还是很明显的。

(1)应届生top薪资

图片

图片

图片

图片

(2)1-3年top薪资

图片

图片

图片

图片

三、划重点

少走10年弯路

        关注威信公众号 Python风控模型与数据分析,回复 北上广深数据分析 获取本篇数据及代码

        还有更多理论、代码分享等你来拿

这篇关于北上广深数据分析岗位的薪资对比的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/748737

相关文章

免费也能高质量!2024年免费录屏软件深度对比评测

我公司因为客户覆盖面广的原因经常会开远程会议,有时候说的内容比较广需要引用多份的数据,我记录起来有一定难度,所以一般都用录屏工具来记录会议内容。这次我们来一起探索有什么免费录屏工具可以提高我们的工作效率吧。 1.福晰录屏大师 链接直达:https://www.foxitsoftware.cn/REC/  录屏软件录屏功能就是本职,这款录屏工具在录屏模式上提供了多种选项,可以选择屏幕录制、窗口

Python:豆瓣电影商业数据分析-爬取全数据【附带爬虫豆瓣,数据处理过程,数据分析,可视化,以及完整PPT报告】

**爬取豆瓣电影信息,分析近年电影行业的发展情况** 本文是完整的数据分析展现,代码有完整版,包含豆瓣电影爬取的具体方式【附带爬虫豆瓣,数据处理过程,数据分析,可视化,以及完整PPT报告】   最近MBA在学习《商业数据分析》,大实训作业给了数据要进行数据分析,所以先拿豆瓣电影练练手,网络上爬取豆瓣电影TOP250较多,但对于豆瓣电影全数据的爬取教程很少,所以我自己做一版。 目

类的load方法和initialize方法对比

1. load方法在main()之前被调用,而initialize方法在main()之后调用 load方法实际是在load_images过程中被调用的。load_images会将当前应用依赖的所有镜像(动态库)加载到内存,在在加载中首先是对镜像进行扫描,将所有包含 load 方法的类加入列表 loadable_classes ,然后从这个列表中逐一调用其所包含的 load 方法。 +[XXCl

JavaScript正则表达式六大利器:`test`、`exec`、`match`、`matchAll`、`search`与`replace`详解及对比

在JavaScript中,正则表达式(Regular Expression)是一种用于文本搜索、替换、匹配和验证的强大工具。本文将深入解析与正则表达式相关的几个主要执行方法:test、exec、match、matchAll、search和replace,并对它们进行对比,帮助开发者更好地理解这些方法的使用场景和差异。 正则表达式基础 在深入解析方法之前,先简要回顾一下正则表达式的基础知识。正则

【HarmonyOS】-TaskPool和Worker的对比实践

ArkTS提供了TaskPool与Worker两种多线程并发方案,下面我们将从其工作原理、使用效果对比两种方案的差异,进而选择适用于ArkTS图片编辑场景的并发方案。 TaskPool与Worker工作原理 TaskPool与Worker两种多线程并发能力均是基于 Actor并发模型实现的。Worker主、子线程通过收发消息进行通信;TaskPool基于Worker做了更多场景化的功能封装,例

一些数学经验总结——关于将原一元二次函数增加一些限制条件后最优结果的对比(主要针对公平关切相关的建模)

1.没有分段的情况 原函数为一元二次凹函数(开口向下),如下: 因为要使得其存在正解,必须满足,那么。 上述函数的最优结果为:,。 对应的mathematica代码如下: Clear["Global`*"]f0[x_, a_, b_, c_, d_] := (a*x - b)*(d - c*x);(*(b c+a d)/(2 a c)*)Maximize[{f0[x, a, b,

claude和chatgpt对比:哪一个更适合你?

前言 我们都知道,Claude和ChatGPT都是当前人工智能领域中备受关注的对话生成模型,作为国外AI模型两大巨头,好像他们的实力都不相上下呀! 这时就会有很多同学疑惑,那我如果想选择AI,到底是选择Claude,还是ChatGPT呢?哪个更好呢?他们之间有什么不同独特的地方呢?他们又分别适合在哪些场景使用呢? 技术背景 Claude是由Anthropic公司开发的高性能模型,而Chat

算法复杂度 —— 数据结构前言、算法效率、时间复杂度、空间复杂度、常见复杂度对比、复杂度算法题(旋转数组)

目录 一、数据结构前言 1、数据结构 2、算法 3、学习方法 二、 算法效率 引入概念:算法复杂度  三、时间复杂度 1、大O的渐进表示法 2、时间复杂度计算示例  四、空间复杂度 计算示例:空间复杂度 五、常见复杂度对比 六、复杂度算法题(旋转数组) 1、思路1 2、思路2 3、思路3 一、数据结构前言 1、数据结构         数据结构(D

win7下安装Canopy(EPD) 及 Pandas进行python数据分析

先安装好canopy,具体安装版本看自己需要那种,我本来是打算安装win764位的,却发现下载总是出现错误,无奈只能下载了32位的! https://store.enthought.com/downloads/#default 安装好之后,参考如下连接,进行检验: 之后再根据下面提供的连接进行操作,一般是没问题的! http://jingyan.baidu.com/article/5d6

「大数据分析」图形可视化,如何选择大数据可视化图形?

​图形可视化技术,在大数据分析中,是一个非常重要的关键部分。我们前期通过数据获取,数据处理,数据分析,得出结果,这些过程都是比较抽象的。如果是非数据分析专业人员,很难清楚我们这些工作,到底做了些什么事情。即使是专业人员,在不清楚项目,不了解业务规则,不熟悉技术细节的情况下。要搞清楚我们的大数据分析,这一系列过程,也是比较困难的。 我们在数据处理和分析完成后,一般来说,都需要形成结论报告。怎样让大