拉钩网 数据分析与可视化

2023-10-24 07:20

本文主要是介绍拉钩网 数据分析与可视化,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

前端时间爬取了拉钩网的某一职位的相关信息,于是就有了分析一下这些数据的想法,爬取的方式可以看我的另一篇博客,

我的数据一被处理成了csv格式的数据,存储在云盘(https://pan.baidu.com/s/1-Iq9fcpJctvL4oe4JZ2HWg)有需要的可自行下载,代码也在里面了,

csv文件的数据主要是以下的这些

在csv中存储的格式为


第一列为职位名称,第二,三列为薪水的范围,第四列为工作城市,第五、六列为工作经验年限,第七列为最低学历,第八列为全职或是实习

首先通过pandas加载数据,将数据读入内存

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import repath = r'C:\Users\cy\Desktop\lagou'
filePath = path+r'\info.csv'
column = ['jobName','lowSalary','highSalary','city','lowYear','highYear','education','workTime']
df = pd.read_csv(filePath,names = column)

先观察不同城市的岗位需求数量

count_by_city = df['city'].value_counts()  #对城市对应的职位数量进行统计
X = count_by_city.index  #获取对应的城市
Y = list(count_by_city)  #获取对应城市的职位
plt.rcParams['font.sans-serif'] = ['SimHei']  #设置可现实中文
for x,y in zip(X,Y):plt.text(x, y+0.05, '%d' % y, ha='center', va= 'bottom')  #绘制条形图上的数字
plt.bar(X,Y)  #绘制图形
plt.savefig(path+r'\jobNum.png') #存储图片
plt.show()  #显示图片

可是很清晰的看到背景的职位数量遥遥领先,我们熟知的北上广深稳做前五,而杭州也拿到了第四的位置,将他转化为饼图看看,

count_by_city = df['city'].value_counts() #对城市对应的职位数量进行统计
X = list(count_by_city.index) #获取对应的城市
Y = list(count_by_city)  #获取对应城市的职位
sum = count_by_city.sum()  #获取职位总数
add = 0 
n = 0  #移除的城市数量
print(len(X),len(Y))
for i in range(len(Y)):if (Y[i-n]<5):print(X[i-n],Y[i-n])add += Y[i-n]X.remove(X[i - n])Y.remove(Y[i-n])n += 1
X.append('其他')
Y.append(add)
plt.rcParams['font.sans-serif'] = ['SimHei']
plt.pie(Y/sum,labels=X,autopct='%1.1f')
plt.axis('equal')
plt.savefig(path+r'\jobNumPie.png')
plt.show()

这里可以更清晰的看到北京吸引力一半多的人才,由于后面的城市人数很少,在饼图中文字显示会重叠,所以这里合成了一个其他,再来看看不同城市的薪水情况

city = df.groupby('city')  #按城市进行分组
group = city.groups  #获取城市的分组
salary = []
city_list = []
for key in group:  #取不同城市的最高薪水的均值和最低薪水的均值的和除以二代表其薪水水平city_list.append(key)salary.append((city.get_group(key)['lowSalary'].mean()+city.get_group(key)['lowSalary'].mean())/2)print(salary)
plt.rcParams['font.sans-serif'] = ['SimHei']
for x,y in zip(city_list,salary):plt.text(x, y+0.05, '%d' % y, ha='center', va= 'bottom')
plt.bar(city_list,salary)
plt.savefig(path+r'\citySalary.png')
plt.show()

可以看到北京依旧是遥遥领先,上深杭则并列第二,而天津和无锡由于数据量单薄,而且还是实习生,所以垫底了,东莞则是招收的是大专学历起步,所以工资 也不高

再看看工作经验对工资的影响,代码就不贴了,都差不多,改改参数就好了

这里去的工作经验是职位信息提供的最高和最低的均值,而零则代表无工作经验或工作经验不限,可以很明显的看到工资随时间的增长在增加,但增长的幅度貌似不怎么大

接下来在看看学历对工资的影响,

本科生和硕士的差别为1k元,而本科生和大专生则达到了10k,可见高考对人生的影响还是相当重要的。

以上就是我对这些数据的简单分析,如果有什么错误的话,欢迎大家指正。

这篇关于拉钩网 数据分析与可视化的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/273610

相关文章

Python:豆瓣电影商业数据分析-爬取全数据【附带爬虫豆瓣,数据处理过程,数据分析,可视化,以及完整PPT报告】

**爬取豆瓣电影信息,分析近年电影行业的发展情况** 本文是完整的数据分析展现,代码有完整版,包含豆瓣电影爬取的具体方式【附带爬虫豆瓣,数据处理过程,数据分析,可视化,以及完整PPT报告】   最近MBA在学习《商业数据分析》,大实训作业给了数据要进行数据分析,所以先拿豆瓣电影练练手,网络上爬取豆瓣电影TOP250较多,但对于豆瓣电影全数据的爬取教程很少,所以我自己做一版。 目

基于SSM+Vue+MySQL的可视化高校公寓管理系统

系统展示 管理员界面 宿管界面 学生界面 系统背景   当前社会各行业领域竞争压力非常大,随着当前时代的信息化,科学化发展,让社会各行业领域都争相使用新的信息技术,对行业内的各种相关数据进行科学化,规范化管理。这样的大环境让那些止步不前,不接受信息改革带来的信息技术的企业随时面临被淘汰,被取代的风险。所以当今,各个行业领域,不管是传统的教育行业

win7下安装Canopy(EPD) 及 Pandas进行python数据分析

先安装好canopy,具体安装版本看自己需要那种,我本来是打算安装win764位的,却发现下载总是出现错误,无奈只能下载了32位的! https://store.enthought.com/downloads/#default 安装好之后,参考如下连接,进行检验: 之后再根据下面提供的连接进行操作,一般是没问题的! http://jingyan.baidu.com/article/5d6

「大数据分析」图形可视化,如何选择大数据可视化图形?

​图形可视化技术,在大数据分析中,是一个非常重要的关键部分。我们前期通过数据获取,数据处理,数据分析,得出结果,这些过程都是比较抽象的。如果是非数据分析专业人员,很难清楚我们这些工作,到底做了些什么事情。即使是专业人员,在不清楚项目,不了解业务规则,不熟悉技术细节的情况下。要搞清楚我们的大数据分析,这一系列过程,也是比较困难的。 我们在数据处理和分析完成后,一般来说,都需要形成结论报告。怎样让大

11Python的Pandas:可视化

Pandas本身并没有直接的可视化功能,但它与其他Python库(如Matplotlib和Seaborn)无缝集成,允许你快速创建各种图表和可视化。这里是一些使用Pandas数据进行可视化的常见方法: 1. 使用Matplotlib Pandas中的plot()方法实际上是基于Matplotlib的,你可以使用它来绘制各种基本图表,例如折线图、柱状图、散点图等。 import pandas

【全网最全】2024年数学建模国赛A题30页完整建模文档+17页成品论文+保奖matla代码+可视化图表等(后续会更新)

您的点赞收藏是我继续更新的最大动力! 一定要点击如下的卡片,那是获取资料的入口! 【全网最全】2024年数学建模国赛A题30页完整建模文档+17页成品论文+保奖matla代码+可视化图表等(后续会更新)「首先来看看目前已有的资料,还会不断更新哦~一次购买,后续不会再被收费哦,保证是全网最全资源,随着后续内容更新,价格会上涨,越早购买,价格越低,让大家再也不需要到处买断片资料啦~💰💸👋」�

Python利用pyecharts实现数据可视化

小编会持续更新知识笔记,如果感兴趣可以三连支持。闲来无事,水文一篇,不过上手实践一下倒还是挺好玩的,这一块知识说不定以后真可以尝试拿来做数据库的报表显示。         有梦别怕苦,想赢别喊累。 目录 前言 JSON数据格式的转换 pyecharts简介和入门使用 前言       小编我今天闲来无事,打算学习一下py,结果你猜怎么着,竟然看到py可以将数据

结合Python与GUI实现比赛预测与游戏数据分析

在现代软件开发中,用户界面设计和数据处理紧密结合,以提升用户体验和功能性。本篇博客将基于Python代码和相关数据分析进行讨论,尤其是如何通过PyQt5等图形界面库实现交互式功能。同时,我们将探讨如何通过嵌入式预测模型为用户提供赛果预测服务。 本文的主要内容包括: 基于PyQt5的图形用户界面设计。结合数据进行比赛预测。文件处理和数据分析流程。 1. PyQt5 图形用户界面设计

使用AI大模型进行企业数据分析与决策支持

使用AI大模型进行企业数据分析与决策支持已成为现代企业管理的重要趋势。AI大模型凭借其强大的数据处理能力和智能分析功能,能够为企业提供精准、高效的数据分析服务,进而支持企业的决策过程。以下是使用AI大模型进行企业数据分析与决策支持的具体方式和优势: 一、AI大模型在数据分析中的应用 超级数据处理能力 海量数据处理:AI大模型能够同时处理海量数据,包括结构化数据、非结构化数据等,满足企业大规模

AIGC与数据分析融合,引领商业智能新变革(TOP企业实践)

AIGC与数据分析融合,引领商业智能新变革(TOP企业实践) 前言AIGC与数据分析融合 前言 在当今数字化时代,数据已成为企业发展的核心资产,而如何从海量数据中挖掘出有价值的信息,成为了企业面临的重要挑战。随着人工智能技术的飞速发展,AIGC(人工智能生成内容)与数据分析的融合为企业提供了新的解决方案。 阿里巴巴作为全球领先的科技公司,一直致力于探索和应用前沿技术,以提升企业