拉钩网 数据分析与可视化

2023-10-24 07:20

本文主要是介绍拉钩网 数据分析与可视化,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

前端时间爬取了拉钩网的某一职位的相关信息,于是就有了分析一下这些数据的想法,爬取的方式可以看我的另一篇博客,

我的数据一被处理成了csv格式的数据,存储在云盘(https://pan.baidu.com/s/1-Iq9fcpJctvL4oe4JZ2HWg)有需要的可自行下载,代码也在里面了,

csv文件的数据主要是以下的这些

在csv中存储的格式为


第一列为职位名称,第二,三列为薪水的范围,第四列为工作城市,第五、六列为工作经验年限,第七列为最低学历,第八列为全职或是实习

首先通过pandas加载数据,将数据读入内存

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import repath = r'C:\Users\cy\Desktop\lagou'
filePath = path+r'\info.csv'
column = ['jobName','lowSalary','highSalary','city','lowYear','highYear','education','workTime']
df = pd.read_csv(filePath,names = column)

先观察不同城市的岗位需求数量

count_by_city = df['city'].value_counts()  #对城市对应的职位数量进行统计
X = count_by_city.index  #获取对应的城市
Y = list(count_by_city)  #获取对应城市的职位
plt.rcParams['font.sans-serif'] = ['SimHei']  #设置可现实中文
for x,y in zip(X,Y):plt.text(x, y+0.05, '%d' % y, ha='center', va= 'bottom')  #绘制条形图上的数字
plt.bar(X,Y)  #绘制图形
plt.savefig(path+r'\jobNum.png') #存储图片
plt.show()  #显示图片

可是很清晰的看到背景的职位数量遥遥领先,我们熟知的北上广深稳做前五,而杭州也拿到了第四的位置,将他转化为饼图看看,

count_by_city = df['city'].value_counts() #对城市对应的职位数量进行统计
X = list(count_by_city.index) #获取对应的城市
Y = list(count_by_city)  #获取对应城市的职位
sum = count_by_city.sum()  #获取职位总数
add = 0 
n = 0  #移除的城市数量
print(len(X),len(Y))
for i in range(len(Y)):if (Y[i-n]<5):print(X[i-n],Y[i-n])add += Y[i-n]X.remove(X[i - n])Y.remove(Y[i-n])n += 1
X.append('其他')
Y.append(add)
plt.rcParams['font.sans-serif'] = ['SimHei']
plt.pie(Y/sum,labels=X,autopct='%1.1f')
plt.axis('equal')
plt.savefig(path+r'\jobNumPie.png')
plt.show()

这里可以更清晰的看到北京吸引力一半多的人才,由于后面的城市人数很少,在饼图中文字显示会重叠,所以这里合成了一个其他,再来看看不同城市的薪水情况

city = df.groupby('city')  #按城市进行分组
group = city.groups  #获取城市的分组
salary = []
city_list = []
for key in group:  #取不同城市的最高薪水的均值和最低薪水的均值的和除以二代表其薪水水平city_list.append(key)salary.append((city.get_group(key)['lowSalary'].mean()+city.get_group(key)['lowSalary'].mean())/2)print(salary)
plt.rcParams['font.sans-serif'] = ['SimHei']
for x,y in zip(city_list,salary):plt.text(x, y+0.05, '%d' % y, ha='center', va= 'bottom')
plt.bar(city_list,salary)
plt.savefig(path+r'\citySalary.png')
plt.show()

可以看到北京依旧是遥遥领先,上深杭则并列第二,而天津和无锡由于数据量单薄,而且还是实习生,所以垫底了,东莞则是招收的是大专学历起步,所以工资 也不高

再看看工作经验对工资的影响,代码就不贴了,都差不多,改改参数就好了

这里去的工作经验是职位信息提供的最高和最低的均值,而零则代表无工作经验或工作经验不限,可以很明显的看到工资随时间的增长在增加,但增长的幅度貌似不怎么大

接下来在看看学历对工资的影响,

本科生和硕士的差别为1k元,而本科生和大专生则达到了10k,可见高考对人生的影响还是相当重要的。

以上就是我对这些数据的简单分析,如果有什么错误的话,欢迎大家指正。

这篇关于拉钩网 数据分析与可视化的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/273610

相关文章

Python数据分析与可视化的全面指南(从数据清洗到图表呈现)

《Python数据分析与可视化的全面指南(从数据清洗到图表呈现)》Python是数据分析与可视化领域中最受欢迎的编程语言之一,凭借其丰富的库和工具,Python能够帮助我们快速处理、分析数据并生成高质... 目录一、数据采集与初步探索二、数据清洗的七种武器1. 缺失值处理策略2. 异常值检测与修正3. 数据

使用Python和Matplotlib实现可视化字体轮廓(从路径数据到矢量图形)

《使用Python和Matplotlib实现可视化字体轮廓(从路径数据到矢量图形)》字体设计和矢量图形处理是编程中一个有趣且实用的领域,通过Python的matplotlib库,我们可以轻松将字体轮廓... 目录背景知识字体轮廓的表示实现步骤1. 安装依赖库2. 准备数据3. 解析路径指令4. 绘制图形关键

8种快速易用的Python Matplotlib数据可视化方法汇总(附源码)

《8种快速易用的PythonMatplotlib数据可视化方法汇总(附源码)》你是否曾经面对一堆复杂的数据,却不知道如何让它们变得直观易懂?别慌,Python的Matplotlib库是你数据可视化的... 目录引言1. 折线图(Line Plot)——趋势分析2. 柱状图(Bar Chart)——对比分析3

使用Vue-ECharts实现数据可视化图表功能

《使用Vue-ECharts实现数据可视化图表功能》在前端开发中,经常会遇到需要展示数据可视化的需求,比如柱状图、折线图、饼图等,这类需求不仅要求我们准确地将数据呈现出来,还需要兼顾美观与交互体验,所... 目录前言为什么选择 vue-ECharts?1. 基于 ECharts,功能强大2. 更符合 Vue

Git可视化管理工具(SourceTree)使用操作大全经典

《Git可视化管理工具(SourceTree)使用操作大全经典》本文详细介绍了SourceTree作为Git可视化管理工具的常用操作,包括连接远程仓库、添加SSH密钥、克隆仓库、设置默认项目目录、代码... 目录前言:连接Gitee or github,获取代码:在SourceTree中添加SSH密钥:Cl

Pandas中统计汇总可视化函数plot()的使用

《Pandas中统计汇总可视化函数plot()的使用》Pandas提供了许多强大的数据处理和分析功能,其中plot()函数就是其可视化功能的一个重要组成部分,本文主要介绍了Pandas中统计汇总可视化... 目录一、plot()函数简介二、plot()函数的基本用法三、plot()函数的参数详解四、使用pl

使用Python实现矢量路径的压缩、解压与可视化

《使用Python实现矢量路径的压缩、解压与可视化》在图形设计和Web开发中,矢量路径数据的高效存储与传输至关重要,本文将通过一个Python示例,展示如何将复杂的矢量路径命令序列压缩为JSON格式,... 目录引言核心功能概述1. 路径命令解析2. 路径数据压缩3. 路径数据解压4. 可视化代码实现详解1

Python 交互式可视化的利器Bokeh的使用

《Python交互式可视化的利器Bokeh的使用》Bokeh是一个专注于Web端交互式数据可视化的Python库,本文主要介绍了Python交互式可视化的利器Bokeh的使用,具有一定的参考价值,感... 目录1. Bokeh 简介1.1 为什么选择 Bokeh1.2 安装与环境配置2. Bokeh 基础2

基于Python打造一个可视化FTP服务器

《基于Python打造一个可视化FTP服务器》在日常办公和团队协作中,文件共享是一个不可或缺的需求,所以本文将使用Python+Tkinter+pyftpdlib开发一款可视化FTP服务器,有需要的小... 目录1. 概述2. 功能介绍3. 如何使用4. 代码解析5. 运行效果6.相关源码7. 总结与展望1

Python Dash框架在数据可视化仪表板中的应用与实践记录

《PythonDash框架在数据可视化仪表板中的应用与实践记录》Python的PlotlyDash库提供了一种简便且强大的方式来构建和展示互动式数据仪表板,本篇文章将深入探讨如何使用Dash设计一... 目录python Dash框架在数据可视化仪表板中的应用与实践1. 什么是Plotly Dash?1.1