3.3 【实战】爬取BOSS直聘招聘信息

2024-08-27 15:20

本文主要是介绍3.3 【实战】爬取BOSS直聘招聘信息,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

第四节:爬取招聘网站信息

课程目标

  • 对boss直聘招聘信息爬取并进行简单的分析

课程内容

编码实现

解析网站:https://www.spidertools.cn/#/curl2Request

1. 爬虫部分
import requests
import pandas as pd
from tqdm import tqdm
import time
def get_job_list(page=1):headers = {"accept": "application/json, text/plain, */*","accept-language": "zh-CN,zh;q=0.9","priority": "u=1, i","referer": "https://www.zhipin.com/web/geek/job?query=python%E5%BC%80%E5%8F%91&city=101270100","sec-ch-ua": "\"Not)A;Brand\";v=\"99\", \"Google Chrome\";v=\"127\", \"Chromium\";v=\"127\"","sec-ch-ua-mobile": "?0","sec-ch-ua-platform": "\"Windows\"","sec-fetch-dest": "empty","sec-fetch-mode": "cors","sec-fetch-site": "same-origin","traceid": "F-a05d1b8WJPFaqSiJ","user-agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/127.0.0.0 Safari/537.36","x-requested-with": "XMLHttpRequest"}cookies = {"Hm_lvt_194df3105ad7148dcf2b98a91b5e727a": "1724658599","HMACCOUNT": "E109D3011F5CA4E9","__g": "-","Hm_lpvt_194df3105ad7148dcf2b98a91b5e727a": "1724674759","__fid": "ef51d0c8944e0fc0a3e5db1854b55699","__zp_stoken__": "ad34fw47CtMKKH0VeaxofG1LCiH9qecONUcKKw4zDgXFQVMK4UMK8w4dkcsOMw4HCrsKzw4HCscKeasK3wrjCtcK1wpdZwqzCssKjUcKRUMKgUMSMwqTCpMSnxInFgcOmf8O0w4XCqEI2FBAUEg4WGhYYHBYaERMXFBAUEg4UEBQSDkI5xIFxMkRDSEM1VlpWEVlpaFFqVRNeTk5HRWEXGV5FP0FDR0HDj0HDhB%2FDi0XDghvDjUHCvmFDT0FFw4caME3DgCAXwr5KEcKAF0AVZWLDk23EjVYnw4TCvj1DR8ODxYRIQCNJPkRKREJPREAzQivDkW%2FEjVwhw4LCszRDHkxARE1AREBETz5GNERLYi5AQTNKEg4XFR03T8OFw4DDh8OrQEQ%3D","__c": "1724658600","__a": "39645613.1724658600..1724658600.19.1.19.19"
}url = "https://www.zhipin.com/wapi/zpgeek/search/joblist.json"params = {"scene": "1","query": "python开发","city": "101270100","experience": "","payType": "","partTime": "","degree": "","industry": "","scale": "","stage": "","position": "","jobType": "","salary": "","multiBusinessDistrict": "","multiSubway": "","page": f"{page}","pageSize": "30"}response = requests.get(url, headers=headers, cookies=cookies, params=params)rj  = response.json()zpData = rj['zpData']jobList = zpData['jobList']return jobList
jobs = []
for i in tqdm(range(1, 3)):jobList = get_job_list(i)jobs.extend(jobList)time.sleep(3)
infos = []
for job in jobs:info = {"职位名称":job[ 'jobName'],"薪资":job[ 'salaryDesc'],"学历要求":job[ 'jobDegree'],"要求技能":job[ 'skills'],"公示名称":job[ 'brandName'],"人员规模":job[ 'brandScaleName'],"福利":job[ 'welfareList'],"行业":job[ 'brandIndustry'],"老板名字":job[ 'bossName'],"职位":job[ 'bossTitle'],"所在城市":job[ 'cityName'],"所在区":job[ 'areaDistrict'],"区域":job[ 'businessDistrict'],"在线状态":"在线" if job["bossOnline"] else "离线",
}   infos.append(info)
df = pd.DataFrame(infos)
df.to_csv("boss直聘python开发岗位信息.csv", index=False)
2. 数据分析部分
import pandas as pd
df = pd.read_csv("boss直聘python开发岗位信息.csv")
df.head()
def print_skill_as(skills):splites_skills = []for sk in skills:splites_skills.extend(sk)se = pd.DataFrame({'技能': splites_skills,})gp = se.groupby("技能")dt = gp.size().sort_values(ascending=False)print(dt)
gp = df.groupby("学历要求")
gp.size().sort_values(ascending=False)
a_df =df[df["人员规模"] == "20-99人"]
b_df =df[df["人员规模"] == "100-499人"]
gp = b_df.groupby("薪资")
gp.size().sort_values(ascending=False)
print_skill_as(b_df["福利"])

这篇关于3.3 【实战】爬取BOSS直聘招聘信息的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1112048

相关文章

Spring Boot + MyBatis Plus 高效开发实战从入门到进阶优化(推荐)

《SpringBoot+MyBatisPlus高效开发实战从入门到进阶优化(推荐)》本文将详细介绍SpringBoot+MyBatisPlus的完整开发流程,并深入剖析分页查询、批量操作、动... 目录Spring Boot + MyBATis Plus 高效开发实战:从入门到进阶优化1. MyBatis

MyBatis 动态 SQL 优化之标签的实战与技巧(常见用法)

《MyBatis动态SQL优化之标签的实战与技巧(常见用法)》本文通过详细的示例和实际应用场景,介绍了如何有效利用这些标签来优化MyBatis配置,提升开发效率,确保SQL的高效执行和安全性,感... 目录动态SQL详解一、动态SQL的核心概念1.1 什么是动态SQL?1.2 动态SQL的优点1.3 动态S

Pandas使用SQLite3实战

《Pandas使用SQLite3实战》本文主要介绍了Pandas使用SQLite3实战,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学... 目录1 环境准备2 从 SQLite3VlfrWQzgt 读取数据到 DataFrame基础用法:读

Python实战之屏幕录制功能的实现

《Python实战之屏幕录制功能的实现》屏幕录制,即屏幕捕获,是指将计算机屏幕上的活动记录下来,生成视频文件,本文主要为大家介绍了如何使用Python实现这一功能,希望对大家有所帮助... 目录屏幕录制原理图像捕获音频捕获编码压缩输出保存完整的屏幕录制工具高级功能实时预览增加水印多平台支持屏幕录制原理屏幕

一文详解SQL Server如何跟踪自动统计信息更新

《一文详解SQLServer如何跟踪自动统计信息更新》SQLServer数据库中,我们都清楚统计信息对于优化器来说非常重要,所以本文就来和大家简单聊一聊SQLServer如何跟踪自动统计信息更新吧... SQL Server数据库中,我们都清楚统计信息对于优化器来说非常重要。一般情况下,我们会开启"自动更新

最新Spring Security实战教程之Spring Security安全框架指南

《最新SpringSecurity实战教程之SpringSecurity安全框架指南》SpringSecurity是Spring生态系统中的核心组件,提供认证、授权和防护机制,以保护应用免受各种安... 目录前言什么是Spring Security?同类框架对比Spring Security典型应用场景传统

最新Spring Security实战教程之表单登录定制到处理逻辑的深度改造(最新推荐)

《最新SpringSecurity实战教程之表单登录定制到处理逻辑的深度改造(最新推荐)》本章节介绍了如何通过SpringSecurity实现从配置自定义登录页面、表单登录处理逻辑的配置,并简单模拟... 目录前言改造准备开始登录页改造自定义用户名密码登陆成功失败跳转问题自定义登出前后端分离适配方案结语前言

OpenManus本地部署实战亲测有效完全免费(最新推荐)

《OpenManus本地部署实战亲测有效完全免费(最新推荐)》文章介绍了如何在本地部署OpenManus大语言模型,包括环境搭建、LLM编程接口配置和测试步骤,本文给大家讲解的非常详细,感兴趣的朋友一... 目录1.概况2.环境搭建2.1安装miniconda或者anaconda2.2 LLM编程接口配置2

Python如何获取域名的SSL证书信息和到期时间

《Python如何获取域名的SSL证书信息和到期时间》在当今互联网时代,SSL证书的重要性不言而喻,它不仅为用户提供了安全的连接,还能提高网站的搜索引擎排名,那我们怎么才能通过Python获取域名的S... 目录了解SSL证书的基本概念使用python库来抓取SSL证书信息安装必要的库编写获取SSL证书信息

Win32下C++实现快速获取硬盘分区信息

《Win32下C++实现快速获取硬盘分区信息》这篇文章主要为大家详细介绍了Win32下C++如何实现快速获取硬盘分区信息,文中的示例代码讲解详细,感兴趣的小伙伴可以跟随小编一起学习一下... 实现代码CDiskDriveUtils.h#pragma once #include <wtypesbase