Python+selenium爬取智联招聘的职位信息

2024-03-19 04:40

本文主要是介绍Python+selenium爬取智联招聘的职位信息,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

整个爬虫是基于selenium和Python来运行的,运行需要的包
####相关模块:

  • mysql
  • matplotlib
  • selenium

需要安装selenium火狐浏览器驱动,百度的搜寻。

整个爬虫是模块化组织的,不同功能的函数和类放在不同文件中,最后将需要配置的常量放在constant.py中

整个爬虫的主线程是Main.py文件,在设置好constant.py后就可以直接运行Main.py

####从主线分析

Main.py

import numpy as npimport dataFactory
import plotpy
import sqlDeal
import zhilian
from Constant import JOB_KEY
'''
遇到不懂的问题?Python学习交流群:1136201545满足你的需求,资料都已经上传群文件,可以自行下载!
'''
#
# 启动爬虫程序
zhilian.spidefmain(JOB_KEY)"""爬取数据结束后对数据可视化处理
"""
# 从数据库读取爬取的数据
# 先得到的是元组name,salray,demand,welfarevalue = sqlDeal.sqlselect()
# 工资上限,下限,平均值
updata = np.array([], dtype=np.int)
downdata = np.array([], dtype=np.int)
average = np.array([], dtype=np.int)
for item in value:salray = dataFactory.SarayToInt(item[1])salray.slove()updata = np.append(updata, salray.up)downdata = np.append(downdata, salray.down)average = np.append(average, (salray.up + salray.down) / 2)# 工资上下限
average.sort()# 匹配城市信息 暂时还未实现# 统计信息
# 两种图形都加载出来 方便查看
plotpy.plotl(average)
plotpy.plots(average)print(average, average.sum())
print("平均工资:", average.sum() / len(average))
print("最高:", average.max())
print("最低", average.min())
print("职位数", len(average))

基本是以爬虫整个执行流程来组织的

从功能文件中导入zhilian.py

from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.common.keys import Keys
from selenium.webdriver.support import expected_conditions as EC
from selenium.webdriver.support.ui import WebDriverWaitimport sqlDeal
from Constant import PAGE_NUMBER
'''
遇到不懂的问题?Python学习交流群:1136201545满足你的需求,资料都已经上传群文件,可以自行下载!
'''
def init(key="JAVA"):# 智联招聘的主页搜索关键字,初始化到采集页面url = "https://www.zhaopin.com/"opt = webdriver.FirefoxOptions()opt.set_headless()           #设置无头浏览器模式driver = webdriver.Firefox(options=opt)driver.get(url)driver.find_element_by_class_name("zp-search-input").send_keys(key)# driver.find_element_by_class_name(".zp-search-btn zp-blue-button").click()driver.find_element_by_class_name("zp-search-input").send_keys(Keys.ENTER)import timetime.sleep(2)all = driver.window_handlesdriver.switch_to_window(all[1])url = driver.current_urlreturn urlclass ZhiLian:def __init__(self, key='JAVA'):# 默认key:JAVAindexurl = init(key)self.url = indexurlself.opt = webdriver.FirefoxOptions()self.opt.set_headless()self.driver = webdriver.Firefox(options=self.opt)self.driver.get(self.url)def job_info(self):# 提取工作信息     可以把详情页面加载出来job_names = self.driver.find_elements_by_class_name("job_title")job_sarays = self.driver.find_elements_by_class_name("job_saray")job_demands = self.driver.find_elements_by_class_name("job_demand")job_welfares = self.driver.find_elements_by_class_name("job_welfare")for job_name, job_saray, job_demand, job_welfare in zip(job_names, job_sarays, job_demands, job_welfares):sqlDeal.sqldeal(str(job_name.text), str(job_saray.text), str(job_demand.text), str(job_welfare.text))# 等待页面加载print("等待页面加载")WebDriverWait(self.driver, 10, ).until(EC.presence_of_element_located((By.CLASS_NAME, "job_title")))def page_next(self):try:self.driver.find_elements_by_class_name("btn btn-pager").click()except:return Noneself.url = self.driver.current_urlreturn self.driver.current_urldef spidefmain(key="JAVA"):ZHi = ZhiLian(key)ZHi.job_info()# 设定一个爬取的页数page_count = 0while True:ZHi.job_info()ZHi.job_info()page_count += 1if page_count == PAGE_NUMBER:break# 采集结束后把对象清除del ZHiif __name__ == '__main__':
spidefmain("python")

这是调用selenium模拟浏览器加载动态页面的程序,整个爬虫的核心都是围绕这个文件来进行的。

每爬取一页信息以后就把解析的数据存储到数据库里,数据库处理函数的定义放在另外一个文件里,这里只处理加载和提取信息的逻辑

将数据存入本机的mysql数据库

import mysql.connectorfrom Constant import SELECT
from Constant import SQL_USER
from Constant import database
from Constant import passworddef sqldeal(job_name, job_salray, job_demand, job_welfare):conn = mysql.connector.connect(user=SQL_USER, password=password, database=database, use_unicode=True)cursor = conn.cursor()infostring = "insert into zhilian value('%s','%s','%s','%s')" % (job_name, job_salray, job_demand, job_welfare) + ";"cursor.execute(infostring)conn.commit()conn.close()def sqlselect():conn = mysql.connector.connect(user=SQL_USER, password=password, database=database, use_unicode=True)print("连接数据库读取信息")cursor = conn.cursor()cursor.execute(SELECT)values = cursor.fetchall()conn.commit()conn.close()return values

两个函数

第一个负责存入数据

第二个负责读取数据

读取数据以后在另外的类中处理得到的数据

例如10K-20K这样的信息,为可视化做准备

import matplotlib.pyplot as plt
import numpy as npfrom Constant import JOB_KEY# 线型图def plotl(dta):dta.sort()print("dta", [dta])num = len(dta)x = np.linspace(0, num - 1, num)print([int(da) for da in dta])print(len(dta))plt.figure()line = plt.plot(x, [sum(dta) / num for i in range(num)], dta)# plt.xlim(0, 250)plt.title(JOB_KEY + 'Job_Info')plt.xlabel(JOB_KEY + 'Job_Salray')plt.ylabel('JobNumbers')plt.show()# 条形图def plots(dta):fig = plt.figure()ax = fig.add_subplot(111)ax.hist(dta, bins=15)plt.title(JOB_KEY + 'Job_Info')plt.xlabel(JOB_KEY + 'Job_Salray')plt.ylabel('JobNumbers')
plt.show()

最后将得到的数据放入在画图程序中画图

最后计算相关数据

在爬取过程中及时将数据存入数据库,减少虚拟机内存的占比。

下面放上数据结果image

上面是金融的工作的薪酬调查

下面是材料科学的薪酬调查

image

蓝色为平均工资。

注意在平均线以上的基本为博士和硕士的学历要求。

这篇关于Python+selenium爬取智联招聘的职位信息的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/824818

相关文章

Conda与Python venv虚拟环境的区别与使用方法详解

《Conda与Pythonvenv虚拟环境的区别与使用方法详解》随着Python社区的成长,虚拟环境的概念和技术也在不断发展,:本文主要介绍Conda与Pythonvenv虚拟环境的区别与使用... 目录前言一、Conda 与 python venv 的核心区别1. Conda 的特点2. Python v

Python使用python-can实现合并BLF文件

《Python使用python-can实现合并BLF文件》python-can库是Python生态中专注于CAN总线通信与数据处理的强大工具,本文将使用python-can为BLF文件合并提供高效灵活... 目录一、python-can 库:CAN 数据处理的利器二、BLF 文件合并核心代码解析1. 基础合

Python使用OpenCV实现获取视频时长的小工具

《Python使用OpenCV实现获取视频时长的小工具》在处理视频数据时,获取视频的时长是一项常见且基础的需求,本文将详细介绍如何使用Python和OpenCV获取视频时长,并对每一行代码进行深入解析... 目录一、代码实现二、代码解析1. 导入 OpenCV 库2. 定义获取视频时长的函数3. 打开视频文

Python中你不知道的gzip高级用法分享

《Python中你不知道的gzip高级用法分享》在当今大数据时代,数据存储和传输成本已成为每个开发者必须考虑的问题,Python内置的gzip模块提供了一种简单高效的解决方案,下面小编就来和大家详细讲... 目录前言:为什么数据压缩如此重要1. gzip 模块基础介绍2. 基本压缩与解压缩操作2.1 压缩文

Python设置Cookie永不超时的详细指南

《Python设置Cookie永不超时的详细指南》Cookie是一种存储在用户浏览器中的小型数据片段,用于记录用户的登录状态、偏好设置等信息,下面小编就来和大家详细讲讲Python如何设置Cookie... 目录一、Cookie的作用与重要性二、Cookie过期的原因三、实现Cookie永不超时的方法(一)

Python内置函数之classmethod函数使用详解

《Python内置函数之classmethod函数使用详解》:本文主要介绍Python内置函数之classmethod函数使用方式,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地... 目录1. 类方法定义与基本语法2. 类方法 vs 实例方法 vs 静态方法3. 核心特性与用法(1编程客

Python函数作用域示例详解

《Python函数作用域示例详解》本文介绍了Python中的LEGB作用域规则,详细解析了变量查找的四个层级,通过具体代码示例,展示了各层级的变量访问规则和特性,对python函数作用域相关知识感兴趣... 目录一、LEGB 规则二、作用域实例2.1 局部作用域(Local)2.2 闭包作用域(Enclos

Python实现对阿里云OSS对象存储的操作详解

《Python实现对阿里云OSS对象存储的操作详解》这篇文章主要为大家详细介绍了Python实现对阿里云OSS对象存储的操作相关知识,包括连接,上传,下载,列举等功能,感兴趣的小伙伴可以了解下... 目录一、直接使用代码二、详细使用1. 环境准备2. 初始化配置3. bucket配置创建4. 文件上传到os

使用Python实现可恢复式多线程下载器

《使用Python实现可恢复式多线程下载器》在数字时代,大文件下载已成为日常操作,本文将手把手教你用Python打造专业级下载器,实现断点续传,多线程加速,速度限制等功能,感兴趣的小伙伴可以了解下... 目录一、智能续传:从崩溃边缘抢救进度二、多线程加速:榨干网络带宽三、速度控制:做网络的好邻居四、终端交互

Python中注释使用方法举例详解

《Python中注释使用方法举例详解》在Python编程语言中注释是必不可少的一部分,它有助于提高代码的可读性和维护性,:本文主要介绍Python中注释使用方法的相关资料,需要的朋友可以参考下... 目录一、前言二、什么是注释?示例:三、单行注释语法:以 China编程# 开头,后面的内容为注释内容示例:示例:四