Python爬虫爬取51job招聘网站

2024-01-08 05:20

本文主要是介绍Python爬虫爬取51job招聘网站,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

最近学习爬虫,做了一个python爬虫工具写在这里记录一下。

# python爬51job工具,稍微改改就可以爬其他网站
# edit by mengqi Date:2018-07-11
# encoding:uft-8import csv                # 爬下来的数据要写到csv文件中,所以要引入这个模块
from urllib import request, error
from lxml import etree   # 元素树用来进行xpath语法解析时,
import random             # 这里我构造了五个浏览器的user-agent,防止被检测出来# 1. get_html()这个函数是将给定url和encode方式,返回为html的字符串形式
def get_html(url,encode='utf-8'):try:ua_value1 = "Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:61.0) " \"Gecko/20100101 Firefox/61.0"ua_value2 = 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 ' \'(KHTML, like Gecko) Chrome/39.0.2171.71 Safari/537.36'ua_value3 = 'Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.11 ' \'(KHTML, like Gecko) Chrome/23.0.1271.64 Safari/537.11'ua_value4 = 'Mozilla/5.0 (Windows; U; Windows NT 6.1; en-US)' \' AppleWebKit/534.16 (KHTML, like Gecko) Chrome/10.0.648.133 Safari/534.16'ua_value5 = 'Mozilla/5.0 (Windows NT 6.1; WOW64)' \' AppleWebKit/537.1 (KHTML, like Gecko) Chrome/21.0.1180.71 Safari/537.1 LBBROWSER'# 创建user-agent集合,模拟浏览器登陆ua = (ua_value1, ua_value2, ua_value3, ua_value4, ua_value5)  # 元组里面的东西不能随便被修改req = request.Request(url)   # 3.构建爬虫请求对象req.add_header("User-Agent", random.choice(ua))   # 4.在请求头中添加Uer-Agentresponse = request.urlopen(req)    # 5.发送请求并获取服务器的响应对象responsehtml_str2 = response.read().decode(encode)  # 6.从响应对象中读取网页中的源码(响应正文)except error.URLError:            # 抛异常,如果是url错误的话执行这个print('url 请求错误')except error.HTTPError:print('请求错误')except Exception:print('程序错误')return html_str2def crawl_onepage(html_str1):              # 这个方法用来将获取到的str格式的html进行xpath解析到rows这个列表中html_ = etree.HTML(html_str1)       # 将html字符串结构转换成html文档结构html = etree.ElementTree(html_)     # 将html文档结构转换成元素树结构# 使用xpath语法进行数据清洗div_el = html.xpath('//div[@id="resultList"]/div[@class="el"]')  # 获取id=“resultlist‘ 内所有的class=’el‘的div,div的列表rows = list()# 通过for循环寻找每一行el数据for index, el in enumerate(div_el):  # el数据类型是html文档类型el = etree.ElementTree(el)  # 同上:需要将html文档结构再转换成元素树的格式(节点)title = el.xpath('/div/p/span/a/@title')  # 职位名title = title[0] if title else Nonelink = el.xpath('/div/p/span/a/@href')  # 进入详情页的地址link = link[0] if link else None        company = el.xpath('/div/span[@class="t2"]/a/@title')  # 公司company = company[0] if company else Nonecity = el.xpath('/div/span[@class="t3"]/text()')  # 工作地点city = city[0] if city else Nonesalary = el.xpath('/div/span[@class="t4"]/text()')  # 薪水salary = salary[0] if salary else Nonetime = el.xpath('/div/span[@class="t5"]/text()')  # 发布时间time = time[0] if time else Nonechild_str = get_html(link, 'gbk')child_ = etree.HTML(child_str)child = etree.ElementTree(child_)  # 元素树(只有节点才能使用xpath语法)exp = child.xpath('//div[@class="jtag inbox"]/div/span/em[@class="i1"]/parent::span/text()')exp = exp[0] if exp else Nonedegree = child.xpath('//div[@class="jtag inbox"]/div/span/em[@class="i2"]/parent::span/text()')degree = degree[0] if degree else Nonefuli = child.xpath('//div[@class="jtag inbox"]/p/span/text()')fuli = fuli if fuli else None  # 福利就是一个列表,需要将列表转成字符串row = (title, company, city, salary, time, exp, degree, fuli)  # 将每一行数据封装到元祖中# print(row)rows.append(row)  # 每次获取到的职位相关信息,放入到空列表中return rowsdef csv_write(filename,mode,content):                              # 用于写入csv文件的方法with open(filename, mode, newline ="",encoding ='utf-8') as job:         # 用指定的mode方式打开filename文件,指定了编码格式file = csv.writer(job)if mode == 'w':                                 # 写的方式,覆盖写file.writerow(content)if mode == 'a':                                #append方式写,不覆盖file.writerows(content)def crawl_manypage(keyword,start,end):              # 爬取多页数据,第一个参数表示关键字,第二个是开始页,第三个是结束页head = ('职位', '公司', '工作地点', '薪资', '发布时间', '工作经验', '学历', '福利')   # 第一行数据表头csv_write('{}.csv'.format(keyword), 'w', head)                     # 调用刚才的csv_write方法for page in range(start, end+1):                                    # page变量是页数url1 = 'https://search.51job.com/list/010000,000000,0000,00,9,99,{},2,{}.html?' \'lang=c&stype=&postchannel=0000&workyear=99&cotype=99°reefrom=99&jobterm=99' \'&companysize=99&providesalary=99&lonlat=0%2C0&radius=-1&ord_field=0&confirmdate=9&fromType=' \'&dibiaoid=0&address=&line=&specialarea=00&from=&welfare='.format(keyword,page)html_str = get_html(url1,'gbk')                   # 按照gbk的编码格式获取html字符串rows = crawl_onepage(html_str)                    # 调用函数爬取一页数据csv_write('{}.csv'.format(keyword), 'a', rows)    #  写入到csv文件中
# 51job通过协程实现并发爬虫
crawl_manypage('python',1,3)

然后打开pycharm中的python.csv文件右键选择file encoding,选择gbk,就可以用excel打开看到了:


下一篇会对这个爬虫进行优化,并将爬虫结果做简要分析



这篇关于Python爬虫爬取51job招聘网站的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/582450

相关文章

python: 多模块(.py)中全局变量的导入

文章目录 global关键字可变类型和不可变类型数据的内存地址单模块(单个py文件)的全局变量示例总结 多模块(多个py文件)的全局变量from x import x导入全局变量示例 import x导入全局变量示例 总结 global关键字 global 的作用范围是模块(.py)级别: 当你在一个模块(文件)中使用 global 声明变量时,这个变量只在该模块的全局命名空

【Python编程】Linux创建虚拟环境并配置与notebook相连接

1.创建 使用 venv 创建虚拟环境。例如,在当前目录下创建一个名为 myenv 的虚拟环境: python3 -m venv myenv 2.激活 激活虚拟环境使其成为当前终端会话的活动环境。运行: source myenv/bin/activate 3.与notebook连接 在虚拟环境中,使用 pip 安装 Jupyter 和 ipykernel: pip instal

【机器学习】高斯过程的基本概念和应用领域以及在python中的实例

引言 高斯过程(Gaussian Process,简称GP)是一种概率模型,用于描述一组随机变量的联合概率分布,其中任何一个有限维度的子集都具有高斯分布 文章目录 引言一、高斯过程1.1 基本定义1.1.1 随机过程1.1.2 高斯分布 1.2 高斯过程的特性1.2.1 联合高斯性1.2.2 均值函数1.2.3 协方差函数(或核函数) 1.3 核函数1.4 高斯过程回归(Gauss

【学习笔记】 陈强-机器学习-Python-Ch15 人工神经网络(1)sklearn

系列文章目录 监督学习:参数方法 【学习笔记】 陈强-机器学习-Python-Ch4 线性回归 【学习笔记】 陈强-机器学习-Python-Ch5 逻辑回归 【课后题练习】 陈强-机器学习-Python-Ch5 逻辑回归(SAheart.csv) 【学习笔记】 陈强-机器学习-Python-Ch6 多项逻辑回归 【学习笔记 及 课后题练习】 陈强-机器学习-Python-Ch7 判别分析 【学

nudepy,一个有趣的 Python 库!

更多资料获取 📚 个人网站:ipengtao.com 大家好,今天为大家分享一个有趣的 Python 库 - nudepy。 Github地址:https://github.com/hhatto/nude.py 在图像处理和计算机视觉应用中,检测图像中的不适当内容(例如裸露图像)是一个重要的任务。nudepy 是一个基于 Python 的库,专门用于检测图像中的不适当内容。该

pip-tools:打造可重复、可控的 Python 开发环境,解决依赖关系,让代码更稳定

在 Python 开发中,管理依赖关系是一项繁琐且容易出错的任务。手动更新依赖版本、处理冲突、确保一致性等等,都可能让开发者感到头疼。而 pip-tools 为开发者提供了一套稳定可靠的解决方案。 什么是 pip-tools? pip-tools 是一组命令行工具,旨在简化 Python 依赖关系的管理,确保项目环境的稳定性和可重复性。它主要包含两个核心工具:pip-compile 和 pip

HTML提交表单给python

python 代码 from flask import Flask, request, render_template, redirect, url_forapp = Flask(__name__)@app.route('/')def form():# 渲染表单页面return render_template('./index.html')@app.route('/submit_form',

Python3 BeautifulSoup爬虫 POJ自动提交

POJ 提交代码采用Base64加密方式 import http.cookiejarimport loggingimport urllib.parseimport urllib.requestimport base64from bs4 import BeautifulSoupfrom submitcode import SubmitCodeclass SubmitPoj():de

速盾高防cdn是怎么解决网站攻击的?

速盾高防CDN是一种基于云计算技术的网络安全解决方案,可以有效地保护网站免受各种网络攻击的威胁。它通过在全球多个节点部署服务器,将网站内容缓存到这些服务器上,并通过智能路由技术将用户的请求引导到最近的服务器上,以提供更快的访问速度和更好的网络性能。 速盾高防CDN主要采用以下几种方式来解决网站攻击: 分布式拒绝服务攻击(DDoS)防护:DDoS攻击是一种常见的网络攻击手段,攻击者通过向目标网

Python QT实现A-star寻路算法

目录 1、界面使用方法 2、注意事项 3、补充说明 用Qt5搭建一个图形化测试寻路算法的测试环境。 1、界面使用方法 设定起点: 鼠标左键双击,设定红色的起点。左键双击设定起点,用红色标记。 设定终点: 鼠标右键双击,设定蓝色的终点。右键双击设定终点,用蓝色标记。 设置障碍点: 鼠标左键或者右键按着不放,拖动可以设置黑色的障碍点。按住左键或右键并拖动,设置一系列黑色障碍点