【Python爬虫】招聘网站实战合集第一弹:爬取前程无忧

2024-02-17 02:50

本文主要是介绍【Python爬虫】招聘网站实战合集第一弹:爬取前程无忧,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

爬个妹子总是没过,没办法,咱们来爬爬招聘网站吧~

在这里插入图片描述

本次以前程无忧为例,看看Python的工资如何。

这是今天的重点

1、爬虫的基本流程
2、re正则表达式模块的简单使用
3、requests模块的使用
4、保存csv

使用的软件

python 3.8
pycharm 2021专业版
pycharm 社区版 (免费) 没有主题
专业版 (需要激活码)
使用的模块
requests >>> pip install requests (数据请求模块) 第三方模块
re
json
csv
time

爬虫最基本的思路

一. 数据来源分析

  1. 确定我们要的爬取的内容是什么?
    招聘基本数据信息
  2. 通过开发者工具进行抓包分析, 分析这些数据是从哪里可以获得
    开发者工具怎么打开 : F12 或者 鼠标右键点击检查

二. 代码实现步骤: 发送请求 >>> 获取数据 >>> 解析数据 >>> 保存数据

  1. 发送请求, 对于url地址发送请求
    https://search.51job.com/list/010000%252C020000%252C030200%252C040000%252C090200,000000,0000,00,9,99,python,2,1.html
  2. 获取数据, 获取服务器发给我们返回的数据响应数据
  3. 解析数据, 提取我们想要的数据内容 (比如 招聘标题, 招聘薪资…)
  4. 保存数据, 保存到csv文件

OK,思路都清楚的话,咱们来康康代码。

首先导入模块

import requests  # 数据请求 第三方模块 pip install requests
import re  # 正则表达式模块
import json  # 序列化与反序列化
import pprint  # 格式化输出模块
import csv  # 保存csv数据

算了,我直接贴代码吧,流程都写清楚了,我把注释也标上了。

关于这篇文章,也有相对应的视频教程:

(<> “复制代码”)

f = open('python招聘数据1.csv', mode='a', encoding='utf-8', newline='')
csv_writer = csv.DictWriter(f, fieldnames=['标题','公司名字','城市','薪资','招聘信息','公司属性','公司规模','企业性质','招聘发布日期','公司详情页','招聘详情页',
])
csv_writer.writeheader() # 写入表头数据
for page in range(1, 11):#  1. 发送请求, 对于url地址发送请求url = f'https://search.51job.com/list/010000%252C020000%252C030200%252C040000%252C090200,000000,0000,00,9,99,python,2,{page}.html'# 把python代码进行伪装, 伪装浏览器对服务器发送请求# User-Agent 浏览器的基本信息headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/95.0.4638.54 Safari/537.36'}response = requests.get(url=url, headers=headers)  # 调用 requests这个模块里面get方法对于 url发送请求#  2. 获取数据, 获取服务器发给我们返回的数据响应数据# <Response [200]> <> 表示response响应对象 200 状态码 表示请求成功# response.text 获取响应体的文本数据(网页源代码)# print(response.text)# 3. 解析数据, 提取我们想要的数据内容 (比如 招聘标题, 招聘薪资...)# 解析方法: re正则表达式, css选择器 xpath  根据服务器返回的数据内容, 选择最适合的解析方式# 遇事不决 .*? 元字符 . 可以匹配任意字符串除了换行符以外 * 匹配前一个字符串 0个或者多个 ? 非贪婪匹配模式# [] 表示列表# {} 可能想到的是字典数据类型# .*? 可以匹配任意字符串 除了 换行符\n# 通过re模块调用 findall 方法 'window.__SEARCH_RESULT__ = (.*?)</script>' 要匹配的数据内容  response.text从哪里匹配数据 [0] 列表索引取第一个元素# 正则表达式详细内容讲解 在VIP课程里面 要讲三个小时左右html_data = re.findall('window.__SEARCH_RESULT__ = (.*?)</script>', response.text, re.S)[0]# print(html_data)# print(type(html_data))# 把这个字符串数据类型 转成 字典数据类型 通过键值对取值方式提取想要的内容json_data = json.loads(html_data)# print(type(json_data))# 字符串的时候 里面的引号是双引号 字典时候就变成了单引号# print(json_data)# pprint.pprint(json_data['engine_jds'])# 字典取值 根据冒号左边的内容, 提取冒号右边的内容# parsel 数据解析for index in json_data['engine_jds']:# pprint.pprint(index)dit = {'标题': index['job_name'],'公司名字': index['company_name'],'城市': index['workarea_text'],'薪资': index['providesalary_text'],'招聘信息': '|'.join(index['attribute_text']),'公司属性': index['companyind_text'],'公司规模': index['companysize_text'],'企业性质': index['companytype_text'],'招聘发布日期': index['issuedate'],'公司详情页': index['company_href'],'招聘详情页': index['job_href'],}csv_writer.writerow(dit)print(dit)

[

关于Python的技术储备

在这里给大家分享一些免费的课程供大家学习,下面是课程里面的截图,扫描最下方的二维码就能全部领取

1.Python所有方向的学习路线

在这里插入图片描述

2.学习软件

工欲善其事必先利其器。学习Python常用的开发软件都在这里了,给大家节省了很多时间。
在这里插入图片描述

3.学习资料

在这里插入图片描述

4.实战资料

实践是检验真理的唯一标准。这里的压缩包可以让你再闲暇之余帮你提升你的个人能力。
在这里插入图片描述

5.视频课程

在这里插入图片描述

好啦今天的分享就到这里结束了,快乐的时光总是短暂呢,想学习更多课程的小伙伴不要着急,有更多惊喜哦~

这篇关于【Python爬虫】招聘网站实战合集第一弹:爬取前程无忧的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/716455

相关文章

基于Python编写一个git自动上传的脚本(打包成exe)

《基于Python编写一个git自动上传的脚本(打包成exe)》这篇文章主要为大家详细介绍了如何基于Python编写一个git自动上传的脚本并打包成exe,文中的示例代码讲解详细,感兴趣的小伙伴可以跟... 目录前言效果如下源码实现利用pyinstaller打包成exe利用ResourceHacker修改e

Python在二进制文件中进行数据搜索的实战指南

《Python在二进制文件中进行数据搜索的实战指南》在二进制文件中搜索特定数据是编程中常见的任务,尤其在日志分析、程序调试和二进制数据处理中尤为重要,下面我们就来看看如何使用Python实现这一功能吧... 目录简介1. 二进制文件搜索概述2. python二进制模式文件读取(rb)2.1 二进制模式与文本

Python中Tkinter GUI编程详细教程

《Python中TkinterGUI编程详细教程》Tkinter作为Python编程语言中构建GUI的一个重要组件,其教程对于任何希望将Python应用到实际编程中的开发者来说都是宝贵的资源,这篇文... 目录前言1. Tkinter 简介2. 第一个 Tkinter 程序3. 窗口和基础组件3.1 创建窗

Django调用外部Python程序的完整项目实战

《Django调用外部Python程序的完整项目实战》Django是一个强大的PythonWeb框架,它的设计理念简洁优雅,:本文主要介绍Django调用外部Python程序的完整项目实战,文中通... 目录一、为什么 Django 需要调用外部 python 程序二、三种常见的调用方式方式 1:直接 im

Python字符串处理方法超全攻略

《Python字符串处理方法超全攻略》字符串可以看作多个字符的按照先后顺序组合,相当于就是序列结构,意味着可以对它进行遍历、切片,:本文主要介绍Python字符串处理方法的相关资料,文中通过代码介... 目录一、基础知识:字符串的“不可变”特性与创建方式二、常用操作:80%场景的“万能工具箱”三、格式化方法

浅析python如何去掉字符串中最后一个字符

《浅析python如何去掉字符串中最后一个字符》在Python中,字符串是不可变对象,因此无法直接修改原字符串,但可以通过生成新字符串的方式去掉最后一个字符,本文整理了三种高效方法,希望对大家有所帮助... 目录方法1:切片操作(最推荐)方法2:长度计算索引方法3:拼接剩余字符(不推荐,仅作演示)关键注意事

python版本切换工具pyenv的安装及用法

《python版本切换工具pyenv的安装及用法》Pyenv是管理Python版本的最佳工具之一,特别适合开发者和需要切换多个Python版本的用户,:本文主要介绍python版本切换工具pyen... 目录Pyenv 是什么?安装 Pyenv(MACOS)使用 Homebrew:配置 shell(zsh

SpringBoot整合 Quartz实现定时推送实战指南

《SpringBoot整合Quartz实现定时推送实战指南》文章介绍了SpringBoot中使用Quartz动态定时任务和任务持久化实现多条不确定结束时间并提前N分钟推送的方案,本文结合实例代码给大... 目录前言一、Quartz 是什么?1、核心定位:解决什么问题?2、Quartz 核心组件二、使用步骤1

Python自动化提取多个Word文档的文本

《Python自动化提取多个Word文档的文本》在日常工作和学习中,我们经常需要处理大量的Word文档,本文将深入探讨如何利用Python批量提取Word文档中的文本内容,帮助你解放生产力,感兴趣的小... 目录为什么需要批量提取Word文档文本批量提取Word文本的核心技术与工具安装 Spire.Doc

SpringBoot整合AOP及使用案例实战

《SpringBoot整合AOP及使用案例实战》本文详细介绍了SpringAOP中的切入点表达式,重点讲解了execution表达式的语法和用法,通过案例实战,展示了AOP的基本使用、结合自定义注解以... 目录一、 引入依赖二、切入点表达式详解三、案例实战1. AOP基本使用2. AOP结合自定义注解3.