最新 Python3 爬取前程无忧招聘网 mysql和excel 保存数据

本文主要是介绍最新 Python3 爬取前程无忧招聘网 mysql和excel 保存数据,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

Python 爬虫目录
        
        1、最新 Python3 爬取前程无忧招聘网 lxml+xpath
        2、Python3 Mysql保存爬取的数据 正则
        3、Python3 用requests 库 和 bs4 库 最新爬豆瓣电影Top250
        4、Python Scrapy 爬取 前程无忧招聘网
        5、Python3 爬取房价 采用lxml+xpath
        6、持续更新…
        
        
        

本文更新于2021年06月01日

本文爬取网站为https://search.51job.com/list/000000,000000,0000,00,9,99,%25E6%2595%25B0%25E6%258D%25AE%25E5%2588%2586%25E6%259E%2590,2,1.html?

本文选用的是lxml模块,xpath语法提取数据

推荐谷歌用户一个可以帮助xpath调试的插件
Xpath Helper
在这里插入图片描述

1、进行分析网站

在这里插入图片描述

**

要爬取的职位名、公司名、工作地点、薪资的信息都在class="e"里

**
在这里插入图片描述

分析完就可以用xpath 语法进行调试了
完整代码如下:

from selenium import webdriver
from lxml import etree
import time
import pymysql# 设置不启动浏览器
option = webdriver.ChromeOptions()
option.add_argument('headless')def get_url(url):browser = webdriver.Chrome(options=option)browser.get(url)html_text = browser.page_source# browser.quit()# time.sleep(5)return html_textdef GetData(url):""":param url: 目标网址:return:"""html_text = get_url(url)dom = etree.HTML(html_text)dom_list = dom.xpath('//div[@class="j_result"]/div[@class="in"]/div[@class="leftbox"]//div[@class="j_joblist"]//div[@class="e"]')Job_list = []for t in dom_list:# 1.岗位名称job_name = t.xpath('.//a[@class="el"]//span[@class="jname at"]/text()')[0]# print(job_name)  for test# 2.发布时间release_time = t.xpath('.//a[@class="el"]//span[@class="time"]/text()')[0]# 3.工作地点address = t.xpath('.//a[@class="el"]//span[@class="d at"]/text()')[0]# 4.工资salary_mid = t.xpath('.//a[@class="el"]//span[@class="sal"]')salary = [i.text for i in salary_mid][0]  # 列表解析# 5.公司名称company_name = t.xpath('.//div[@class="er"]//a[@class="cname at"]/text()')[0]# 6.公司类型和规模company_type_size = t.xpath('.//div[@class="er"]//p[@class="dc at"]/text()')[0]# 7.行业indusrty = t.xpath('..//div[@class="er"]//p[@class="int at"]/text()')[0]JobInfo = {'job_name': job_name,'address': address,'salary': salary,'company_name': company_name,'company_type_size': company_type_size,'industry': indusrty,'release_time': release_time}Job_list.append(JobInfo)return Job_listdef SaveSql(data):""":param data: 数据:return:"""# 创建连接db = pymysql.Connect(host='localhost',  # mysql服务器地址port=3306,  # mysql服务器端口号user='root',  # 用户名passwd='123123',  # 密码db='save_data',  # 数据库名charset='utf8'  # 连接编码)# 创建游标cursor = db.cursor()# 使用预处理语句创建表cursor.execute("""create table if not exists Job_info(ID INT PRIMARY KEY AUTO_INCREMENT ,job_name VARCHAR(100) ,address VARCHAR (100),salary  VARCHAR (30),company_name VARCHAR (100) ,company_type_size VARCHAR (100),industry VARCHAR (50),release_time VARCHAR (30))""")for i in data:insert = "INSERT INTO Job_info(" \"job_name,address,salary,company_name,company_type_size,industry,release_time" \")values(%s,%s,'%s',%s,%s,%s,%s)" % (repr(i['job_name']), repr(i['address']), i['salary'], repr(i['company_name']),repr(i['company_type_size']), repr(i['industry']), repr(i['release_time']))try:# 执行sql语句cursor.execute(insert)# 执行sql语句db.commit()print("insert ok")except:# 发生错误时回滚db.rollback()db.commit()# 关闭数据库连接db.closeif __name__ == '__main__':for i in range(301, 451):print('开始存储第' + str(i) + '条数据中')url_pre = 'https://search.51job.com/list/000000,000000,0000,00,9,99,%25E6%2595%25B0%25E6%258D%25AE%25E5%2588%2586%25E6%259E%2590,2,'url_end = '.html?'url = url_pre + str(i) + url_endSaveSql(GetData(url))time.sleep(3)print('存储完成')

完成后效果

mysql 存储
在这里插入图片描述

Excel 存储(后续更新)
在这里插入图片描述

有不明白的地方欢迎提问

本文更新于2021年06月01日

这篇关于最新 Python3 爬取前程无忧招聘网 mysql和excel 保存数据的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/680400

相关文章

Python获取中国节假日数据记录入JSON文件

《Python获取中国节假日数据记录入JSON文件》项目系统内置的日历应用为了提升用户体验,特别设置了在调休日期显示“休”的UI图标功能,那么问题是这些调休数据从哪里来呢?我尝试一种更为智能的方法:P... 目录节假日数据获取存入jsON文件节假日数据读取封装完整代码项目系统内置的日历应用为了提升用户体验,

MySQL双主搭建+keepalived高可用的实现

《MySQL双主搭建+keepalived高可用的实现》本文主要介绍了MySQL双主搭建+keepalived高可用的实现,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,... 目录一、测试环境准备二、主从搭建1.创建复制用户2.创建复制关系3.开启复制,确认复制是否成功4.同

MyBatis 动态 SQL 优化之标签的实战与技巧(常见用法)

《MyBatis动态SQL优化之标签的实战与技巧(常见用法)》本文通过详细的示例和实际应用场景,介绍了如何有效利用这些标签来优化MyBatis配置,提升开发效率,确保SQL的高效执行和安全性,感... 目录动态SQL详解一、动态SQL的核心概念1.1 什么是动态SQL?1.2 动态SQL的优点1.3 动态S

Mysql表的简单操作(基本技能)

《Mysql表的简单操作(基本技能)》在数据库中,表的操作主要包括表的创建、查看、修改、删除等,了解如何操作这些表是数据库管理和开发的基本技能,本文给大家介绍Mysql表的简单操作,感兴趣的朋友一起看... 目录3.1 创建表 3.2 查看表结构3.3 修改表3.4 实践案例:修改表在数据库中,表的操作主要

Java利用JSONPath操作JSON数据的技术指南

《Java利用JSONPath操作JSON数据的技术指南》JSONPath是一种强大的工具,用于查询和操作JSON数据,类似于SQL的语法,它为处理复杂的JSON数据结构提供了简单且高效... 目录1、简述2、什么是 jsONPath?3、Java 示例3.1 基本查询3.2 过滤查询3.3 递归搜索3.4

java中使用POI生成Excel并导出过程

《java中使用POI生成Excel并导出过程》:本文主要介绍java中使用POI生成Excel并导出过程,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录需求说明及实现方式需求完成通用代码版本1版本2结果展示type参数为atype参数为b总结注:本文章中代码均为

mysql出现ERROR 2003 (HY000): Can‘t connect to MySQL server on ‘localhost‘ (10061)的解决方法

《mysql出现ERROR2003(HY000):Can‘tconnecttoMySQLserveron‘localhost‘(10061)的解决方法》本文主要介绍了mysql出现... 目录前言:第一步:第二步:第三步:总结:前言:当你想通过命令窗口想打开mysql时候发现提http://www.cpp

MySQL大表数据的分区与分库分表的实现

《MySQL大表数据的分区与分库分表的实现》数据库的分区和分库分表是两种常用的技术方案,本文主要介绍了MySQL大表数据的分区与分库分表的实现,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有... 目录1. mysql大表数据的分区1.1 什么是分区?1.2 分区的类型1.3 分区的优点1.4 分

MySQL错误代码2058和2059的解决办法

《MySQL错误代码2058和2059的解决办法》:本文主要介绍MySQL错误代码2058和2059的解决办法,2058和2059的错误码核心都是你用的客户端工具和mysql版本的密码插件不匹配,... 目录1. 前置理解2.报错现象3.解决办法(敲重点!!!)1. php前置理解2058和2059的错误

Mysql删除几亿条数据表中的部分数据的方法实现

《Mysql删除几亿条数据表中的部分数据的方法实现》在MySQL中删除一个大表中的数据时,需要特别注意操作的性能和对系统的影响,本文主要介绍了Mysql删除几亿条数据表中的部分数据的方法实现,具有一定... 目录1、需求2、方案1. 使用 DELETE 语句分批删除2. 使用 INPLACE ALTER T