#python学习笔记#使用python爬取拉勾网职位信息(二):爬取数据

2024-02-26 01:32

本文主要是介绍#python学习笔记#使用python爬取拉勾网职位信息(二):爬取数据,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

将python环境配置好后,接下来就可以开始动手coding了!

1.创建excel并插入头部数据:

这里的30是总页数,可以从网页中获得,这里为了简便,就暂时写了一个固定值。


2.获取网页数据

获取网页数据需要用到python自带的urllib(type为分类,如:Android,iOS等;index为页数),然后我们可以把获得的data,转成soup用于解析:


可以通过print(data),查看获取到的结果。

3.解析网页数据

通过打印出来的数据可以发现,每个class为“con_list_item default_list”的<li>标签都对应一条职位信息,其中的data-company(公司名称),data-positionname(职位名称),data-salary(薪资)等几个属性正是我们需要的,因此我们需要通过soup去取得这个标签,拿到这些值:

通过soup的find_all方法可以找到整个网页中所有的class为“con_list_item default_list”的<li>标签,然后遍历每个<li>标签取得对应的职位属性,赋值到对应的行,这里我把属性值又赋给了一个叫做RecruitInfo的对象,主要是为了练习一下在python中创建类,只是实现功能的话,也可以直接赋值。sheet.write_merge就是将数值以对应的style写入到对应行、对应列中。

工作年限这个属性由于没有类似class的标识符,因此我是通过截取字符串拿的:

好了,到这里整个爬虫就好了。运行一下应该就可以看到效果了!通过标签获取网页上的数据是爬虫的一种方式,还可以通过json去获取,那就需要一些网络方面的知识了,如抓包等等,有空再来研究一下。

PS:写到这里,鄙人刚想运行一下截个图,就发现拉勾所有的页面,请求下来都变成了这个样子。。。

真的是欲哭无泪啊!!!


7.10更新:

终于找到了上面问题的原因!原来是网站拒绝了此类访问(我在抓智联数据的时候,它提醒我错误502,我才想起是这个原因,拉钩对502这个错误做了处理,真的很心机啊!),ok既然找到了问题,接下来解决就好,我发现在浏览器上依然是可以通过网址打开网页的,因此想通过python获取网页数据,就必须通过设置headers来伪装成浏览器就好了:


抓到的部分数据如下:


Demo下载链接:点我下载(审核通过后更新)



这篇关于#python学习笔记#使用python爬取拉勾网职位信息(二):爬取数据的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/747310

相关文章

详解Vue如何使用xlsx库导出Excel文件

《详解Vue如何使用xlsx库导出Excel文件》第三方库xlsx提供了强大的功能来处理Excel文件,它可以简化导出Excel文件这个过程,本文将为大家详细介绍一下它的具体使用,需要的小伙伴可以了解... 目录1. 安装依赖2. 创建vue组件3. 解释代码在Vue.js项目中导出Excel文件,使用第三

Linux alias的三种使用场景方式

《Linuxalias的三种使用场景方式》文章介绍了Linux中`alias`命令的三种使用场景:临时别名、用户级别别名和系统级别别名,临时别名仅在当前终端有效,用户级别别名在当前用户下所有终端有效... 目录linux alias三种使用场景一次性适用于当前用户全局生效,所有用户都可调用删除总结Linux

Python脚本实现自动删除C盘临时文件夹

《Python脚本实现自动删除C盘临时文件夹》在日常使用电脑的过程中,临时文件夹往往会积累大量的无用数据,占用宝贵的磁盘空间,下面我们就来看看Python如何通过脚本实现自动删除C盘临时文件夹吧... 目录一、准备工作二、python脚本编写三、脚本解析四、运行脚本五、案例演示六、注意事项七、总结在日常使用

java图像识别工具类(ImageRecognitionUtils)使用实例详解

《java图像识别工具类(ImageRecognitionUtils)使用实例详解》:本文主要介绍如何在Java中使用OpenCV进行图像识别,包括图像加载、预处理、分类、人脸检测和特征提取等步骤... 目录前言1. 图像识别的背景与作用2. 设计目标3. 项目依赖4. 设计与实现 ImageRecogni

Python将大量遥感数据的值缩放指定倍数的方法(推荐)

《Python将大量遥感数据的值缩放指定倍数的方法(推荐)》本文介绍基于Python中的gdal模块,批量读取大量多波段遥感影像文件,分别对各波段数据加以数值处理,并将所得处理后数据保存为新的遥感影像... 本文介绍基于python中的gdal模块,批量读取大量多波段遥感影像文件,分别对各波段数据加以数值处

python管理工具之conda安装部署及使用详解

《python管理工具之conda安装部署及使用详解》这篇文章详细介绍了如何安装和使用conda来管理Python环境,它涵盖了从安装部署、镜像源配置到具体的conda使用方法,包括创建、激活、安装包... 目录pytpshheraerUhon管理工具:conda部署+使用一、安装部署1、 下载2、 安装3

Mysql虚拟列的使用场景

《Mysql虚拟列的使用场景》MySQL虚拟列是一种在查询时动态生成的特殊列,它不占用存储空间,可以提高查询效率和数据处理便利性,本文给大家介绍Mysql虚拟列的相关知识,感兴趣的朋友一起看看吧... 目录1. 介绍mysql虚拟列1.1 定义和作用1.2 虚拟列与普通列的区别2. MySQL虚拟列的类型2

Python进阶之Excel基本操作介绍

《Python进阶之Excel基本操作介绍》在现实中,很多工作都需要与数据打交道,Excel作为常用的数据处理工具,一直备受人们的青睐,本文主要为大家介绍了一些Python中Excel的基本操作,希望... 目录概述写入使用 xlwt使用 XlsxWriter读取修改概述在现实中,很多工作都需要与数据打交

使用MongoDB进行数据存储的操作流程

《使用MongoDB进行数据存储的操作流程》在现代应用开发中,数据存储是一个至关重要的部分,随着数据量的增大和复杂性的增加,传统的关系型数据库有时难以应对高并发和大数据量的处理需求,MongoDB作为... 目录什么是MongoDB?MongoDB的优势使用MongoDB进行数据存储1. 安装MongoDB

在C#中获取端口号与系统信息的高效实践

《在C#中获取端口号与系统信息的高效实践》在现代软件开发中,尤其是系统管理、运维、监控和性能优化等场景中,了解计算机硬件和网络的状态至关重要,C#作为一种广泛应用的编程语言,提供了丰富的API来帮助开... 目录引言1. 获取端口号信息1.1 获取活动的 TCP 和 UDP 连接说明:应用场景:2. 获取硬