入门小远学爬虫(二)(一)简单GET型网页爬虫实战——“前程无忧”爬虫岗位信息的爬取之网页分析

本文主要是介绍入门小远学爬虫(二)(一)简单GET型网页爬虫实战——“前程无忧”爬虫岗位信息的爬取之网页分析,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

文章目录

  • 前程无忧网站
  • Step1:找准自己需要什么东西
  • Step2:进行网页分析
  • Step3:利用XPath Helper插件写出所需信息的大致Xpath路径
  • 小结


前程无忧网站

小远想知道全国各地的爬虫开发工程师的招聘要求,并进行横向比较和分析。大型招聘网站(比如前程无忧)上的岗位需求都是成百上千条,显然,网上的招聘信息太多,自己点开太过繁琐和复杂,手动完成不现实。
所以,
上爬虫
干!
目标,“前程无忧”的爬虫岗信息(网址:https://jobs.51job.com/pachongkaifa)


Step1:找准自己需要什么东西

我需要的数据
在这里插入图片描述

Step2:进行网页分析

使用Chrome浏览器打开网页,发现从第一页到第十三页的URL(统一资源定位器,就是网络地址)分别对应着“https://jobs.51job.com/pachongkaifa/p1/”到“https://jobs.51job.com/pachongkaifa/p13/”,由于网页布局都是一样的,所以只需要完成一页再写一个循环就可以完成所有信息的爬取。

查看网页源代码

右键->检查
在这里插入图片描述
或者直接Ctrl+Shift+C,选中要检查的内容,便可以快速定位到要检查的内容在源代码中的位置,个人比较推荐这种方法、

网页检查

以防万一,需要看一眼这个网页获取服务器上数据的方式是GET还是POST,一般来说,如果不涉及登录信息或者其他验证步骤的网页都是GET方式获取的,但此处为了讲解得更加详细,展示一下。(关于GET和POST以及其他HTML的相关知识请自行百度)

查看GET和POST

由于我们需要的内容组成为一个一个小的单元(本例中一个岗位就有自己的若干属性信息,如“岗位名称”、“所属公司”、“薪资待遇"等等),所以抽丝剥茧之后,需要整理出一个该网页所需信息的结构框架

大致如下两图所示:
框架1
框架2

Step3:利用XPath Helper插件写出所需信息的大致Xpath路径

关于本插件,博主有在之前的文章中提到,不再赘述

此处博主找到的Xpath路径为

//div[@class=“detlist gbox”]/div

插件内容

具体将本版块拿下来之后需要做什么,需要在程序中完成,将在之后的文章中陆续更新。

下一课已经更新

小结

分析网页三部曲:
1、找准自己需要获取的网页内容并检查获取方式(GET、POST)
2、查看源代码,理解其网页框架
3、通过插件更快地确定所需内容的Xpath路径。

如果觉得博主写的还不错的,欢迎点赞、评论、加关注,大家的访问就是博主更新文章不竭的源动力!

这篇关于入门小远学爬虫(二)(一)简单GET型网页爬虫实战——“前程无忧”爬虫岗位信息的爬取之网页分析的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!


原文地址:https://blog.csdn.net/I_am_Tony_Stark/article/details/110293590
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.chinasem.cn/article/257774

相关文章

Python 迭代器和生成器概念及场景分析

《Python迭代器和生成器概念及场景分析》yield是Python中实现惰性计算和协程的核心工具,结合send()、throw()、close()等方法,能够构建高效、灵活的数据流和控制流模型,这... 目录迭代器的介绍自定义迭代器省略的迭代器生产器的介绍yield的普通用法yield的高级用法yidle

C++ Sort函数使用场景分析

《C++Sort函数使用场景分析》sort函数是algorithm库下的一个函数,sort函数是不稳定的,即大小相同的元素在排序后相对顺序可能发生改变,如果某些场景需要保持相同元素间的相对顺序,可使... 目录C++ Sort函数详解一、sort函数调用的两种方式二、sort函数使用场景三、sort函数排序

Spring Security基于数据库的ABAC属性权限模型实战开发教程

《SpringSecurity基于数据库的ABAC属性权限模型实战开发教程》:本文主要介绍SpringSecurity基于数据库的ABAC属性权限模型实战开发教程,本文给大家介绍的非常详细,对大... 目录1. 前言2. 权限决策依据RBACABAC综合对比3. 数据库表结构说明4. 实战开始5. MyBA

使用Python开发一个简单的本地图片服务器

《使用Python开发一个简单的本地图片服务器》本文介绍了如何结合wxPython构建的图形用户界面GUI和Python内建的Web服务器功能,在本地网络中搭建一个私人的,即开即用的网页相册,文中的示... 目录项目目标核心技术栈代码深度解析完整代码工作流程主要功能与优势潜在改进与思考运行结果总结你是否曾经

kotlin中const 和val的区别及使用场景分析

《kotlin中const和val的区别及使用场景分析》在Kotlin中,const和val都是用来声明常量的,但它们的使用场景和功能有所不同,下面给大家介绍kotlin中const和val的区别,... 目录kotlin中const 和val的区别1. val:2. const:二 代码示例1 Java

Go标准库常见错误分析和解决办法

《Go标准库常见错误分析和解决办法》Go语言的标准库为开发者提供了丰富且高效的工具,涵盖了从网络编程到文件操作等各个方面,然而,标准库虽好,使用不当却可能适得其反,正所谓工欲善其事,必先利其器,本文将... 目录1. 使用了错误的time.Duration2. time.After导致的内存泄漏3. jsO

Spring Boot + MyBatis Plus 高效开发实战从入门到进阶优化(推荐)

《SpringBoot+MyBatisPlus高效开发实战从入门到进阶优化(推荐)》本文将详细介绍SpringBoot+MyBatisPlus的完整开发流程,并深入剖析分页查询、批量操作、动... 目录Spring Boot + MyBATis Plus 高效开发实战:从入门到进阶优化1. MyBatis

MyBatis 动态 SQL 优化之标签的实战与技巧(常见用法)

《MyBatis动态SQL优化之标签的实战与技巧(常见用法)》本文通过详细的示例和实际应用场景,介绍了如何有效利用这些标签来优化MyBatis配置,提升开发效率,确保SQL的高效执行和安全性,感... 目录动态SQL详解一、动态SQL的核心概念1.1 什么是动态SQL?1.2 动态SQL的优点1.3 动态S

Mysql表的简单操作(基本技能)

《Mysql表的简单操作(基本技能)》在数据库中,表的操作主要包括表的创建、查看、修改、删除等,了解如何操作这些表是数据库管理和开发的基本技能,本文给大家介绍Mysql表的简单操作,感兴趣的朋友一起看... 目录3.1 创建表 3.2 查看表结构3.3 修改表3.4 实践案例:修改表在数据库中,表的操作主要

Pandas使用SQLite3实战

《Pandas使用SQLite3实战》本文主要介绍了Pandas使用SQLite3实战,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学... 目录1 环境准备2 从 SQLite3VlfrWQzgt 读取数据到 DataFrame基础用法:读