【从零开始学爬虫】采集事业单位最新招聘信息

2024-06-02 01:18

本文主要是介绍【从零开始学爬虫】采集事业单位最新招聘信息,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

l 采集网站

【场景描述】采集上海交通大学最新招聘信息。

【爬虫下载】http://forenose.com/view/forespider/view/download.html

【入口网址】https://postd.sjtu.edu.cn/bshzp/10.htm

图片

【采集内容】

采集该网站上发布的招聘公告信息,采集字段为:招聘标题、发布时间、招聘正文。

图片

l 思路分析

配置思路概览:

图片

 

l 配置步骤

1. 新建采集任务

选择【采集配置】,点击任务列表右上方【+】号可新建采集任务,将采集入口地址填写在【采集地址】框中,【任务名称】自定义即可,点击下一步。

图片

继续勾选列表链接、普通翻页,然后点击完成,创建成功。

图片

 

2. 抽取列表链接

配置列表链接,将所有招聘公告的链接都抽取出来,在此使用定位过滤链接的方法来抽取列表链接。具体操作如下图所示:

①选中模板中的链表链接。

②选中列表链接选区,shift+鼠标单击某个链接,Ctrl、+鼠标单击其他翻页扩大选区,从而选中所有列表链接。

③点击【确认选区】。

④保存配置。

图片

⑤采集预览

点击右上角【采集预览】,看所需要的列表链接是否都抽取出来。

图片

3. 抽取翻页

翻页抽取也是用定位过滤链接的方法,进行抽取。具体如下图所示:

①选中模板中的普通翻页链接抽取。

②选中所有翻页选区,shift+鼠标单击某个翻页,Ctrl+鼠标单击其他翻页扩大选区,从而选中所有翻页。

③确认选区。

④点击【保存】按钮,保存配置。

图片

⑤采集预览

点击右上方【采集预览】,选择普通翻页,查看是否采集到所以翻页,如下图所示即为采集到。

图片

4. 关联模板

检查模板01中的两个链接抽取关联模板是否正确。列表链接应关联模板02,普通翻页应关联模板01,分别如下图所示。

图片

图片

5. 数据抽取

①选中列表链接02,新建一个数据抽取。具体操作如下图所示:

图片

②此时要完成数据建表的工作:选择【数据建表】,点击【采集数据表结构】中的【+】,即可添加数据表,名称可以自定义。

图片

添加字段,各字段属性如下图所示:

图片

③数据表配置完成,选择【数据抽取】右侧数据属性配置,表单选择刚建立的“招聘信息”数据表,则可看到表单中的字段在右侧显示。

图片

④填写示例地址

采集预览,右击任意一条链接,复制该招聘链接。

图片

将该链接填写在模板02的示例地址中,并点击右上角保存按钮。如下图所示:

图片

⑤抽取字段数据

双击内置浏览器空白处,这时内置浏览器显示为刚才示例地址页面,使用定位过滤的方法配置每一个字段。

title字段:选中title字段,shift+点击页面中标题,ctrl+鼠标单击扩大选中区域,选中标题后,点击【确认选区】按钮,点击【保存】按钮。

图片

pubtime字段:操作步骤类似,但是由于选中的为【时间:2021年07月05日】,所以使用数据清洗功能,清洗掉【时间:】,具体设置如下图所示:

图片

content字段:操作步骤类似,具体如下图所示:

图片

⑥以上完成全部字段配置,效果预览如下:

图片

 

6.数据采集

模板配置完成,采集预览没有问题后,可以进行数据采集。

①首先要建立采集数据表:

选择【数据建表】,点击【表单列表】中该模板的表单,在【关联数据表】中选择【创建】,表名称自定义,这里命名为zhaopin(注意命名不能用数字和特殊符号),点击【确定】。

图片

创建完成,勾选数据表,点击保存。

图片

②选择【数据采集】,勾选任务名称,点击【开始采集】,则正式开始采集。

图片

③可以在【数据浏览】中,选择数据表查看采集数据。

图片

④导出数据

图片

导出数据表如下图所示:

图片

这篇关于【从零开始学爬虫】采集事业单位最新招聘信息的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!


原文地址:
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.chinasem.cn/article/1022634

相关文章

一文详解SQL Server如何跟踪自动统计信息更新

《一文详解SQLServer如何跟踪自动统计信息更新》SQLServer数据库中,我们都清楚统计信息对于优化器来说非常重要,所以本文就来和大家简单聊一聊SQLServer如何跟踪自动统计信息更新吧... SQL Server数据库中,我们都清楚统计信息对于优化器来说非常重要。一般情况下,我们会开启"自动更新

查看Oracle数据库中UNDO表空间的使用情况(最新推荐)

《查看Oracle数据库中UNDO表空间的使用情况(最新推荐)》Oracle数据库中查看UNDO表空间使用情况的4种方法:DBA_TABLESPACES和DBA_DATA_FILES提供基本信息,V$... 目录1. 通过 DBjavascriptA_TABLESPACES 和 DBA_DATA_FILES

最新Spring Security实战教程之Spring Security安全框架指南

《最新SpringSecurity实战教程之SpringSecurity安全框架指南》SpringSecurity是Spring生态系统中的核心组件,提供认证、授权和防护机制,以保护应用免受各种安... 目录前言什么是Spring Security?同类框架对比Spring Security典型应用场景传统

最新Spring Security实战教程之表单登录定制到处理逻辑的深度改造(最新推荐)

《最新SpringSecurity实战教程之表单登录定制到处理逻辑的深度改造(最新推荐)》本章节介绍了如何通过SpringSecurity实现从配置自定义登录页面、表单登录处理逻辑的配置,并简单模拟... 目录前言改造准备开始登录页改造自定义用户名密码登陆成功失败跳转问题自定义登出前后端分离适配方案结语前言

OpenManus本地部署实战亲测有效完全免费(最新推荐)

《OpenManus本地部署实战亲测有效完全免费(最新推荐)》文章介绍了如何在本地部署OpenManus大语言模型,包括环境搭建、LLM编程接口配置和测试步骤,本文给大家讲解的非常详细,感兴趣的朋友一... 目录1.概况2.环境搭建2.1安装miniconda或者anaconda2.2 LLM编程接口配置2

Python如何获取域名的SSL证书信息和到期时间

《Python如何获取域名的SSL证书信息和到期时间》在当今互联网时代,SSL证书的重要性不言而喻,它不仅为用户提供了安全的连接,还能提高网站的搜索引擎排名,那我们怎么才能通过Python获取域名的S... 目录了解SSL证书的基本概念使用python库来抓取SSL证书信息安装必要的库编写获取SSL证书信息

Win32下C++实现快速获取硬盘分区信息

《Win32下C++实现快速获取硬盘分区信息》这篇文章主要为大家详细介绍了Win32下C++如何实现快速获取硬盘分区信息,文中的示例代码讲解详细,感兴趣的小伙伴可以跟随小编一起学习一下... 实现代码CDiskDriveUtils.h#pragma once #include <wtypesbase

Mysql中InnoDB与MyISAM索引差异详解(最新整理)

《Mysql中InnoDB与MyISAM索引差异详解(最新整理)》InnoDB和MyISAM在索引实现和特性上有差异,包括聚集索引、非聚集索引、事务支持、并发控制、覆盖索引、主键约束、外键支持和物理存... 目录1. 索引类型与数据存储方式InnoDBMyISAM2. 事务与并发控制InnoDBMyISAM

Redis 内存淘汰策略深度解析(最新推荐)

《Redis内存淘汰策略深度解析(最新推荐)》本文详细探讨了Redis的内存淘汰策略、实现原理、适用场景及最佳实践,介绍了八种内存淘汰策略,包括noeviction、LRU、LFU、TTL、Rand... 目录一、 内存淘汰策略概述二、内存淘汰策略详解2.1 ​noeviction(不淘汰)​2.2 ​LR

StarRocks索引详解(最新整理)

《StarRocks索引详解(最新整理)》StarRocks支持多种索引类型,包括主键索引、前缀索引、Bitmap索引和Bloomfilter索引,这些索引类型适用于不同场景,如唯一性约束、减少索引空... 目录1. 主键索引(Primary Key Index)2. 前缀索引(Prefix Index /