webmagic-爬取51招聘信息

2024-02-09 00:48
文章标签 51 信息 爬取 招聘 webmagic

本文主要是介绍webmagic-爬取51招聘信息,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

点击资料或前往github查看源码WebMagic

如果是采用@Autowired注入变量,则当前类的实例,必须也是spring 容器注入才能成功注入,应该也采用@Autowired注入,要不就不要new需要注入其他对象的当前类

使用springboot开启定时任务,使用自定义pipeline将数据存储到数据库,根据传入的url获取页面,和jquery相似的选择器方法解析页面存入自己想得到的信息,有些数据有几个标签,获取文本内容不要用css()方法,要加上jsoup解析,text()方法可以获取到所有文本内容,而css要选中标签,用了两种标签数据就会出现问题。
ps:爬取前查看得到的html,会与网页的不一样

package com.example.demo.task;import com.example.demo.pojo.JobInfo;
import com.example.demo.utils.MathSalary;
import com.fasterxml.jackson.core.JsonProcessingException;
import com.fasterxml.jackson.databind.JsonNode;import com.fasterxml.jackson.databind.ObjectMapper;
import org.springframework.beans.factory.annotation.Autowired;
import org.springframework.scheduling.annotation.Scheduled;
import org.springframework.stereotype.Component;
import org.springframework.util.StringUtils;
import us.codecraft.webmagic.Page;
import us.codecraft.webmagic.Site;
import us.codecraft.webmagic.Spider;
import us.codecraft.webmagic.processor.PageProcessor;
import us.codecraft.webmagic.scheduler.BloomFilterDuplicateRemover;
import us.codecraft.webmagic.scheduler.QueueScheduler;
import us.codecraft.webmagic.selector.Selectable;import java.util.Date;@Component
public class JobProcessor implements PageProcessor {private String url = "https://search.51job.com/list/030200,000000,0000,00,9,99,java,2,1.html?lang=c&postchannel=0000&workyear=99&cotype=99&degreefrom=99&jobterm=99&companysize=99&ord_field=0&dibiaoid=0&line=&welfare=";@Autowiredprivate ObjectMapper objectMapper;private int count = 1;@Overridepublic void process(Page page) {//爬取解析的与页面不同,此次爬取得到数据中是以json形式存在script中String jsonString = page.getHtml().css("script").regex(".*SEARCH_RESULT.*").toString();//不为空即为招聘页if (!StringUtils.isEmpty(jsonString)) {//截取json类型字符串String substring = jsonString.substring(jsonString.indexOf("{"), jsonString.lastIndexOf("}") + 1);try {JsonNode jsonNode = objectMapper.readTree(substring);JsonNode array = jsonNode.get("engine_search_result");if (array.isArray()) {for (JsonNode node : array) {//获取详情链接String detailUrl = node.get("job_href").asText();page.addTargetRequest(detailUrl);page.addTargetRequest(detailUrl);}// 获取下一页的urlString bkUrl = "https://search.51job.com/list/030200,000000,0000,00,9,99,java,2," + (++count) + ".html?lang=c&postchannel=0000&workyear=99&cotype=99&degreefrom=99&jobterm=99&companysize=99&ord_field=0&dibiaoid=0&line=&welfare=";//                    // 把url放到任务队列中page.addTargetRequest(bkUrl);} else {count = 0;return;}//} catch (JsonProcessingException e) {e.printStackTrace();}} else {//进入详情页,保存数据到实体类,再通过page.putfiled(即resultItems)给Pipeline传入数据库saveJobInfo(page);}}//解析详情页private void saveJobInfo(Page page) {JobInfo jobInfo = new JobInfo();Selectable detailInfo = page.getHtml().css("div.tCompany_center");if (detailInfo == null) {return;}String addr = detailInfo.css(".ltype[title]").toString();jobInfo.setCompanyName(detailInfo.css("p.cname a", "text").toString());jobInfo.setCompanyAddr(addr.substring(addr.lastIndexOf("=") + 1, addr.indexOf("&")).trim());jobInfo.setCompanyInfo(detailInfo.css("div.tBorderTop_box div.tmsg", "text").toString().trim());jobInfo.setJobAddr(detailInfo.css("div.tBorderTop_box div.bmsg>p.fp", "text").toString());jobInfo.setJobInfo(Jsoup.parse(detailInfo.css("div.job_msg").toString()).text());jobInfo.setJobName(detailInfo.css("div.cn h1", "text").toString());// 设置当前链接jobInfo.setUrl(page.getUrl().toString());// 获取薪资// 有的没有写薪资, 先获取薪资的字符串String salaryText = detailInfo.css("div.cn strong", "text").toString();// 看看是否没有薪资这个字段if (!StringUtils.isEmpty(salaryText)) {// 使用工具类转换薪资字符串Integer[] salary = MathSalary.getSalary(salaryText);jobInfo.setSalaryMin(salary[0]);jobInfo.setSalaryMax(salary[1]);} else {// 没有则设为零jobInfo.setSalaryMax(0);jobInfo.setSalaryMin(0);}jobInfo.setTime((new Date().getYear() + 1900) + "-" + addr.substring(addr.lastIndexOf("发") - 5, addr.lastIndexOf("发")));page.putField("jobInfo", jobInfo);}//网页编码格式private Site site = Site.me().setCharset("gbk")//超时时间10s.setTimeOut(10000)//重试次数3次.setRetryTimes(3)//重试间隔时间3s.setSleepTime(3000);@Overridepublic Site getSite() {return site;}@Autowiredprivate JobInfoPipeline jobInfoPipeline;@Scheduled(initialDelay = 1000, fixedDelay = 100 * 1000)public void process() {Spider.create(this)//自定义PipeLine存入数据库中.addPipeline(jobInfoPipeline)//设置爬取url.addUrl(url)//线程数10.thread(10)//使用内存任务设置Bloom过滤去重器,初始化10万位空间.setScheduler(new QueueScheduler().setDuplicateRemover(new BloomFilterDuplicateRemover(100000))).run();//运行Spider}
}

这篇关于webmagic-爬取51招聘信息的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/692690

相关文章

业务中14个需要进行A/B测试的时刻[信息图]

在本指南中,我们将全面了解有关 A/B测试 的所有内容。 我们将介绍不同类型的A/B测试,如何有效地规划和启动测试,如何评估测试是否成功,您应该关注哪些指标,多年来我们发现的常见错误等等。 什么是A/B测试? A/B测试(有时称为“分割测试”)是一种实验类型,其中您创建两种或多种内容变体——如登录页面、电子邮件或广告——并将它们显示给不同的受众群体,以查看哪一种效果最好。 本质上,A/B测

day-51 合并零之间的节点

思路 直接遍历链表即可,遇到val=0跳过,val非零则加在一起,最后返回即可 解题过程 返回链表可以有头结点,方便插入,返回head.next Code /*** Definition for singly-linked list.* public class ListNode {* int val;* ListNode next;* ListNode() {}*

【北交大信息所AI-Max2】使用方法

BJTU信息所集群AI_MAX2使用方法 使用的前提是预约到相应的算力卡,拥有登录权限的账号密码,一般为导师组共用一个。 有浏览器、ssh工具就可以。 1.新建集群Terminal 浏览器登陆10.126.62.75 (如果是1集群把75改成66) 交互式开发 执行器选Terminal 密码随便设一个(需记住) 工作空间:私有数据、全部文件 加速器选GeForce_RTX_2080_Ti

基于51单片机的自动转向修复系统的设计与实现

文章目录 前言资料获取设计介绍功能介绍设计清单具体实现截图参考文献设计获取 前言 💗博主介绍:✌全网粉丝10W+,CSDN特邀作者、博客专家、CSDN新星计划导师,一名热衷于单片机技术探索与分享的博主、专注于 精通51/STM32/MSP430/AVR等单片机设计 主要对象是咱们电子相关专业的大学生,希望您们都共创辉煌!✌💗 👇🏻 精彩专栏 推荐订阅👇🏻 单片机

Linux命令(11):系统信息查看命令

系统 # uname -a # 查看内核/操作系统/CPU信息# head -n 1 /etc/issue # 查看操作系统版本# cat /proc/cpuinfo # 查看CPU信息# hostname # 查看计算机名# lspci -tv # 列出所有PCI设备# lsusb -tv

【小迪安全笔记 V2022 】信息打点9~11

第9天 信息打点-CDN绕过篇&漏洞回链8接口探针&全网扫指&反向件 知识点: 0、CDN知识-工作原理及阻碍 1、CDN配置-域名&区域&类型 2、CDN绕过-靠谱十余种技战法 3、CDN绑定-HOSTS绑定指向访问 CDN 是构建在数据网络上的一种分布式的内容分发网。 CDN的作用是采用流媒体服务器集群技术,克服单机系统输出带宽及并发能力不足的缺点,可极大提升系统支持的并发流数目,减少或避

Weex入门教程之4,获取当前全局环境变量和配置信息(屏幕高度、宽度等)

$getConfig() 获取当前全局环境变量和配置信息。 Returns: config (object): 配置对象;bundleUrl (string): bundle 的 url;debug (boolean): 是否是调试模式;env (object): 环境对象; weexVersion (string): Weex sdk 版本;appName (string): 应用名字;

未雨绸缪:环保专包二级资质续期工程师招聘时间策略

对于环保企业而言,在二级资质续期前启动工程师招聘的时间规划至关重要。考虑到招聘流程的复杂性、企业内部需求的变化以及政策标准的更新,建议环保企业在二级资质续期前至少提前6至12个月启动工程师招聘工作。这个时间规划可以细化为以下几个阶段: 一、前期准备阶段(提前6-12个月) 政策与标准研究: 深入研究国家和地方关于环保二级资质续期的最新政策、法规和标准,了解对工程师的具体要求。评估政策变化可

代码训练营 Day26 | 47.排序II | 51. N-皇后 |

47.排序II 1.跟46题一样只不过加一个树层去重 class Solution(object):def backtracking(self,nums,path,result,used):# recursion stopif len(path) == len(nums):# collect our setresult.append(path[:])return for i in range(

Python批量读取身份证信息录入系统和重命名

前言 大家好, 如果你对自动化处理身份证图片感兴趣,可以尝试以下操作:从身份证图片中快速提取信息,填入表格并提交到网页系统。如果你无法完成这个任务,我们将在“Python自动化办公2.0”课程中详细讲解实现整个过程。 实现过程概述: 模块与功能: re 模块:用于从 OCR 识别出的文本中提取所需的信息。 日期模块:计算年龄。 pandas:处理和操作表格数据。 PaddleOCR:百度的