通过CrawlSpider爬取网易社会招聘信息

2023-11-03 22:10

本文主要是介绍通过CrawlSpider爬取网易社会招聘信息,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

通过CrawlSpider爬取网易社会招聘信息

1.创建工程
scrapy startproject 项目名称
2.创建crawlspider爬虫
scrapy genspider -t crawl 爬虫名 爬虫的范围.com
3.爬虫代码如下
# -*- coding: utf-8 -*-from scrapy.linkextractors import LinkExtractor
from scrapy.spiders import CrawlSpider, Ruleclass WangyishezhaoSpider(CrawlSpider):name = 'wangyishezhao'allowed_domains = ['163.com']start_urls = ['https://hr.163.com/position/list.do?postType=01']rules = (Rule(LinkExtractor(restrict_xpaths='//div[@class="m-page"]/a'), follow=True),Rule(LinkExtractor(restrict_xpaths='//tbody/tr/td[1]/a'), callback='parse_item', follow=False),)def parse_item(self, response):data_dict=dict()data_dict['job_title'] = response.xpath('//div[1]//div[1]/h2/text()').extract_first()data_dict['job_address'] = response.xpath('//table[@class="job-params"]//td[4]/text()').extract_first()# print(data_dict)return data_dict# print('#'*100)# print(response.url)
4.通过pipeline管道进行保存数据
# -*- coding: utf-8 -*-
from scrapy.exporters import JsonItemExporterclass WangyishezhaoPipeline(object):def open_spider(self,spider):self.file = open('wangyi.json','wb')# 写入器self.write = JsonItemExporter(self.file)self.write.start_exporting()def process_item(self, item, spider):self.write.export_item(item)return itemdef close_spider(self,spider):self.write.finish_exporting()self.file.close()
5.定义中间件,设置用户代理和ip代理
class UserAgentMiddleware(object):def process_request(self,request,spider):# 1.随机的user-agentrandom_user = random.choice(USER_AGENT_LIST)# 2.request.header['User-Agent']request.headers['User-Agent']=random_userdef process_response(self, request, response, spider):print('#' * 100)print(request.headers['User-Agent'])return responseclass ProxyMiddleware(object):def process_request(self,request,spider):# 1.代理ipproxy = random.choice(proxies)# 2.设置 request.meta['proxy']request.meta['proxy']=proxyreturn None
6.最后在settings配置文件中进行配置
BOT_NAME = 'WangYiSheZhao'SPIDER_MODULES = ['WangYiSheZhao.spiders']
NEWSPIDER_MODULE = 'WangYiSheZhao.spiders'# Crawl responsibly by identifying yourself (and your website) on the user-agent
USER_AGENT = 'Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/68.0.3440.84 Safari/537.36'ROBOTSTXT_OBEY = FalseDOWNLOAD_DELAY = 0.5DOWNLOADER_MIDDLEWARES = {'WangYiSheZhao.middlewares.UserAgentMiddleware': 543,'WangYiSheZhao.middlewares.ProxyMiddleware': 555,
}ITEM_PIPELINES = {'WangYiSheZhao.pipelines.WangyishezhaoPipeline': 300,
}USER_AGENT_LIST = ["Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/30.0.1599.101 Safari/537.36","Mozilla/5.0 (Windows NT 6.1; WOW64; Trident/7.0; rv:11.0) like Gecko","Mozilla/5.0 (Windows NT 5.1) AppleWebKit/535.11 (KHTML, like Gecko) Chrome/17.0.963.84 Safari/535.11 SE 2.X MetaSr 1.0","Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1; Trident/4.0; SV1; QQDownload 732; .NET4.0C; .NET4.0E; SE 2.X MetaSr 1.0)","Mozilla/5.0 (Windows NT 6.2; WOW64) AppleWebKit/537.1 (KHTML, like Gecko) Chrome/19.77.34.5 Safari/537.1","Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/39.0.2171.95 Safari/537.36 OPR/26.0.1656.60",
"Opera/8.0 (Windows NT 5.1; U; en)","Mozilla/5.0 (Windows NT 5.1; U; en; rv:1.8.1) Gecko/20061208 Firefox/2.0.0 Opera 9.50","Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; en) Opera 9.50",
]proxies = ['http://58.218.200.223:30054','http://58.218.200.223:30153','http://58.218.200.223:30370','http://58.218.200.223:30288','http://58.218.200.223:30044',
]
运行结果如下图所示

在这里插入图片描述

通过json.cn渲染后的结果

在这里插入图片描述

这篇关于通过CrawlSpider爬取网易社会招聘信息的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/341187

相关文章

业务中14个需要进行A/B测试的时刻[信息图]

在本指南中,我们将全面了解有关 A/B测试 的所有内容。 我们将介绍不同类型的A/B测试,如何有效地规划和启动测试,如何评估测试是否成功,您应该关注哪些指标,多年来我们发现的常见错误等等。 什么是A/B测试? A/B测试(有时称为“分割测试”)是一种实验类型,其中您创建两种或多种内容变体——如登录页面、电子邮件或广告——并将它们显示给不同的受众群体,以查看哪一种效果最好。 本质上,A/B测

【北交大信息所AI-Max2】使用方法

BJTU信息所集群AI_MAX2使用方法 使用的前提是预约到相应的算力卡,拥有登录权限的账号密码,一般为导师组共用一个。 有浏览器、ssh工具就可以。 1.新建集群Terminal 浏览器登陆10.126.62.75 (如果是1集群把75改成66) 交互式开发 执行器选Terminal 密码随便设一个(需记住) 工作空间:私有数据、全部文件 加速器选GeForce_RTX_2080_Ti

Linux命令(11):系统信息查看命令

系统 # uname -a # 查看内核/操作系统/CPU信息# head -n 1 /etc/issue # 查看操作系统版本# cat /proc/cpuinfo # 查看CPU信息# hostname # 查看计算机名# lspci -tv # 列出所有PCI设备# lsusb -tv

【小迪安全笔记 V2022 】信息打点9~11

第9天 信息打点-CDN绕过篇&漏洞回链8接口探针&全网扫指&反向件 知识点: 0、CDN知识-工作原理及阻碍 1、CDN配置-域名&区域&类型 2、CDN绕过-靠谱十余种技战法 3、CDN绑定-HOSTS绑定指向访问 CDN 是构建在数据网络上的一种分布式的内容分发网。 CDN的作用是采用流媒体服务器集群技术,克服单机系统输出带宽及并发能力不足的缺点,可极大提升系统支持的并发流数目,减少或避

Weex入门教程之4,获取当前全局环境变量和配置信息(屏幕高度、宽度等)

$getConfig() 获取当前全局环境变量和配置信息。 Returns: config (object): 配置对象;bundleUrl (string): bundle 的 url;debug (boolean): 是否是调试模式;env (object): 环境对象; weexVersion (string): Weex sdk 版本;appName (string): 应用名字;

未雨绸缪:环保专包二级资质续期工程师招聘时间策略

对于环保企业而言,在二级资质续期前启动工程师招聘的时间规划至关重要。考虑到招聘流程的复杂性、企业内部需求的变化以及政策标准的更新,建议环保企业在二级资质续期前至少提前6至12个月启动工程师招聘工作。这个时间规划可以细化为以下几个阶段: 一、前期准备阶段(提前6-12个月) 政策与标准研究: 深入研究国家和地方关于环保二级资质续期的最新政策、法规和标准,了解对工程师的具体要求。评估政策变化可

Python批量读取身份证信息录入系统和重命名

前言 大家好, 如果你对自动化处理身份证图片感兴趣,可以尝试以下操作:从身份证图片中快速提取信息,填入表格并提交到网页系统。如果你无法完成这个任务,我们将在“Python自动化办公2.0”课程中详细讲解实现整个过程。 实现过程概述: 模块与功能: re 模块:用于从 OCR 识别出的文本中提取所需的信息。 日期模块:计算年龄。 pandas:处理和操作表格数据。 PaddleOCR:百度的

linux上查看java最耗时的线程信息

找到JAVA进程pid ps -ef|grep java或则jps -mlv 找进行下耗时的线程TID 使用top -Hp pid可以查看某个进程的线程信息 -H 显示线程信息,-p指定pid top -Hp 10906 查看最耗时的 TID即线程id printf "%x\n" [tid] 转成16进制 java中的线程类相关信息 jstack 线程ID 可以查看某个线程的堆栈情况,特别对于h

在糖尿病患者信息管理系统中,导入病人信息功能!

在糖尿病患者信息管理系统中,导入病人信息功能!form表单提交数据(Excel文件),在后台得不到file文件,解决方法:         private File filePath; //文件         private String fileName; //文件名         private String fileType; //文件类型 注:上面filePath必须有,否则下面

前缀和 — 利用前缀信息解决子数组问题

【前缀和的核心思想是预先处理数组来快速计算任意子数组的和,基本上用于数组和序列问题。】 前缀和算法具体步骤 构造前缀和数组: 给定一个数组nums,其前缀和数组prex定义为prex[i]表示为数组nums从起始位置到第i个位置的元素累加和。构建前缀和公式: p r e x [ i ] = n u m s [ i ] ( i = = 0 ) p r e x [ i ] = p r e x