Scrapy框架之Crawlspider爬取刺猬实习职位信息

2023-10-24 09:10

本文主要是介绍Scrapy框架之Crawlspider爬取刺猬实习职位信息,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

点击查看要爬取的网页

目标:利用Crawspider的特性在首页找到所有的职位分类的url,进入分页,再从分页进入详细页面获取所有的信息。
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
首先打开cmd或者powershell

scrapy startproject ciweishixi

cd ciweishixi
scrapy genspider -t crawl Crawlspider ciweishixi.com

生成一只继承了Crawlspider的爬虫

然后开始做填空题···

Crawlspider.py

import scrapy
from scrapy.linkextractors import LinkExtractor
from scrapy.spiders import CrawlSpider, Rule
from scrapy.selector import Selectorclass CrawlspiderSpider(CrawlSpider):name = 'Crawlspider'allowed_domains = ['ciweishixi.com']start_urls = ['https://www.ciweishixi.com']#如果要LinkExtractor里用xpath的方法,restrict_xpaths到属性所在的标签即可,不要/@href了rules = (Rule(LinkExtractor(restrict_xpaths = '//div[@class="menu"]//a',unique=True), callback='parse_entrance_url', follow=False),)# allow='https://www.ciweishixi.com/search?s_m=\d+?&s_m_name=[\u4e00-\u9fa5/]+?'def parse_entrance_url(self,response):item = {}selector = Selector(response)urls = selector.xpath('//div[@class="major"]/a/@href').extract()# 由于发现我下面提取的内容会缺少职位的名字,所以在这里分页面这补上# 利用了meta这个方法,它可以让你的信息传到下一个函数,再一次性处理数据names = selector.xpath('//div[@class="major"]/a[1]/text()').extract()for url,name in zip(urls,names):item['name'] = namerequest = scrapy.Request(url,callback=self.parse_item)request.meta['item'] = itemyield requestdef parse_item(self, response):selector = Selector(response)item = response.meta['item']contents = selector.xpath('//div[@class="widget"]')x = 0for content in contents:# 由于我要用xpath('string(.)')的方法提取所有文本信息# 而所有有用的信息只在每个循环节点的前两个,所以循环两次就ok了x += 1if x > 2:breakcontent_list = content.xpath('string(.)').extract()mylist = list()for i in content_list:j = i.strip('	')# 这里是及其恶心的地方,不知为啥就是有一种像空格的东西一直站位if j != '立即申请' or '收藏成功,查看收藏':mylist.append(j)real_content = '\n'.join(mylist)item['content'] = item['name'] + '\n' + real_contentprint(real_content)yield item

要注意的是Rule里面的xpath只用提取到href的标签名就可以了,不用到属性
这里利用meta方法可以将前一次网页解析的信息往后传,等到下一个函数要yield item的时候再一次性写入数据。
piplins.py

class CiweishixiPipeline(object):def __init__(self):self.file = open('D://ciweishixi.txt','a+',encoding='utf-8')def process_item(self, item, spider):self.file.write(item['content'].strip())return itemdef closefile(self):self.file.close()

settings.py

USER_AGENT = 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/65.0.3325.162 Safari/537.36'
LOG_LEVEL = 'WARNING'
ITEM_PIPELINES = {'ciweishixi.pipelines.CiweishixiPipeline': 300,
}

爬完,信息要提取的是提取到了,但是格式很恶心,我在strip()里把所有转义字符都试过,依然消除不掉这种恶心的空格???如果你知道希望你可以告诉我…谢谢~~
在这里插入图片描述
在这里插入图片描述
它是只有一个格的,但是又很长。。到底是什么符号\TAT/

续上:
后面改了一下,感觉好了一丢丢

import scrapy
from scrapy.linkextractors import LinkExtractor
from scrapy.spiders import CrawlSpider, Rule
from scrapy.selector import Selectorclass CrawlspiderSpider(CrawlSpider):name = 'Crawlspider'allowed_domains = ['ciweishixi.com']start_urls = ['https://www.ciweishixi.com']rules = (Rule(LinkExtractor(restrict_xpaths = '//div[@class="menu"]//a',unique=True), callback='parse_entrance_url', follow=False),)# allow='https://www.ciweishixi.com/search?s_m=\d+?&s_m_name=[\u4e00-\u9fa5/]+?'def parse_entrance_url(self,response):item = {}selector = Selector(response)urls = selector.xpath('//div[@class="major"]/a/@href').extract()names = selector.xpath('//div[@class="major"]/a[1]/text()').extract()for url,name in zip(urls,names):item['name'] = namerequest = scrapy.Request(url,callback=self.parse_item)request.meta['item'] = itemyield requestdef parse_item(self, response):selector = Selector(response)item = response.meta['item']contents = selector.xpath('//div[@class="widget"]')x = 0for content in contents:x += 1if x > 2:break# content_list = content.xpath('.//string(.)').extract()content_list = content.re('[\u4e00-\u9fa5:,、;:A-Z0-9]+')mylist = list()stoplist = ['立即申请','收藏职位','收藏成功','A','F','举报','查看收藏',':',',',',','1','2','3','4','5','6','7','8','9','0']for i in content_list:j = i.strip()if j not in stoplist:mylist.append(j)real_content = '\n'.join(mylist)item['content'] = item['name'] + '\n' + real_contentprint(real_content)yield item

这篇关于Scrapy框架之Crawlspider爬取刺猬实习职位信息的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/274148

相关文章

Python Dash框架在数据可视化仪表板中的应用与实践记录

《PythonDash框架在数据可视化仪表板中的应用与实践记录》Python的PlotlyDash库提供了一种简便且强大的方式来构建和展示互动式数据仪表板,本篇文章将深入探讨如何使用Dash设计一... 目录python Dash框架在数据可视化仪表板中的应用与实践1. 什么是Plotly Dash?1.1

基于Flask框架添加多个AI模型的API并进行交互

《基于Flask框架添加多个AI模型的API并进行交互》:本文主要介绍如何基于Flask框架开发AI模型API管理系统,允许用户添加、删除不同AI模型的API密钥,感兴趣的可以了解下... 目录1. 概述2. 后端代码说明2.1 依赖库导入2.2 应用初始化2.3 API 存储字典2.4 路由函数2.5 应

Python GUI框架中的PyQt详解

《PythonGUI框架中的PyQt详解》PyQt是Python语言中最强大且广泛应用的GUI框架之一,基于Qt库的Python绑定实现,本文将深入解析PyQt的核心模块,并通过代码示例展示其应用场... 目录一、PyQt核心模块概览二、核心模块详解与示例1. QtCore - 核心基础模块2. QtWid

一文详解SQL Server如何跟踪自动统计信息更新

《一文详解SQLServer如何跟踪自动统计信息更新》SQLServer数据库中,我们都清楚统计信息对于优化器来说非常重要,所以本文就来和大家简单聊一聊SQLServer如何跟踪自动统计信息更新吧... SQL Server数据库中,我们都清楚统计信息对于优化器来说非常重要。一般情况下,我们会开启"自动更新

最新Spring Security实战教程之Spring Security安全框架指南

《最新SpringSecurity实战教程之SpringSecurity安全框架指南》SpringSecurity是Spring生态系统中的核心组件,提供认证、授权和防护机制,以保护应用免受各种安... 目录前言什么是Spring Security?同类框架对比Spring Security典型应用场景传统

Python如何获取域名的SSL证书信息和到期时间

《Python如何获取域名的SSL证书信息和到期时间》在当今互联网时代,SSL证书的重要性不言而喻,它不仅为用户提供了安全的连接,还能提高网站的搜索引擎排名,那我们怎么才能通过Python获取域名的S... 目录了解SSL证书的基本概念使用python库来抓取SSL证书信息安装必要的库编写获取SSL证书信息

Win32下C++实现快速获取硬盘分区信息

《Win32下C++实现快速获取硬盘分区信息》这篇文章主要为大家详细介绍了Win32下C++如何实现快速获取硬盘分区信息,文中的示例代码讲解详细,感兴趣的小伙伴可以跟随小编一起学习一下... 实现代码CDiskDriveUtils.h#pragma once #include <wtypesbase

Python结合Flask框架构建一个简易的远程控制系统

《Python结合Flask框架构建一个简易的远程控制系统》这篇文章主要为大家详细介绍了如何使用Python与Flask框架构建一个简易的远程控制系统,能够远程执行操作命令(如关机、重启、锁屏等),还... 目录1.概述2.功能使用系统命令执行实时屏幕监控3. BUG修复过程1. Authorization

SpringBoot集成图片验证码框架easy-captcha的详细过程

《SpringBoot集成图片验证码框架easy-captcha的详细过程》本文介绍了如何将Easy-Captcha框架集成到SpringBoot项目中,实现图片验证码功能,Easy-Captcha是... 目录SpringBoot集成图片验证码框架easy-captcha一、引言二、依赖三、代码1. Ea

Gin框架中的GET和POST表单处理的实现

《Gin框架中的GET和POST表单处理的实现》Gin框架提供了简单而强大的机制来处理GET和POST表单提交的数据,通过c.Query、c.PostForm、c.Bind和c.Request.For... 目录一、GET表单处理二、POST表单处理1. 使用c.PostForm获取表单字段:2. 绑定到结