scrapy-redis分布式爬虫,爬取当当网图书信息

2023-11-06 00:50

本文主要是介绍scrapy-redis分布式爬虫,爬取当当网图书信息,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

前期准备
  • 虚拟机下乌班图下redis:url去重,持久化
  • mongodb:保存数据
  • PyCharm:写代码
  • 谷歌浏览器:分析要提取的数据
  • 爬取图书每个分类下的小分类下的图书信息(分类标题,小分类标题,图书标题,作者,图书简介,价格,电子书价格,出版社,封面,图书链接)

思路:按每个大分类分组,再按小分类分组,再按每本书分组,最后提取数据

下面是代码

爬虫代码

# -*- coding: utf-8 -*-
import scrapy
# 额外导入以下类
from scrapy_redis.spiders import RedisSpider
from copy import deepcopy# 继承导入的类
class DdBookSpider(RedisSpider):name = 'dd_book'allowed_domains = ['dangdang.com']redis_key = "dd_book"   # redis中插入(lpush dd_book http://category.dangdang.com/?ref=www-0-C)def parse(self, response):"""图书大类"""# 先分组div_list = response.xpath('//div[@class="classify_books"]/div[@class="classify_kind"]')for div in div_list:item = {}item["大标题"] = div.xpath('.//a/text()').extract_first()li_list = div.xpath('.//ul[@class="classify_kind_detail"]/li')for li in li_list:item["小标题"] = li.xpath('./a/text()').extract_first()sm_url = li.xpath('./a/@href').extract_first()#print(sm_url, item["小标题"])# 请求详情页if sm_url != "javascript:void(0);":yield scrapy.Request(sm_url, callback=self.book_details, meta={"item": deepcopy(item)})def book_details(self, response):"""提取图书数据"""item = response.meta["item"]# 给每本书分组li_list = response.xpath('//ul[@class="bigimg"]/li')for li in li_list:item["图书标题"] = li.xpath('./a/@title').extract_first()item["作者"] = li.xpath('./p[@class="search_book_author"]/span[1]/a/@title').extract_first()item["图书简介"] = li.xpath('./p[@class="detail"]/text()').extract_first()item["价格"] = li.xpath('./p[@class="price"]/span[@class="search_now_price"]/text()').extract_first()item["电子书价格"] = li.xpath('./p[@class="price"]/a[@class="search_e_price"]/i/text()').extract_first()item["日期"] = li.xpath('./p[@class="search_book_author"]/span[2]/text()').extract_first()item["出版社"] = li.xpath('./p[@class="search_book_author"]/span[3]/a/@title').extract_first()item["图片"] = li.xpath('./a/img/@src').extract_first()item["图书链接"] = li.xpath('./a/@href').extract_first()yield item# 翻页next_url = response.xpath('//a[text()="下一页"]/@href').extract_first()if next_url is not None:next_url = "http://category.dangdang.com" + next_urlyield scrapy.Request(next_url, callback=self.book_details, meta={"item": deepcopy(item)})

settings.py下代码

# 一个去重的类,用来将url去重
DUPEFILTER_CLASS = "scrapy_redis.dupefilter.RFPDupeFilter"
# 一个队列
SCHEDULER = "scrapy_redis.scheduler.Scheduler"
# 是否持久化
SCHEDULER_PERSIST = True
# redis地址
REDIS_URL = "redis://192.168.1.101:6379"
# user-agent
UA_LIST = ["Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.1 (KHTML, like Gecko) Chrome/22.0.1207.1 Safari/537.1","Mozilla/5.0 (X11; CrOS i686 2268.111.0) AppleWebKit/536.11 (KHTML, like Gecko) Chrome/20.0.1132.57 Safari/536.11","Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/536.6 (KHTML, like Gecko) Chrome/20.0.1092.0 Safari/536.6","Mozilla/5.0 (Windows NT 6.2) AppleWebKit/536.6 (KHTML, like Gecko) Chrome/20.0.1090.0 Safari/536.6","Mozilla/5.0 (Windows NT 6.2; WOW64) AppleWebKit/537.1 (KHTML, like Gecko) Chrome/19.77.34.5 Safari/537.1","Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/536.5 (KHTML, like Gecko) Chrome/19.0.1084.9 Safari/536.5","Mozilla/5.0 (Windows NT 6.0) AppleWebKit/536.5 (KHTML, like Gecko) Chrome/19.0.1084.36 Safari/536.5","Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1063.0 Safari/536.3","Mozilla/5.0 (Windows NT 5.1) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1063.0 Safari/536.3","Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1; Trident/4.0; SE 2.X MetaSr 1.0; SE 2.X MetaSr 1.0; .NET CLR 2.0.50727; SE 2.X MetaSr 1.0)","Mozilla/5.0 (Windows NT 6.2) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1062.0 Safari/536.3","Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1062.0 Safari/536.3","Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1; 360SE)","Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1061.1 Safari/536.3","Mozilla/5.0 (Windows NT 6.1) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1061.1 Safari/536.3","Mozilla/5.0 (Windows NT 6.2) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1061.0 Safari/536.3","Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/535.24 (KHTML, like Gecko) Chrome/19.0.1055.1 Safari/535.24","Mozilla/5.0 (Windows NT 6.2; WOW64) AppleWebKit/535.24 (KHTML, like Gecko) Chrome/19.0.1055.1 Safari/535.24"
]# Obey robots.txt rules
ROBOTSTXT_OBEY = False# 下载延迟
DOWNLOAD_DELAY = 1# The download delay setting will honor only one of:
# Enable or disable downloader middlewares
# See https://docs.scrapy.org/en/latest/topics/downloader-middleware.html
DOWNLOADER_MIDDLEWARES = {'dangdang_book.middlewares.DangdangBookDownloaderMiddleware': 543,
}# Configure item pipelines
ITEM_PIPELINES = {'dangdang_book.pipelines.DangdangBookPipeline': 300,
}

middlewares.py,添加随机UA

import randomclass DangdangBookDownloaderMiddleware:def process_request(self, request, spider):"""添加随机UA跟代理IP"""ua = random.choice(spider.settings.get("UA_LIST"))request.headers["User-Agent"] = ua#request.meta["proxy"] = "https://125.115.126.114:888"def process_response(self, request, response, spider):"""查看UA有没有设置成功"""print(request.headers["User-Agent"])return response

pipelines.py,保存数据

from pymongo import MongoClient
client = MongoClient(host="127.0.0.1", port=27017)
db = client["dangdang_db"]class DangdangBookPipeline:def process_item(self, item, spider):"""保存数据到mongodb"""print(item)db.book.insert_one(dict(item))return item
运行截图

在这里插入图片描述
mongodb
在这里插入图片描述
redis
在这里插入图片描述
最后是项目
在这里插入图片描述

还有什么不足的多多指教

这篇关于scrapy-redis分布式爬虫,爬取当当网图书信息的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/353515

相关文章

Python爬虫selenium验证之中文识别点选+图片验证码案例(最新推荐)

《Python爬虫selenium验证之中文识别点选+图片验证码案例(最新推荐)》本文介绍了如何使用Python和Selenium结合ddddocr库实现图片验证码的识别和点击功能,感兴趣的朋友一起看... 目录1.获取图片2.目标识别3.背景坐标识别3.1 ddddocr3.2 打码平台4.坐标点击5.图

Python如何实现PDF隐私信息检测

《Python如何实现PDF隐私信息检测》随着越来越多的个人信息以电子形式存储和传输,确保这些信息的安全至关重要,本文将介绍如何使用Python检测PDF文件中的隐私信息,需要的可以参考下... 目录项目背景技术栈代码解析功能说明运行结php果在当今,数据隐私保护变得尤为重要。随着越来越多的个人信息以电子形

redis群集简单部署过程

《redis群集简单部署过程》文章介绍了Redis,一个高性能的键值存储系统,其支持多种数据结构和命令,它还讨论了Redis的服务器端架构、数据存储和获取、协议和命令、高可用性方案、缓存机制以及监控和... 目录Redis介绍1. 基本概念2. 服务器端3. 存储和获取数据4. 协议和命令5. 高可用性6.

Redis的数据过期策略和数据淘汰策略

《Redis的数据过期策略和数据淘汰策略》本文主要介绍了Redis的数据过期策略和数据淘汰策略,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一... 目录一、数据过期策略1、惰性删除2、定期删除二、数据淘汰策略1、数据淘汰策略概念2、8种数据淘汰策略

Redis存储的列表分页和检索的实现方法

《Redis存储的列表分页和检索的实现方法》在Redis中,列表(List)是一种有序的数据结构,通常用于存储一系列元素,由于列表是有序的,可以通过索引来访问元素,因此可以很方便地实现分页和检索功能,... 目录一、Redis 列表的基本操作二、分页实现三、检索实现3.1 方法 1:客户端过滤3.2 方法

Python中操作Redis的常用方法小结

《Python中操作Redis的常用方法小结》这篇文章主要为大家详细介绍了Python中操作Redis的常用方法,文中的示例代码简洁易懂,具有一定的借鉴价值,有需要的小伙伴可以了解一下... 目录安装Redis开启、关闭Redisredis数据结构redis-cli操作安装redis-py数据库连接和释放增

redis防止短信恶意调用的实现

《redis防止短信恶意调用的实现》本文主要介绍了在场景登录或注册接口中使用短信验证码时遇到的恶意调用问题,并通过使用Redis分布式锁来解决,具有一定的参考价值,感兴趣的可以了解一下... 目录1.场景2.排查3.解决方案3.1 Redis锁实现3.2 方法调用1.场景登录或注册接口中,使用短信验证码场

Redis 多规则限流和防重复提交方案实现小结

《Redis多规则限流和防重复提交方案实现小结》本文主要介绍了Redis多规则限流和防重复提交方案实现小结,包括使用String结构和Zset结构来记录用户IP的访问次数,具有一定的参考价值,感兴趣... 目录一:使用 String 结构记录固定时间段内某用户 IP 访问某接口的次数二:使用 Zset 进行

解读Redis秒杀优化方案(阻塞队列+基于Stream流的消息队列)

《解读Redis秒杀优化方案(阻塞队列+基于Stream流的消息队列)》该文章介绍了使用Redis的阻塞队列和Stream流的消息队列来优化秒杀系统的方案,通过将秒杀流程拆分为两条流水线,使用Redi... 目录Redis秒杀优化方案(阻塞队列+Stream流的消息队列)什么是消息队列?消费者组的工作方式每

Redis如何使用zset处理排行榜和计数问题

《Redis如何使用zset处理排行榜和计数问题》Redis的ZSET数据结构非常适合处理排行榜和计数问题,它可以在高并发的点赞业务中高效地管理点赞的排名,并且由于ZSET的排序特性,可以轻松实现根据... 目录Redis使用zset处理排行榜和计数业务逻辑ZSET 数据结构优化高并发的点赞操作ZSET 结