Python爬虫之Scrapy框架系列(25)——分布式爬虫scrapy_redis完整实战【ZH小说爬取】

本文主要是介绍Python爬虫之Scrapy框架系列(25)——分布式爬虫scrapy_redis完整实战【ZH小说爬取】,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

本篇文章要做的是:将之前做的使用Scrapy中Crawl模板爬取纵横小说的项目改编为使用Scrapy_redis的项目!!!

目录:

  • 每篇前言:
  • 1.首先,将之前的项目改为单个的使用scrapy\_redis的分布式爬虫项目。
    • 第一步:settings.py进行如下配置!
    • 第二步:爬虫文件中进行如下修改!
    • 最后,运行观察!
    • 小拓展:如何使用Navicat工具清空Mysql数据库中数据表里的数据!
  • 2.然后,将项目改为完整的scrapy-redis分布式爬虫项目

每篇前言:

  • 🏆🏆作者介绍:【孤寒者】—CSDN全栈领域优质创作者、HDZ核心组成员、华为云享专家Python全栈领域博主、CSDN原力计划作者

  • 🔥🔥本文已收录于Scrapy框架从入门到实战专栏:《Scrapy框架从入门到实战》
  • 🔥🔥热门专栏推荐:《Python全栈系列教程》、《爬虫从入门到精通系列教程》、《爬虫进阶+实战系列教程》、《Scrapy框架从入门到实战》、《Flask框架从入门到实战》、《Django框架从入门到实战》、《Tornado框架从入门到实战》、《前端系列教程》。
  • 📝​📝本专栏面向广大程序猿,为的是大家都做到Python全栈技术从入门到精通,穿插有很多实战优化点。
  • 🎉🎉订阅专栏后可私聊进一千多人Python全栈交流群(手把手教学,问题解答); 进群可领取Python全栈教程视频 + 多得数不过来的计算机书籍:基础、Web、爬虫、数据分析、可视化、机器学习、深度学习、人工智能、算法、面试题等。
  • 🚀🚀加入我一起学习进步,一个人可以走的很快,一群人才能走的更远!

在这里插入图片描述

1.首先,将之前的项目改为单个的使用scrapy_redis的分布式爬虫项目。

  • (如果运行OK,再直接复制一个进行少量更改即可实现分布式!)

第一步:settings.py进行如下配置!

# 日志写入.log文件,方便观察终端!
LOG_FILE="zh.log"
LOG_ENABLED=False# 第一步:加入以下代码:
#设置scrapy-redis
#1.启用调度将请求存储进redis
from scrapy_redis.scheduler import Scheduler
SCHEDULER="scrapy_redis.scheduler.Scheduler"#2.确保所有spider通过redis共享相同的重复过滤
from scrapy_redis.dupefilter import RFPDupeFilter
DUPEFILTER_CLASS="scrapy_redis.dupefilter.RFPDupeFilter"#3.指定连接到Redis时要使用的主机和端口     目的是连接上redis数据库
REDIS_HOST="localhost"
REDIS_PORT=6379# 不清理redis队列,允许暂停/恢复抓取    (可选)    允许暂停,redis数据不丢失     可以实现断点续爬!!!
SCHEDULER_PERSIST = True# 第二步:开启将数据存储进redis公共区域的管道!
# Configure item pipelines
# See https://docs.scrapy.org/en/latest/topics/item-pipeline.html
ITEM_PIPELINES = {# 开启保存Mysql数据库的管道'zongheng.pipelines.ZonghengPipeline': 300,# 开启保存数据至redis公共区域的数据库'scrapy_redis.pipelines.RedisPipeline': 100,
}

第二步:爬虫文件中进行如下修改!

在这里插入图片描述

最后,运行观察!

  1. 首先,命令运行项目,发现项目在等待。

  2. 然后,向redis数据库中放入第一个起始URL,命令为:lpush zh:start_urls http://book.zongheng.com/store/c0/c0/b0/u1/p1/v0/s1/t0/u0/i1/ALL.html

  3. 项目正常运行!可以通过Redis Desktop Manager工具观察到redis数据库中的URL数据等。
    在这里插入图片描述

  4. 运行结束后,通过Navicat工具观察到Mysql数据库中小说信息爬取正常!
    在这里插入图片描述在这里插入图片描述

小拓展:如何使用Navicat工具清空Mysql数据库中数据表里的数据!

使用truncate命令的原因是:删除速度快;而且如果再次对同一张表中写入数据,自增长key会从初始值开始!
在这里插入图片描述

2.然后,将项目改为完整的scrapy-redis分布式爬虫项目

  • 将此项目(称为项目一)再复制一个(称为项目二),并且为了便于观察,项目一的数据存入chapter和novel表中;项目二中的数据存入novel_copy和chapter表中。实质上两表结构一模一样!

因为项目二存入的表名更改了,所以要更改pipelines.py文件中的mysql语句中的表名(将所有的表名novel改为novel_copy;所有的chapter改为chapter_copy)!

  1. 但是,我们运行此分布式项目后,通过Navicat观察Mysql数据库中的数据时会发现——novel和novel_copy表中数据相加刚好为目标本数;但是,chapter和chapter_copy表会出现一个问题,比如:chapter_copy表中小说章节信息都有,然后有四章章节有具体章节内容,但是我们爬虫文件中限制的是六章章节有具体章节内容,理应chapter表中有另外两章章节的具体内容,但是观察会发现chapter表中是空的!!!

  2. 分析:
    在这里插入图片描述

  • 回想——我们之前向Mysql数据库中存入小说章节信息的思路是:先存入小说所有章节的信息(但不包括章节具体章节内容信息),注意是一次存入所有章节信息;然后:
    在这里插入图片描述

  • 存入章节具体章节信息的思路是:对应小说的章节URL(chapter_url)进行存储。即:先查询到表中有这个chapter_url,才会update其对应的章节具体章节内容!

  • 但是小说所有章节信息是一次性插入,即会出现一张表有一张表没有的现象!所以,会出现上述问题!!!(但是实质上,我们实现了分布式,缺具体章节内容的其实被另一个项目处理了,只是没能存储进数据库!)

  1. 那么,如何获取完整的数据呢?我们可以想到,在settings.py中开启了将所有数据都放入redis数据库中公共区域的管道!但是,redis是个内存数据库,数据不能持久化,这里就想到了将redis数据库中的数据搬运到Mysql数据库中,即可!!!
    ①首先,从Redsi中取出数据试试可不可以:

创建一个.py脚本文件即可:

import  redis
import pymysql
import json#指定redis数据库信息
rediscli=redis.StrictRedis(host="localhost",port=6379,db=0)#指定mysql数据库
mysqlconn=pymysql.connect(host="localhost",port=3306,user="root",password="123456",db="",charset="utf8")#取出数据
source, data = rediscli.blpop(["bh3:items"])     # 数据是字节码格式
print(source, data)
item = json.loads(data)
print(item)

打印观察数据:
在这里插入图片描述

②从Redsi中取出数据完全OK,接下来就进行存储进Mysql数据库的操作!(注意:Redis这个公共区域空间存储了框架运行过程中爬取的所有数据,所以进行Mysql存储操作时要进行判断,所取出的那一条数据属于什么数据,是小说信息;章节信息还是章节具体内容信息)

import datetime
import  redis
import pymysql
import json#指定redis数据库信息
rediscli=redis.StrictRedis(host="localhost",port=6379,db=0)#指定mysql数据库
mysqlconn=pymysql.connect(host="localhost",port=3306,user="root",password="123456",db="spider39",charset="utf8")while  True:#取出数据source, data = rediscli.blpop(["bh3:items"])     # 数据是字节码格式# print(source, data)item = json.loads(data)# print(item)#写入数据cursor=mysqlconn.cursor()if  b"book_name" in data:sql = "select id from  novel_from_redis  where  book_name=%s  and author=%s"cursor.execute(sql, (item["book_name"], item["author"]))if  not cursor.fetchone():#写入小说数据sql="insert  into  novel_from_redis(category,book_name,author,status,book_nums,description,c_time,book_url,catalog_url)" \"values (%s,%s,%s,%s,%s,%s,%s,%s,%s)"cursor.execute(sql,(item["category"],item["book_name"],item["author"],item["status"],item["book_nums"],item["description"],item["c_time"],item["book_url"],item["catalog_url"],))mysqlconn.commit()cursor.close()elif  b"chapter_list"  in  data:sql = "insert into  chapter_from_redis(title,ordernum,c_time,chapter_url,catalog_url)  values(%s,%s,%s,%s,%s)"data_list = []  # [(%s,%s,%s,%s,%s),(%s,%s,%s,%s,%s),(%s,%s,%s,%s,%s)]for index, chapter in enumerate(item["chapter_list"]):title = chapter[0]ordernum = index + 1c_time = chapter[2]chapter_url = chapter[3]catalog_url = chapter[4]data_list.append((title, ordernum, c_time, chapter_url, catalog_url))cursor.executemany(sql, data_list)mysqlconn.commit()cursor.close()elif  b"content"  in  data:sql = "update chapter_from_redis set  content=%s where chapter_url=%s"content = item["content"]chapter_url = item["chapter_url"]cursor.execute(sql, (content, chapter_url))mysqlconn.commit()cursor.close()

运行此.py脚本文件即可发现Mysql数据库中数据完整!!!

项目完整代码:
链接:https://pan.baidu.com/s/16-Zx5PGERxg2SgRGKStxvA
提取码:j5qh

这篇关于Python爬虫之Scrapy框架系列(25)——分布式爬虫scrapy_redis完整实战【ZH小说爬取】的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/854805

相关文章

Python 字符串占位

在Python中,可以使用字符串的格式化方法来实现字符串的占位。常见的方法有百分号操作符 % 以及 str.format() 方法 百分号操作符 % name = "张三"age = 20message = "我叫%s,今年%d岁。" % (name, age)print(message) # 我叫张三,今年20岁。 str.format() 方法 name = "张三"age

Eureka高可用注册中心registered-replicas没有分布式注册中心

自己在学习过程中发现,如果Eureka挂掉了,其他的Client就跑不起来了,那既然是商业项目,还是要处理好这个问题,所以决定用《Spring Cloud微服务实战》(PDF版在全栈技术交流群中自行获取)中说的“高可用注册中心”。 一开始我yml的配置是这样的 server:port: 8761eureka:instance:hostname: 127.0.0.1client:fetch-r

Windows/macOS/Linux 安装 Redis 和 Redis Desktop Manager 可视化工具

本文所有安装都在macOS High Sierra 10.13.4进行,Windows安装相对容易些,Linux安装与macOS类似,文中会做区分讲解 1. Redis安装 1.下载Redis https://redis.io/download 把下载的源码更名为redis-4.0.9-source,我喜欢跟maven、Tomcat放在一起,就放到/Users/zhan/Documents

React+TS前台项目实战(十七)-- 全局常用组件Dropdown封装

文章目录 前言Dropdown组件1. 功能分析2. 代码+详细注释3. 使用方式4. 效果展示 总结 前言 今天这篇主要讲全局Dropdown组件封装,可根据UI设计师要求自定义修改。 Dropdown组件 1. 功能分析 (1)通过position属性,可以控制下拉选项的位置 (2)通过传入width属性, 可以自定义下拉选项的宽度 (3)通过传入classN

Android我的二维码扫描功能发展史(完整)

最近在研究下二维码扫描功能,跟据从网上查阅的资料到自己勉强已实现扫描功能来一一介绍我的二维码扫描功能实现的发展历程: 首页通过网络搜索发现做android二维码扫描功能看去都是基于google的ZXing项目开发。 2、搜索怎么使用ZXing实现自己的二维码扫描:从网上下载ZXing-2.2.zip以及core-2.2-source.jar文件,分别解压两个文件。然后把.jar解压出来的整个c

一道经典Python程序样例带你飞速掌握Python的字典和列表

Python中的列表(list)和字典(dict)是两种常用的数据结构,它们在数据组织和存储方面有很大的不同。 列表(List) 列表是Python中的一种有序集合,可以随时添加和删除其中的元素。列表中的元素可以是任何数据类型,包括数字、字符串、其他列表等。列表使用方括号[]表示,元素之间用逗号,分隔。 定义和使用 # 定义一个列表 fruits = ['apple', 'banana

Python应用开发——30天学习Streamlit Python包进行APP的构建(9)

st.area_chart 显示区域图。 这是围绕 st.altair_chart 的语法糖。主要区别在于该命令使用数据自身的列和指数来计算图表的 Altair 规格。因此,在许多 "只需绘制此图 "的情况下,该命令更易于使用,但可定制性较差。 如果 st.area_chart 无法正确猜测数据规格,请尝试使用 st.altair_chart 指定所需的图表。 Function signa

JavaWeb系列二十: jQuery的DOM操作 下

jQuery的DOM操作 CSS-DOM操作多选框案例页面加载完毕触发方法作业布置jQuery获取选中复选框的值jQuery控制checkbox被选中jQuery控制(全选/全不选/反选)jQuery动态添加删除用户 CSS-DOM操作 获取和设置元素的样式属性: css()获取和设置元素透明度: opacity属性获取和设置元素高度, 宽度: height(), widt

python实现最简单循环神经网络(RNNs)

Recurrent Neural Networks(RNNs) 的模型: 上图中红色部分是输入向量。文本、单词、数据都是输入,在网络里都以向量的形式进行表示。 绿色部分是隐藏向量。是加工处理过程。 蓝色部分是输出向量。 python代码表示如下: rnn = RNN()y = rnn.step(x) # x为输入向量,y为输出向量 RNNs神经网络由神经元组成, python

python 喷泉码

因为要完成毕业设计,毕业设计做的是数据分发与传输的东西。在网络中数据容易丢失,所以我用fountain code做所发送数据包的数据恢复。fountain code属于有限域编码的一部分,有很广泛的应用。 我们日常生活中使用的二维码,就用到foutain code做数据恢复。你遮住二维码的四分之一,用手机的相机也照样能识别。你遮住的四分之一就相当于丢失的数据包。 为了实现并理解foutain