在服务器上搭建scrapy分布式爬虫环境的过程

2024-08-29 08:08

本文主要是介绍在服务器上搭建scrapy分布式爬虫环境的过程,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

这段时间在用 scrapy 爬取大众点评美食店铺的信息,由于准备爬取该网站上全国各个城市的信息,单机跑效率肯定是跟不上的,所以只能借助于分布式。scrapy 学习自崔庆才老师的视频,受益颇多,代码简练易懂,风格清新。这里梳理一遍从刚申请的服务器环境配置,python 安装,到搭建能运行分布式爬虫的整个流程。

服务器我是申请的阿里云的学生机,腾讯云和美团云也申请了,相比起来还是阿里云用起来舒服,腾讯云使用体验最差。我装的是 centos 系统,以下也是 centos 下遇到的问题及解决问题的找过的链接。另外阿里云需要添加安全组规则,将后面会用到的端口放行,例如27017,6800等。

从机配置

1.python 的安装

在装过好几台服务器后总结出了最短且有效的装 python 的方法,参考了这篇文章这里简要总结一下

  • yum -y install zlib-devel bzip2-devel openssl-devel ncurses-devel sqlite-devel readline-devel tk-devel gdbm-devel db4-devel libpcap-devel xz-devel
  • wget https://www.python.org/ftp/python/3.6.3/Python-3.6.3.tgz
  • mkdir /usr/local/python3
  • tar -zxvf Python-3.6.3.tgz
  • cd Python-3.6.3
  • ./configure --prefix=/usr/local/python3
  • make && make install
  • ln -s /usr/local/python3/bin/python3 /usr/bin/python3 创建 python3 的软链接
  • ln -s /usr/local/python3/bin/pip3 /usr/bin/pip3 创建 pip3 的软链接
  • 最后命令行下输入pip3python3 -V 验证一下是否都成功

2.mongodb的安装

在从机上都装上 mongodb,爬取的数据都存在各自的服务器上,之后再汇总。这里参考了这篇文章

  • vim /etc/yum.repos.d/mongodb-org-3.4.repo
  • [mongodb-org-3.4] 
    name=MongoDB Repository 
    baseurl=https://repo.mongodb.org/yum/redhat/$releasever/mongodb-org/3.4/x86_64/ 
    gpgcheck=1 
    enabled=1 
    gpgkey=https://www.mongodb.org/static/pgp/server-3.4.asc
     
    将以上内容复制粘贴进去刚打开的窗口
  • yum -y install mongodb-org
  • systemctl enable mongod.service 设置开机启动
  • vim /etc/mongod.conf 编辑配置文件,注释掉 bindIp,并重启 mongodb
  • systemctl restart mongod.service 重启 mongodb,这条指令在 mongodb 挂掉时候可以使用
  • systemctl stop mongod.service 停止 mongodb

记录一下刚学习时命令行下的编辑操作,vim 打开文件后,insert 进行编辑,退出编辑 esc,shift+两下Z。查找关键词是:/+关键词

3.利用 pip3 安装 scrapy 等

一般正常顺序先pip3 install scrapy,接着肯定会报requirement Twisted>=13.1.0这种错误,一次偶然我先pip3 install scrapyd发现安装上了最新的 Twisted 组件,接着安装 scrapy也没再报错。所以为了省事,避开报错,建议先安装 scrapyd。

  • pip3 install scrapyd
  • pip3 install scrapy
  • pip3 install pymongo
  • pip3 install redis
  • pip3 install redis-client

安装完以上内容,基本能满足分布式从机的爬取。但是在命令行直接输入scrapy 和 scrapyd 发现会报错,提示command not found,这里可以通过创建软链接解决问题。

  • find / -name scrapy找到系统中scrapy所在的目录,选择在bin目录下的路径
  • ln -s /usr/local/python3/bin/scrapy /usr/bin/scrapy 这是在我的路径下创建的软链接
  • scrapy 命令行再输入scrapy发现已经可用

scrapyd 创建软链接的方法与上面一样,其实在后面加个d就好了(笑)

scrapy 创建软链接如下

scrapy创建软链接

scrapyd 创建软链接如下

这里写图片描述

在开启了 scrapyd 服务后发现监听 ip 为本机,想要远程访问需要将配置修改一下。先 ctrl+c 退出 scrapyd,打开 scrapyd 配置文件所在的文件夹

  • cd /usr/local/python3/lib/python3.6/site-packages/scrapyd
  • ls 列出 scrapyd 文件夹下所有文件
  • vim default_scrapyd.conf 打开配置文件
  • bind_address = 0.0.0.0 将绑定 ip 修改为 0.0.0.0,保存退出,再在命令行输入scrapyd会发现监听 ip 发生了变化。

由于从机的scrapyd需要后台运行,这里我采用了setsid scrapyd命令来后台开启服务,这样关闭窗口后仍能进行连接。 
需要结束scrapyd进程时,利用ps -ef | grep -i scrapyd查看PID号,再 kill -9 PID 结束进程。

主机配置

以上完成了从机的配置,接下里配置主机

主机和从机不同在于它需要提供 redis 服务来保存请求队列,所以主要是安装 redis 服务。参考了众多文章后,还是推荐这篇文章 
这里梳理一下过程:

  • yum install gcc
  • wget http://download.redis.io/releases/redis-3.0.6.tar.gz
  • tar zxvf redis-3.0.6.tar.gz
  • cd redis-3.0.6 建议将文件夹名字修改为redis看着简洁一些
  • vim redis.conf 打开 redis 配置文件
  • #bind 127.0.0.1 将绑定 ip 注释掉,以便远程访问
  • daemonize yes 在 redis.conf 中修改该选项为 yes,即后台运行
  • requirepass 后加上登陆密码
  • protected-mode no 关闭保护模式,接着保存退出
  • mkdir /etc/redis 
    cp redis.conf /etc/redis/6379.conf
     将 redis.conf 复制一份名为 6379.conf 到指定目录
  • cd utils 在原redis目录下打开utils文件夹
  • vim redis_init_script 修改启动脚本,并在开头添加如下代码 
    #!/bin/sh 
    #chkconfig: 2345 90 10 
    #description: Redis is a persistent key-value database 
  • cp redis_init_script /etc/init.d/redisd 将启动脚本复制为 redis
  • chkconfig redisd on 设置开机启动
  • service redisd start 启动 redis
  • service redisd stop 关闭 redis

遇到过的问题

以上内容完成了主机上 redis 服务的搭建,不过在使用过程中,遇到了以下报错, 
MISCONF Redis is configured to save RDB snapshots, but is currently not able to persist on disk.Commands that may modify the data set are disabled. Please check Redis logs for details about the error.

原因是强制关闭 Redis 快照导致不能持久化,我采取了下面解决方法

redis-cli -a 密码 进入 redis 客户端,-a 后接之前配置文件中修改的密码 
127.0.0.1:6379> config set stop-writes-on-bgsave-error no 提示 ok 就可以了

通过主机与从机的搭建,分布式运行的条件有了,本地需要pip install scrapyd-client 安装 scrapyd 的客户端插件,另外由于我用的是 windows 系统,curl 命令需要再去下载,scrapyd-deploy 也是无法直接使用的,后来在 github 上找到了解决办法

  • 打开本地 Python\Python36\Scripts 目录
  • 创建名为scrapyd-deploy.bat 的文件
  • 写入"Python\Python36\python.exe" "Python\Python36\Scripts\scrapyd-deploy" %1 %2 %3 %4 %5 %6 %7 %8 
    %9

这样就可以是使用 scrapyd-deploy 了,具体使用请阅读官方文档 scrapyd scrapyd-client

这里写图片描述

END


这篇关于在服务器上搭建scrapy分布式爬虫环境的过程的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1117310

相关文章

基于Python打造一个可视化FTP服务器

《基于Python打造一个可视化FTP服务器》在日常办公和团队协作中,文件共享是一个不可或缺的需求,所以本文将使用Python+Tkinter+pyftpdlib开发一款可视化FTP服务器,有需要的小... 目录1. 概述2. 功能介绍3. 如何使用4. 代码解析5. 运行效果6.相关源码7. 总结与展望1

使用Python开发一个简单的本地图片服务器

《使用Python开发一个简单的本地图片服务器》本文介绍了如何结合wxPython构建的图形用户界面GUI和Python内建的Web服务器功能,在本地网络中搭建一个私人的,即开即用的网页相册,文中的示... 目录项目目标核心技术栈代码深度解析完整代码工作流程主要功能与优势潜在改进与思考运行结果总结你是否曾经

将Mybatis升级为Mybatis-Plus的详细过程

《将Mybatis升级为Mybatis-Plus的详细过程》本文详细介绍了在若依管理系统(v3.8.8)中将MyBatis升级为MyBatis-Plus的过程,旨在提升开发效率,通过本文,开发者可实现... 目录说明流程增加依赖修改配置文件注释掉MyBATisConfig里面的Bean代码生成使用IDEA生

Python FastAPI+Celery+RabbitMQ实现分布式图片水印处理系统

《PythonFastAPI+Celery+RabbitMQ实现分布式图片水印处理系统》这篇文章主要为大家详细介绍了PythonFastAPI如何结合Celery以及RabbitMQ实现简单的分布式... 实现思路FastAPI 服务器Celery 任务队列RabbitMQ 作为消息代理定时任务处理完整

使用Python实现快速搭建本地HTTP服务器

《使用Python实现快速搭建本地HTTP服务器》:本文主要介绍如何使用Python快速搭建本地HTTP服务器,轻松实现一键HTTP文件共享,同时结合二维码技术,让访问更简单,感兴趣的小伙伴可以了... 目录1. 概述2. 快速搭建 HTTP 文件共享服务2.1 核心思路2.2 代码实现2.3 代码解读3.

MySQL双主搭建+keepalived高可用的实现

《MySQL双主搭建+keepalived高可用的实现》本文主要介绍了MySQL双主搭建+keepalived高可用的实现,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,... 目录一、测试环境准备二、主从搭建1.创建复制用户2.创建复制关系3.开启复制,确认复制是否成功4.同

C# WinForms存储过程操作数据库的实例讲解

《C#WinForms存储过程操作数据库的实例讲解》:本文主要介绍C#WinForms存储过程操作数据库的实例,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录一、存储过程基础二、C# 调用流程1. 数据库连接配置2. 执行存储过程(增删改)3. 查询数据三、事务处

JSON Web Token在登陆中的使用过程

《JSONWebToken在登陆中的使用过程》:本文主要介绍JSONWebToken在登陆中的使用过程,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录JWT 介绍微服务架构中的 JWT 使用结合微服务网关的 JWT 验证1. 用户登录,生成 JWT2. 自定义过滤

java中使用POI生成Excel并导出过程

《java中使用POI生成Excel并导出过程》:本文主要介绍java中使用POI生成Excel并导出过程,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录需求说明及实现方式需求完成通用代码版本1版本2结果展示type参数为atype参数为b总结注:本文章中代码均为

CentOS 7部署主域名服务器 DNS的方法

《CentOS7部署主域名服务器DNS的方法》文章详细介绍了在CentOS7上部署主域名服务器DNS的步骤,包括安装BIND服务、配置DNS服务、添加域名区域、创建区域文件、配置反向解析、检查配置... 目录1. 安装 BIND 服务和工具2.  配置 BIND 服务3 . 添加你的域名区域配置4.创建区域