docker分布式部署pyspider爬虫系统

2024-05-26 08:18

本文主要是介绍docker分布式部署pyspider爬虫系统,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

阅读准备

  1. docker基础命令,docker-compose基础
  2. pyspider基础

如果您不熟悉上面的内容,可以先网上查阅有关资料。

1. 创建网络接口

首先,创建一个Driver为bridge的网络接口,命名为pyspider
docker network create --driver bridge pyspider

  • 说明1: 需要创建该网络接口的原因是:在下面创建Docker容器的过程中,我们使用了dockerdocker-compose分别创建了不同的服务。按正常来说,如果都使用docker-compose来创建服务会更好;但是这里有些特殊需求,所有就混合使用dockerdocker-compose来创建服务了。

  • 说明2:直接使用docker命令创建容器时,容器的默认网络接口使用的是NAMEbridge的接口;而使用docker-compose时,默认的网络接口使用的不是NAMEbridge的接口,而是根据docker-compose.yml文件所在目录命名的网络接口。如,我的docker-compose.yml文件在目录Pyspider下,则使用docker-compose时的默认网络接口就是pyspider_default。所以,如果我们使用dockerdocker-compose时,默认的情况下它们属于不同的子网,网络不互通,这不是我们想要的。dokcerdocker-compose的网络接口都可以通过参数自定义,从而实现它们的服务的网络互通,所有我们才自己创建一个网络接口。

  • 说明3:

    • 可以通过命令docker network ls查看已有的网络接口,如下图:
      docker网络接口
    • 可以通过docker network inspect bridge命令查看网络接口的详细信息。如NAMEbridge的详细信息如下图:
      查看网络接口信息

资料: https://docs.docker.com/engine/userguide/networking/

2. 创建Redis服务

运行命令:docker run --network=pyspider --name redis -d -p 6379:6379 redis 创建Redis服务。

  • 说明1:其中,参数--network=pyspider指定使用pyspider网络接口。我们可以使用docker inspect redis | grep IPA查看该容器的ip地址,如下图:
    查看容器ip地址

    我们还可以通过docker logs reids查看容器redis的日志输出,来观察redis服务是否正常运行。

3. 创建mysql服务

运行:docker run --network pyspider -p 3306:3306 --name pymysql -v /Users/andy/Pyspider/mysql/conf/my.cnf:/etc/mysql/my.cnf -v /Users/andy/Pyspider/mysql/logs:/logs -v /Users/andy/Pyspider/mysql/data:/var/lib/mysql -e MYSQL_ROOT_PASSWORD=root123 -d mysql以创建mysql服务。

  • 说明:
    • 指定网络接口--network=pyspider
    • -p 3306:3306指定端口号
    • -v /Users/andy/Pyspider/mysql/conf/my.cnf:/etc/mysql/my.cnf指定mysql配置文件
    • -v /Users/andy/Pyspider/mysql/logs:/logs指定日志目录
    • -v /Users/andy/Pyspider/mysql/data:/var/lib/mysql指定mysql的数据文件存储目录
    • -e MYSQL_ROOT_PASSWORD=root123指定root账户的密码为root123

docker inspect pymysql | grep IPA查看mysql容器的ip地址。

mysql容器ip地址

4. 创建pyspider的scheduler服务

运行:docker run --network=pyspider --name scheduler -d -p 23333:23333 --restart=always binux/pyspider --taskdb "mysql+taskdb://root:root123@172.20.0.2:3306/taskdb" --resultdb "mysql+projectdb://root:root123@172.20.0.2:3306/resultdb" --projectdb "mysql+projectdb://root:root123@172.20.0.2:3306/projectdb" --message-queue "redis://172.20.0.3:6379/0" scheduler --inqueue-limit 10000 --delete-time 3600

  • 参数说明

    • --network=pyspider指定网络接口
    • -p 23333:23333指定端口
    • root:root123@172.20.0.2:3306为mysql服务的ip地址,端口,用户名和密码
    • redis://172.20.0.3:6379/0为redis服务的配置。
    • 命令运行成功后,可以通过docker logs scheduler查看scheduler服务的运行情况。
  • 查看scheduler的ip地址为:172.20.0.4,方便后边使用。

  • pyspider分布式部署中,scheduer服务只能创建一个。

5. 使用docker-compose创建pyspider的其它组件

配置文件docker-compose.yml的内容如下:

version: '2'
services:phantomjs:image: 'binux/pyspider:latest'command: phantomjscpu_shares: 256environment:- 'EXCLUDE_PORTS=5000,23333,24444'expose:- '25555' # 暴露端口25555给link到此service的容器mem_limit: 256mrestart: alwaysphantomjs-lb:image: 'dockercloud/haproxy:latest' # 使用haproxy使用负载均衡links:- phantomjsvolumes:- /var/run/docker.sock:/var/run/docker.sock # docker-compose v2版本中haproxy需要指定docker socket(MAC系统中)restart: alwaysfetcher:image: 'binux/pyspider:latest'command: '--message-queue "redis://172.20.0.3:6379/0" --phantomjs-proxy "phantomjs:80" fetcher --xmlrpc' # fetcher以rpc的方式启动cpu_shares: 256environment:- 'EXCLUDE_PORTS=5000,25555,23333'links:- 'phantomjs-lb:phantomjs'mem_limit: 256mrestart: alwaysfetcher-lb:image: 'dockercloud/haproxy:latest' # 使用haproxy使用负载均衡links:- fetchervolumes:- /var/run/docker.sock:/var/run/docker.sock # docker-compose v2版本中haproxy需要指定docker socket(MAC系统中)restart: alwaysprocessor:image: 'binux/pyspider:latest'command: '--projectdb "mysql+projectdb://root:root123@172.20.0.2:3306/projectdb" --message-queue "redis://172.20.0.3:6379/0" processor'cpu_shares: 256mem_limit: 256mrestart: alwaysresult-worker:image: 'binux/pyspider:latest'command: '--taskdb "mysql+taskdb://root:root123@172.20.0.2:3306/taskdb"  --projectdb "mysql+projectdb://root:root123@172.20.0.2:3306/projectdb" --resultdb "mysql+resultdb://root:root123@172.20.0.2:3306/resultdb" --message-queue "redis://172.20.0.3:6379/0" result_worker'cpu_shares: 256mem_limit: 256mrestart: alwayswebui:image: 'binux/pyspider:latest'command: '--taskdb "mysql+taskdb://root:root123@172.20.0.2:3306/taskdb"  --projectdb "mysql+projectdb://root:root123@172.20.0.2:3306/projectdb" --resultdb "mysql+resultdb://root:root123@172.20.0.2:3306/resultdb" --message-queue "redis://172.20.0.3:6379/0" webui --max-rate 0.3 --max-burst 3 --scheduler-rpc "http://172.20.0.4:23333/" --fetcher-rpc "http://fetcher/"'cpu_shares: 256environment:- 'EXCLUDE_PORTS=24444,25555,23333'ports:- '5000:5000' # webui的对外的端口为5000,可以通过http://localhost:5000访问webui服务。links:- 'fetcher-lb:fetcher' # link到其它负载均衡haproxy的服务。mem_limit: 256mrestart: alwaysnetworks:default:external:name: pyspider #指定docker-compose的网络接口为:pyspider;实现和docker run方式创建容器的互通。
  • webui服务说明
    • --fetcher-rpc "http://fetcher/"是以服务名的方式指定webui链接到的fetcher服务,因为fetcher实例可以有很多个,我们如果用ip指定就不能起到负载均衡的目的了。
    • --scheduler-rpc "http://172.20.0.4:23333/"是webui直接用ip和port的方式链接到scheduler服务,因为scheduler只有一个。
    • command的其它参数可以参考pyspider的文档:http://docs.pyspider.org/en/latest/
  • haproxy的文档:https://github.com/docker/dockercloud-haproxy
  • docker-compose的文档:https://docs.docker.com/compose/

docker-compose.yml文件写好后,运行docker-compose up(要在docker-compose.yml所在目录)命令,docker-compose开始创建容器服务,如下图:

docker-compose up

所有组件服务创建完成后,访问:http://localhost:5000,即可看到webui界面。

如果想创建更多的fetcher, result_work, phantomjs容器实例,可以使用:docker-compose scale phantomjs=2 processor=4 result-worker=2docker-compose会自动帮你创建2个phantomjs服务,4个processor服务,2个result-worker服务;haproxy会自动实现负载均衡,如下图:

docker-compose scale

最后说明

  1. redis, mysql, scheudler服务的ip地址需要根据您的容器的ip具体而定。

这篇关于docker分布式部署pyspider爬虫系统的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1003922

相关文章

ElasticSearch+Kibana通过Docker部署到Linux服务器中操作方法

《ElasticSearch+Kibana通过Docker部署到Linux服务器中操作方法》本文介绍了Elasticsearch的基本概念,包括文档和字段、索引和映射,还详细描述了如何通过Docker... 目录1、ElasticSearch概念2、ElasticSearch、Kibana和IK分词器部署

部署Vue项目到服务器后404错误的原因及解决方案

《部署Vue项目到服务器后404错误的原因及解决方案》文章介绍了Vue项目部署步骤以及404错误的解决方案,部署步骤包括构建项目、上传文件、配置Web服务器、重启Nginx和访问域名,404错误通常是... 目录一、vue项目部署步骤二、404错误原因及解决方案错误场景原因分析解决方案一、Vue项目部署步骤

Linux流媒体服务器部署流程

《Linux流媒体服务器部署流程》文章详细介绍了流媒体服务器的部署步骤,包括更新系统、安装依赖组件、编译安装Nginx和RTMP模块、配置Nginx和FFmpeg,以及测试流媒体服务器的搭建... 目录流媒体服务器部署部署安装1.更新系统2.安装依赖组件3.解压4.编译安装(添加RTMP和openssl模块

0基础租个硬件玩deepseek,蓝耘元生代智算云|本地部署DeepSeek R1模型的操作流程

《0基础租个硬件玩deepseek,蓝耘元生代智算云|本地部署DeepSeekR1模型的操作流程》DeepSeekR1模型凭借其强大的自然语言处理能力,在未来具有广阔的应用前景,有望在多个领域发... 目录0基础租个硬件玩deepseek,蓝耘元生代智算云|本地部署DeepSeek R1模型,3步搞定一个应

redis群集简单部署过程

《redis群集简单部署过程》文章介绍了Redis,一个高性能的键值存储系统,其支持多种数据结构和命令,它还讨论了Redis的服务器端架构、数据存储和获取、协议和命令、高可用性方案、缓存机制以及监控和... 目录Redis介绍1. 基本概念2. 服务器端3. 存储和获取数据4. 协议和命令5. 高可用性6.

Deepseek R1模型本地化部署+API接口调用详细教程(释放AI生产力)

《DeepseekR1模型本地化部署+API接口调用详细教程(释放AI生产力)》本文介绍了本地部署DeepSeekR1模型和通过API调用将其集成到VSCode中的过程,作者详细步骤展示了如何下载和... 目录前言一、deepseek R1模型与chatGPT o1系列模型对比二、本地部署步骤1.安装oll

在不同系统间迁移Python程序的方法与教程

《在不同系统间迁移Python程序的方法与教程》本文介绍了几种将Windows上编写的Python程序迁移到Linux服务器上的方法,包括使用虚拟环境和依赖冻结、容器化技术(如Docker)、使用An... 目录使用虚拟环境和依赖冻结1. 创建虚拟环境2. 冻结依赖使用容器化技术(如 docker)1. 创

docker如何删除悬空镜像

《docker如何删除悬空镜像》文章介绍了如何使用Docker命令删除悬空镜像,以提高服务器空间利用率,通过使用dockerimage命令结合filter和awk工具,可以过滤出没有Tag的镜像,并将... 目录docChina编程ker删除悬空镜像前言悬空镜像docker官方提供的方式自定义方式总结docker

nginx部署https网站的实现步骤(亲测)

《nginx部署https网站的实现步骤(亲测)》本文详细介绍了使用Nginx在保持与http服务兼容的情况下部署HTTPS,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值... 目录步骤 1:安装 Nginx步骤 2:获取 SSL 证书步骤 3:手动配置 Nginx步骤 4:测

CentOS系统Maven安装教程分享

《CentOS系统Maven安装教程分享》本文介绍了如何在CentOS系统中安装Maven,并提供了一个简单的实际应用案例,安装Maven需要先安装Java和设置环境变量,Maven可以自动管理项目的... 目录准备工作下载并安装Maven常见问题及解决方法实际应用案例总结Maven是一个流行的项目管理工具