网络爬虫之Splash负载均衡配置

2023-12-29 05:18

本文主要是介绍网络爬虫之Splash负载均衡配置,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

如果我们用 Splash 来做 JavaScript 动态渲染的页面的抓取的话,如果爬取的量非常大,任务非常多,如果我们用一个 Splash 服务来处理的话未免压力太大了,所以我们可以考虑搭建一个负载均衡器来把压力分散到各个服务器上,这样相当于多台机器多个服务共同参与任务的处理,可以减小单个 Splash 服务的压力。

1. 配置Splash服务

要搭建 Splash 负载均衡首先我们需要有多个 Splash 服务,假如在这里我在四台远程主机的 8050 端口上都开启了 Splash 服务,它们的服务地址分别为:41.159.27.223:8050、41.159.27.221:8050、41.159.27.9:8050、41.159.117.119:8050,四个服务完全一致,都是通过 Docker 的 Splash 镜像开启的,访问任何一个服务都可以使用 Splash 服务。

2. 配置负载均衡

接下来我们可以选用任意一台带有公网 IP 的主机来配置负载均衡,首先需要在这台主机上装好 Nginx,然后修改 Nginx 的配置文件 nginx.conf,添加如下内容:

 

这样我们通过 upstream 字段定义了一个名字叫做 splash 的服务集群配置,least_conn 代表最少链接负载均衡,它适合处理请求处理时间长短不一造成服务器过载的情况。

或者我们也可以不指定配置,配置如下:

 

这样默认以轮询策略实现负载均衡,每个服务器的压力相同,此策略适合服务器配置相当,无状态且短平快的服务使用。

另外我们还可以指定权重,配置如下:

 

我们通过 weight 指定了各个服务的权重,权重越高分配到处理的请求越多,假如不同的服务器配置差别比较大的话,就可以使用此种配置。

最后还有一种 IP 哈希负载均衡,配置如下:

 

服务器根据请求客户端的 IP 地址进行哈希计算,确保使用同一个服务器响应请求,这种策略适合有状态的服务,如用户登录后访问某个页面的情形。不过对于 Splash 来说不需要。

我们可以根据不同的情形选用不同的配置,配置完成后重启一下 Nginx 服务:

sudo nginx-sreload

这样直接访问 Nginx 所在服务器的 8050 端口即可实现负载均衡了。

3. 配置认证

现在 Splash 是公开访问的,如果我们不想让其被公开访问还可以配置认证,仍然借助于 Nginx 即可,可以在 server 的 location 字段中添加一个 auth_basic 和 auth_basic_user_file 字段,配置如下:

 

在这里使用的用户名密码配置放置在 /etc/nginx/conf.d 目录,我们需要使用 htpasswd 命令创建,例如创建一个用户名为 admin 的文件,命令如下:

htpasswd-c.htpasswdadmin

接下就会提示我们输入密码,输入两次之后,就会生成密码文件,查看一下内容:

cat.htpasswd

admin:5ZBxQr0rCqwbc

配置完成之后我们重启一下 Nginx 服务,运行如下命令:

sudo nginx-sreload

这样访问认证就成功配置好了。

4. 测试

最后我们可以用代码来测试一下负载均衡的配置,看看到底是不是每次请求会切换IP,利用 http://httpbin.org/get 测试即可,代码实现如下:

 

这里的 URL 中的 splash 请自行替换成自己的 Nginx 服务器 IP,在这里我修改了 Hosts 添加了 splash 别名。

多次运行代码之后可以发现每次请求的 IP 都会变化:

如第一次的结果:

41.159.27.223

第二次的结果:

41.159.27.9

这就说明负载均衡已经成功实现了。

5. 结语

本节我们成功实现了负载均衡的配置,配置了负载均衡之后可以多个 Splash 服务共同合作,减轻单个服务的负载,还是比较有用的。

这篇关于网络爬虫之Splash负载均衡配置的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/548437

相关文章

Zookeeper安装和配置说明

一、Zookeeper的搭建方式 Zookeeper安装方式有三种,单机模式和集群模式以及伪集群模式。 ■ 单机模式:Zookeeper只运行在一台服务器上,适合测试环境; ■ 伪集群模式:就是在一台物理机上运行多个Zookeeper 实例; ■ 集群模式:Zookeeper运行于一个集群上,适合生产环境,这个计算机集群被称为一个“集合体”(ensemble) Zookeeper通过复制来实现

CentOS7安装配置mysql5.7 tar免安装版

一、CentOS7.4系统自带mariadb # 查看系统自带的Mariadb[root@localhost~]# rpm -qa|grep mariadbmariadb-libs-5.5.44-2.el7.centos.x86_64# 卸载系统自带的Mariadb[root@localhost ~]# rpm -e --nodeps mariadb-libs-5.5.44-2.el7

Hadoop集群数据均衡之磁盘间数据均衡

生产环境,由于硬盘空间不足,往往需要增加一块硬盘。刚加载的硬盘没有数据时,可以执行磁盘数据均衡命令。(Hadoop3.x新特性) plan后面带的节点的名字必须是已经存在的,并且是需要均衡的节点。 如果节点不存在,会报如下错误: 如果节点只有一个硬盘的话,不会创建均衡计划: (1)生成均衡计划 hdfs diskbalancer -plan hadoop102 (2)执行均衡计划 hd

hadoop开启回收站配置

开启回收站功能,可以将删除的文件在不超时的情况下,恢复原数据,起到防止误删除、备份等作用。 开启回收站功能参数说明 (1)默认值fs.trash.interval = 0,0表示禁用回收站;其他值表示设置文件的存活时间。 (2)默认值fs.trash.checkpoint.interval = 0,检查回收站的间隔时间。如果该值为0,则该值设置和fs.trash.interval的参数值相等。

NameNode内存生产配置

Hadoop2.x 系列,配置 NameNode 内存 NameNode 内存默认 2000m ,如果服务器内存 4G , NameNode 内存可以配置 3g 。在 hadoop-env.sh 文件中配置如下。 HADOOP_NAMENODE_OPTS=-Xmx3072m Hadoop3.x 系列,配置 Nam

wolfSSL参数设置或配置项解释

1. wolfCrypt Only 解释:wolfCrypt是一个开源的、轻量级的、可移植的加密库,支持多种加密算法和协议。选择“wolfCrypt Only”意味着系统或应用将仅使用wolfCrypt库进行加密操作,而不依赖其他加密库。 2. DTLS Support 解释:DTLS(Datagram Transport Layer Security)是一种基于UDP的安全协议,提供类似于

Linux 网络编程 --- 应用层

一、自定义协议和序列化反序列化 代码: 序列化反序列化实现网络版本计算器 二、HTTP协议 1、谈两个简单的预备知识 https://www.baidu.com/ --- 域名 --- 域名解析 --- IP地址 http的端口号为80端口,https的端口号为443 url为统一资源定位符。CSDNhttps://mp.csdn.net/mp_blog/creation/editor

【Python编程】Linux创建虚拟环境并配置与notebook相连接

1.创建 使用 venv 创建虚拟环境。例如,在当前目录下创建一个名为 myenv 的虚拟环境: python3 -m venv myenv 2.激活 激活虚拟环境使其成为当前终端会话的活动环境。运行: source myenv/bin/activate 3.与notebook连接 在虚拟环境中,使用 pip 安装 Jupyter 和 ipykernel: pip instal

ASIO网络调试助手之一:简介

多年前,写过几篇《Boost.Asio C++网络编程》的学习文章,一直没机会实践。最近项目中用到了Asio,于是抽空写了个网络调试助手。 开发环境: Win10 Qt5.12.6 + Asio(standalone) + spdlog 支持协议: UDP + TCP Client + TCP Server 独立的Asio(http://www.think-async.com)只包含了头文件,不依

poj 3181 网络流,建图。

题意: 农夫约翰为他的牛准备了F种食物和D种饮料。 每头牛都有各自喜欢的食物和饮料,而每种食物和饮料都只能分配给一头牛。 问最多能有多少头牛可以同时得到喜欢的食物和饮料。 解析: 由于要同时得到喜欢的食物和饮料,所以网络流建图的时候要把牛拆点了。 如下建图: s -> 食物 -> 牛1 -> 牛2 -> 饮料 -> t 所以分配一下点: s  =  0, 牛1= 1~