网络爬虫之Splash负载均衡配置

2023-12-29 05:18

文章标签 配置负载网络爬虫均衡 splash

本文主要是介绍网络爬虫之Splash负载均衡配置，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

如果我们用 Splash 来做 JavaScript 动态渲染的页面的抓取的话，如果爬取的量非常大，任务非常多，如果我们用一个 Splash 服务来处理的话未免压力太大了，所以我们可以考虑搭建一个负载均衡器来把压力分散到各个服务器上，这样相当于多台机器多个服务共同参与任务的处理，可以减小单个 Splash 服务的压力。

1. 配置Splash服务

要搭建 Splash 负载均衡首先我们需要有多个 Splash 服务，假如在这里我在四台远程主机的 8050 端口上都开启了 Splash 服务，它们的服务地址分别为：41.159.27.223:8050、41.159.27.221:8050、41.159.27.9:8050、41.159.117.119:8050，四个服务完全一致，都是通过 Docker 的 Splash 镜像开启的，访问任何一个服务都可以使用 Splash 服务。

2. 配置负载均衡

接下来我们可以选用任意一台带有公网 IP 的主机来配置负载均衡，首先需要在这台主机上装好 Nginx，然后修改 Nginx 的配置文件 nginx.conf，添加如下内容：

这样我们通过 upstream 字段定义了一个名字叫做 splash 的服务集群配置，least_conn 代表最少链接负载均衡，它适合处理请求处理时间长短不一造成服务器过载的情况。

或者我们也可以不指定配置，配置如下：

这样默认以轮询策略实现负载均衡，每个服务器的压力相同，此策略适合服务器配置相当，无状态且短平快的服务使用。

另外我们还可以指定权重，配置如下：

我们通过 weight 指定了各个服务的权重，权重越高分配到处理的请求越多，假如不同的服务器配置差别比较大的话，就可以使用此种配置。

最后还有一种 IP 哈希负载均衡，配置如下：

服务器根据请求客户端的 IP 地址进行哈希计算，确保使用同一个服务器响应请求，这种策略适合有状态的服务，如用户登录后访问某个页面的情形。不过对于 Splash 来说不需要。

我们可以根据不同的情形选用不同的配置，配置完成后重启一下 Nginx 服务：

sudo nginx-sreload

这样直接访问 Nginx 所在服务器的 8050 端口即可实现负载均衡了。

3. 配置认证

现在 Splash 是公开访问的，如果我们不想让其被公开访问还可以配置认证，仍然借助于 Nginx 即可，可以在 server 的 location 字段中添加一个 auth_basic 和 auth_basic_user_file 字段，配置如下：

在这里使用的用户名密码配置放置在 /etc/nginx/conf.d 目录，我们需要使用 htpasswd 命令创建，例如创建一个用户名为 admin 的文件，命令如下：

htpasswd-c.htpasswdadmin

接下就会提示我们输入密码，输入两次之后，就会生成密码文件，查看一下内容：

cat.htpasswd

admin:5ZBxQr0rCqwbc

配置完成之后我们重启一下 Nginx 服务，运行如下命令：

sudo nginx-sreload

这样访问认证就成功配置好了。

4. 测试

最后我们可以用代码来测试一下负载均衡的配置，看看到底是不是每次请求会切换IP，利用 http://httpbin.org/get 测试即可，代码实现如下：

这里的 URL 中的 splash 请自行替换成自己的 Nginx 服务器 IP，在这里我修改了 Hosts 添加了 splash 别名。

多次运行代码之后可以发现每次请求的 IP 都会变化：

如第一次的结果：

41.159.27.223

第二次的结果：

41.159.27.9

这就说明负载均衡已经成功实现了。

5. 结语

本节我们成功实现了负载均衡的配置，配置了负载均衡之后可以多个 Splash 服务共同合作，减轻单个服务的负载，还是比较有用的。

这篇关于网络爬虫之Splash负载均衡配置的文章就介绍到这儿，希望我们推荐的文章对编程师们有所帮助！

http://www.chinasem.cn/article/548437。 23002807@qq.com

相关文章

SpringBoot基于配置实现短信服务策略的动态切换

SpringBoot基于配置实现短信服务策略的动态切换

《SpringBoot基于配置实现短信服务策略的动态切换》这篇文章主要为大家详细介绍了SpringBoot在接入多个短信服务商（如阿里云、腾讯云、华为云）后,如何根据配置或环境切换使用不同的服务商,需... 目录目标功能示例配置（application.yml）配置类绑定短信发送策略接口示例：阿里云 & 腾

阅读更多...

如何为Yarn配置国内源的详细教程

如何为Yarn配置国内源的详细教程

《如何为Yarn配置国内源的详细教程》在使用Yarn进行项目开发时,由于网络原因,直接使用官方源可能会导致下载速度慢或连接失败,配置国内源可以显著提高包的下载速度和稳定性,本文将详细介绍如何为Yarn... 目录一、查询当前使用的镜像源二、设置国内源1. 设置为淘宝镜像源2. 设置为其他国内源三、还原为官方

阅读更多...

CentOS7更改默认SSH端口与配置指南

CentOS7更改默认SSH端口与配置指南

《CentOS7更改默认SSH端口与配置指南》SSH是Linux服务器远程管理的核心工具,其默认监听端口为22,由于端口22众所周知,这也使得服务器容易受到自动化扫描和暴力破解攻击,本文将系统性地介绍... 目录引言为什么要更改 SSH 默认端口？步骤详解：如何更改 Centos 7 的 SSH 默认端口1

阅读更多...

Maven的使用和配置国内源的保姆级教程

Maven的使用和配置国内源的保姆级教程

《Maven的使用和配置国内源的保姆级教程》Maven是⼀个项目管理工具,基于POM(ProjectObjectModel,项目对象模型)的概念,Maven可以通过一小段描述信息来管理项目的构建,报告... 目录1. 什么是Maven?2.创建⼀个Maven项目3.Maven 核心功能4.使用Maven H

阅读更多...

SpringBoot多数据源配置完整指南

SpringBoot多数据源配置完整指南

《SpringBoot多数据源配置完整指南》在复杂的企业应用中,经常需要连接多个数据库,SpringBoot提供了灵活的多数据源配置方式,以下是详细的实现方案,需要的朋友可以参考下... 目录一、基础多数据源配置1. 添加依赖2. 配置多个数据源3. 配置数据源Bean二、JPA多数据源配置1. 配置主数据

阅读更多...

Spring 基于XML配置 bean管理 Bean-IOC的方法

Spring 基于XML配置 bean管理 Bean-IOC的方法

《Spring基于XML配置bean管理Bean-IOC的方法》：本文主要介绍Spring基于XML配置bean管理Bean-IOC的方法,本文给大家介绍的非常详细,对大家的学习或工作具有一... 目录一. spring学习的核心内容二. 基于 XML 配置 bean1. 通过类型来获取 bean2. 通过

阅读更多...

如何使用Nginx配置将80端口重定向到443端口

如何使用Nginx配置将80端口重定向到443端口

《如何使用Nginx配置将80端口重定向到443端口》这篇文章主要为大家详细介绍了如何将Nginx配置为将HTTP（80端口）请求重定向到HTTPS（443端口）,文中的示例代码讲解详细,有需要的小伙... 目录1. 创建或编辑Nginx配置文件2. 配置HTTP重定向到HTTPS3. 配置HTTPS服务器

阅读更多...

SpringBoot中配置Redis连接池的完整指南

SpringBoot中配置Redis连接池的完整指南

《SpringBoot中配置Redis连接池的完整指南》这篇文章主要为大家详细介绍了SpringBoot中配置Redis连接池的完整指南,文中的示例代码讲解详细,具有一定的借鉴价值,感兴趣的小伙伴可以... 目录一、添加依赖二、配置 Redis 连接池三、测试 Redis 操作四、完整示例代码（一）pom.

阅读更多...

Linux内核参数配置与验证详细指南

Linux内核参数配置与验证详细指南

《Linux内核参数配置与验证详细指南》在Linux系统运维和性能优化中,内核参数（sysctl）的配置至关重要,本文主要来聊聊如何配置与验证这些Linux内核参数,希望对大家有一定的帮助... 目录1. 引言2. 内核参数的作用3. 如何设置内核参数3.1 临时设置（重启失效）3.2 永久设置（重启仍生效

阅读更多...

IDEA自动生成注释模板的配置教程

IDEA自动生成注释模板的配置教程

《IDEA自动生成注释模板的配置教程》本文介绍了如何在IntelliJIDEA中配置类和方法的注释模板,包括自动生成项目名称、包名、日期和时间等内容,以及如何定制参数和返回值的注释格式,需要的朋友可以... 目录项目场景配置方法类注释模板定义类开头的注释步骤类注释效果方法注释模板定义方法开头的注释步骤方法注

阅读更多...