Java实现一个ip池,让你的蜘蛛畅行无阻

2024-03-18 12:50

本文主要是介绍Java实现一个ip池,让你的蜘蛛畅行无阻,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

  玩爬虫的时候,如果访问的太频繁的话,很容易被封ip,一物降一物,有反爬,当然就有反反爬╰( ̄▽ ̄)╭

为了防止ip被封,就可以使用ip代理,让代理服务器帮你完成这个请求,再将请求结果返回给你,是不是很像平时我们用的梯子 ( ‵▽′)ψ ;

使用代理之后,你的每个请求都是由很多个代理服务器帮你完成.国内用的比较多的就是西刺代理,还有其他代理也不错;

下面用java实现一个ip代理池:

这里我使用的是selenium,来爬取的西刺代理,具体可以参考我上一篇文章https://blog.csdn.net/qq_27948811/article/details/96746566,如果觉得麻烦也可以自己正则去匹配西刺代理的ip和端口信息

import com.alibaba.fastjson.JSON;
import com.linchtech.linchspider.entity.po.ProxyIp;
import com.linchtech.linchspider.xigua.WebDriverPool;
import lombok.extern.slf4j.Slf4j;
import org.apache.http.HttpEntity;
import org.apache.http.HttpHost;
import org.apache.http.client.config.RequestConfig;
import org.apache.http.client.methods.CloseableHttpResponse;
import org.apache.http.client.methods.HttpGet;
import org.apache.http.impl.client.CloseableHttpClient;
import org.apache.http.impl.client.HttpClients;
import org.openqa.selenium.By;
import org.openqa.selenium.WebElement;
import org.openqa.selenium.chrome.ChromeDriver;
import org.springframework.beans.factory.annotation.Autowired;
import org.springframework.data.redis.core.RedisTemplate;
import org.springframework.scheduling.annotation.Scheduled;
import org.springframework.stereotype.Component;import java.util.List;
import java.util.concurrent.ConcurrentLinkedQueue;/*** @author: 107* @date: 2019-09-07 18:50* @description:**/
@Component
@Slf4j
public class ProxyIpPool {public static ConcurrentLinkedQueue<ProxyIp> proxyIps = new ConcurrentLinkedQueue<>();@Scheduled(cron = "0 0/10 * * * ?")public void getProxy() {// 这里用了自己实现的一个selenium驱动池,也可以自己new一个,及时关闭就行WebDriverPool webDriverPool = new WebDriverPool(1);ChromeDriver chromeDriver = null;try {chromeDriver = webDriverPool.get();} catch (InterruptedException e) {e.printStackTrace();}chromeDriver.get("https://www.xicidaili.com/");List<WebElement> elements = chromeDriver.findElements(By.xpath("//table[@id='ip_list']/tbody/tr"));for (int i = 2; i < elements.size(); i++) {WebElement element = elements.get(i);try {WebElement ipElement = element.findElement(By.xpath(".//td[2]"));String ip = ipElement.getText();WebElement portElement = element.findElement(By.xpath(".//td[3]"));String portStr = portElement.getText();WebElement annoy = element.findElement(By.xpath(".//td[4]"));WebElement type = element.findElement(By.xpath(".//td[6]"));int port = Integer.parseInt(portStr);ProxyIp proxyIp = new ProxyIp();proxyIp.setIp(ip);proxyIp.setPort(port);proxyIp.setType(type.getText());proxyIp.setLocation(annoy.getText());if (test(ip, port)) {// 保存到队列if (!proxyIps.contains(proxyIp)) {proxyIps.add(proxyIp);}} else {proxyIps.remove(proxyIp);}} catch (Exception e) {continue;}}webDriverPool.returnToPool(chromeDriver);webDriverPool.closeAll();}/*** 从队列中获取一个可用的ip* @return*/public ProxyIp getOneIp() {if (!proxyIps.isEmpty()) {return proxyIps.poll();}return null;}/*** 将ip返回到池中* @param proxyIp*/public void returnToPool(ProxyIp proxyIp) {proxyIps.add(proxyIp);}/*** 测试代理ip是否可用** @return*/private boolean test(String ip, Integer port) {try {//创建httpClient实例CloseableHttpClient httpClient = HttpClients.createDefault();//创建httpGet实例HttpGet httpGet = new HttpGet("http://www.baidu.com");//设置代理IP,设置连接超时时间 、 设置 请求读取数据的超时时间 、 设置从connect Manager获取Connection超时时间、HttpHost proxy = new HttpHost(ip, port);RequestConfig requestConfig = RequestConfig.custom().setProxy(proxy).setConnectTimeout(2000).setSocketTimeout(2000).setConnectionRequestTimeout(2000).build();httpGet.setConfig(requestConfig);//设置请求头消息httpGet.setHeader("User-Agent", "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like " +"Gecko) Chrome/62.0.3202.94 Safari/537.36");CloseableHttpResponse response = httpClient.execute(httpGet);if (response == null) {log.warn("ip:{}不可用", ip);return false;} else {HttpEntity entity = response.getEntity();if (entity != null) {return true;}}} catch (Exception e) {log.info(e.getMessage());}log.warn("ip:{}不可用", ip);return false;}
}
public class ProxyIp {private Long id;private String ip;private Integer port;/*** 1http; 2 https*/private String type;private String location;}

这里使用ConcurrentLinkedQueue来保存可以使用的ip,使用完了再重新添加进队列,因为ConcurrentLinkedQueue是线程安全的,poll操作的时候不会出现两个任务同时使用一个ip;

从西刺代理获取到的ip和端口信息,有些不可用,所以需要测试是否能用,test()方法就是使用代理的ip和端口去访问百度,能访问通就表示可以使用,也可以记录下访问时长,将这些代理ip的访问速度排个序;

使用的时候,只需要调用

访问任务完成之后调用returnToPool(ProxyIp proxyIp)即可

这篇关于Java实现一个ip池,让你的蜘蛛畅行无阻的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/822387

相关文章

Spring Security常见问题及解决方案

《SpringSecurity常见问题及解决方案》SpringSecurity是Spring生态的安全框架,提供认证、授权及攻击防护,支持JWT、OAuth2集成,适用于保护Spring应用,需配置... 目录Spring Security 简介Spring Security 核心概念1. ​Securit

Python实现终端清屏的几种方式详解

《Python实现终端清屏的几种方式详解》在使用Python进行终端交互式编程时,我们经常需要清空当前终端屏幕的内容,本文为大家整理了几种常见的实现方法,有需要的小伙伴可以参考下... 目录方法一:使用 `os` 模块调用系统命令方法二:使用 `subprocess` 模块执行命令方法三:打印多个换行符模拟

SpringBoot+EasyPOI轻松实现Excel和Word导出PDF

《SpringBoot+EasyPOI轻松实现Excel和Word导出PDF》在企业级开发中,将Excel和Word文档导出为PDF是常见需求,本文将结合​​EasyPOI和​​Aspose系列工具实... 目录一、环境准备与依赖配置1.1 方案选型1.2 依赖配置(商业库方案)二、Excel 导出 PDF

Python实现MQTT通信的示例代码

《Python实现MQTT通信的示例代码》本文主要介绍了Python实现MQTT通信的示例代码,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一... 目录1. 安装paho-mqtt库‌2. 搭建MQTT代理服务器(Broker)‌‌3. pytho

SpringBoot改造MCP服务器的详细说明(StreamableHTTP 类型)

《SpringBoot改造MCP服务器的详细说明(StreamableHTTP类型)》本文介绍了SpringBoot如何实现MCPStreamableHTTP服务器,并且使用CherryStudio... 目录SpringBoot改造MCP服务器(StreamableHTTP)1 项目说明2 使用说明2.1

spring中的@MapperScan注解属性解析

《spring中的@MapperScan注解属性解析》@MapperScan是Spring集成MyBatis时自动扫描Mapper接口的注解,简化配置并支持多数据源,通过属性控制扫描路径和过滤条件,利... 目录一、核心功能与作用二、注解属性解析三、底层实现原理四、使用场景与最佳实践五、注意事项与常见问题六

Spring的RedisTemplate的json反序列泛型丢失问题解决

《Spring的RedisTemplate的json反序列泛型丢失问题解决》本文主要介绍了SpringRedisTemplate中使用JSON序列化时泛型信息丢失的问题及其提出三种解决方案,可以根据性... 目录背景解决方案方案一方案二方案三总结背景在使用RedisTemplate操作redis时我们针对

Java中Arrays类和Collections类常用方法示例详解

《Java中Arrays类和Collections类常用方法示例详解》本文总结了Java中Arrays和Collections类的常用方法,涵盖数组填充、排序、搜索、复制、列表转换等操作,帮助开发者高... 目录Arrays.fill()相关用法Arrays.toString()Arrays.sort()A

Spring Boot Maven 插件如何构建可执行 JAR 的核心配置

《SpringBootMaven插件如何构建可执行JAR的核心配置》SpringBoot核心Maven插件,用于生成可执行JAR/WAR,内置服务器简化部署,支持热部署、多环境配置及依赖管理... 目录前言一、插件的核心功能与目标1.1 插件的定位1.2 插件的 Goals(目标)1.3 插件定位1.4 核

如何使用Lombok进行spring 注入

《如何使用Lombok进行spring注入》本文介绍如何用Lombok简化Spring注入,推荐优先使用setter注入,通过注解自动生成getter/setter及构造器,减少冗余代码,提升开发效... Lombok为了开发环境简化代码,好处不用多说。spring 注入方式为2种,构造器注入和setter