selenium消除启动特征避免被反爬-使用已经打开的浏览器

2024-08-28 13:52

本文主要是介绍selenium消除启动特征避免被反爬-使用已经打开的浏览器,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

selenium消除启动特征避免被反爬

启动特征很多,如何消除selenium启动特征呢?这个也是因站而异,如果规避常规的检测,做到以下2点就可以。
在这里插入图片描述

1 是消除window.navigator.webdriver的值;

2 是修改chromedriver.exe的源码,改掉$cdc_xxx的值(用同等数量字符替换即可)。

以往在防止window.navigator.webdriver被识别时的方法是

  from selenium.webdriver import Chromefrom selenium.webdriver import ChromeOptionsoption = ChromeOptions()option.add_experimental_option('excludeSwitches', ['enable-automation'])driver = Chrome(options=option)

但在高版本的谷歌浏览器下,通过以上方式已经无效了,最新解决办法详情查看http://www.python66.com/bbs/162.html

另外,还有一种比较强大的配置可以去除webdriver一些特征。

屏蔽webdriver特征

  option.add_argument("--disable-blink-features")option.add_argument("--disable-blink-features=AutomationControlled")

有些站检测的非常全面,上述做法不能规避检测,怎么办呢?

如果要彻底干净一些,可以借助1段js,这段js可以干掉所有的webdriver特征!用 相关的检测工具站也检测不出来。感兴趣可以联系站长。

即使所有特征被干掉了,依然有办法可以检测(了解如何检测可以加站长一起交流),遇到这样的站就可以考虑放弃selenium了。

如果不想放弃,可以在cmd下指定端口手动启动谷歌浏览器,然后在脚本中接管这个浏览器。这样就和正常启动浏览器无任何区别。详情查看selenium接管本地浏览器

此外,上述webdriver特征的去除也可以考虑用中间人代理的方式解决,本人从网络上收集了一篇比较靠谱的文章。(原理不难,就是给浏览器找个代理,代理获取网页后把对方页面的一些检测代码修改后再返回给浏览器,有点类似于fiddler、charles这些抓包工具)。

3 selenium使用已经打开的浏览器

Selenium 本身不支持直接连接到一个已经打开的浏览器页面。Selenium 启动的浏览器实例是一个全新的会话,它与手动打开的浏览器页面是分开的。但是,有一些变通的方法可以实现类似的效果。

一种方法是通过附加代理连接到已经打开的浏览器。下面是如何实现这一目标的步骤。
配置 Selenium WebDriver 以连接到现有的 Chrome 实例

1) 启动 Chrome 浏览器:以调试模式启动 Chrome 浏览器,使其监听指定端口。

注意
启动 Chrome 浏览器时使用调试端口,找到chrome的安装位置,执行命令:
确保 Chrome 的可执行文件路径正确,并指定一个用户数据目录,以便保留浏览器状态。

参数说明:
–remote-debugging-port=9222:指定 Chrome 浏览器的远程调试端口。
–user-data-dir=“C:\path\to\your\chrome\profile”:指定 Chrome 的用户数据目录。

chrome.exe --remote-debugging-port=9222 --user-data-dir="C:\path\to\your\chrome\profile"
# --user-data-dir="C:\path\to\your\chrome\profile" 目录需要提前创建好

2) 编写脚本连接到这个已经运行的 Chrome 实例:

参数说明:
通过调试地址 127.0.0.1:9222 连接到已经运行的 Chrome 实例。

from selenium import webdriver
from selenium.webdriver.chrome.service import Service
from selenium.webdriver.chrome.options import Options
from selenium.webdriver.common.by import By# 配置 ChromeDriver 的选项以连接到已经运行的 Chrome 实例
chrome_options = Options()
chrome_options.add_experimental_option("debuggerAddress", "127.0.0.1:9222")# 获取当前脚本的目录
import os
current_dir = os.path.dirname(os.path.abspath(__file__))
chrome_driver_path = os.path.join(current_dir, 'chromedriver')# 设置 ChromeDriver 的服务
service = Service(chrome_driver_path)# 启动 WebDriver 并连接到现有的 Chrome 实例
driver = webdriver.Chrome(service=service, options=chrome_options)# 现在你可以使用 Selenium 控制已经打开的 Chrome 实例
driver.get("https://www.baidu.com")# 打印网页标题
print(driver.title)# 关闭浏览器
driver.quit()

通过这种方式,你可以让 Selenium 控制一个已经打开的 Chrome 浏览器实例,从而在现有会话中执行自动化任务。

这篇关于selenium消除启动特征避免被反爬-使用已经打开的浏览器的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1114947

相关文章

中文分词jieba库的使用与实景应用(一)

知识星球:https://articles.zsxq.com/id_fxvgc803qmr2.html 目录 一.定义: 精确模式(默认模式): 全模式: 搜索引擎模式: paddle 模式(基于深度学习的分词模式): 二 自定义词典 三.文本解析   调整词出现的频率 四. 关键词提取 A. 基于TF-IDF算法的关键词提取 B. 基于TextRank算法的关键词提取

使用SecondaryNameNode恢复NameNode的数据

1)需求: NameNode进程挂了并且存储的数据也丢失了,如何恢复NameNode 此种方式恢复的数据可能存在小部分数据的丢失。 2)故障模拟 (1)kill -9 NameNode进程 [lytfly@hadoop102 current]$ kill -9 19886 (2)删除NameNode存储的数据(/opt/module/hadoop-3.1.4/data/tmp/dfs/na

Hadoop数据压缩使用介绍

一、压缩原则 (1)运算密集型的Job,少用压缩 (2)IO密集型的Job,多用压缩 二、压缩算法比较 三、压缩位置选择 四、压缩参数配置 1)为了支持多种压缩/解压缩算法,Hadoop引入了编码/解码器 2)要在Hadoop中启用压缩,可以配置如下参数

Makefile简明使用教程

文章目录 规则makefile文件的基本语法:加在命令前的特殊符号:.PHONY伪目标: Makefilev1 直观写法v2 加上中间过程v3 伪目标v4 变量 make 选项-f-n-C Make 是一种流行的构建工具,常用于将源代码转换成可执行文件或者其他形式的输出文件(如库文件、文档等)。Make 可以自动化地执行编译、链接等一系列操作。 规则 makefile文件

使用opencv优化图片(画面变清晰)

文章目录 需求影响照片清晰度的因素 实现降噪测试代码 锐化空间锐化Unsharp Masking频率域锐化对比测试 对比度增强常用算法对比测试 需求 对图像进行优化,使其看起来更清晰,同时保持尺寸不变,通常涉及到图像处理技术如锐化、降噪、对比度增强等 影响照片清晰度的因素 影响照片清晰度的因素有很多,主要可以从以下几个方面来分析 1. 拍摄设备 相机传感器:相机传

MySQL数据库宕机,启动不起来,教你一招搞定!

作者介绍:老苏,10余年DBA工作运维经验,擅长Oracle、MySQL、PG、Mongodb数据库运维(如安装迁移,性能优化、故障应急处理等)公众号:老苏畅谈运维欢迎关注本人公众号,更多精彩与您分享。 MySQL数据库宕机,数据页损坏问题,启动不起来,该如何排查和解决,本文将为你说明具体的排查过程。 查看MySQL error日志 查看 MySQL error日志,排查哪个表(表空间

springboot3打包成war包,用tomcat8启动

1、在pom中,将打包类型改为war <packaging>war</packaging> 2、pom中排除SpringBoot内置的Tomcat容器并添加Tomcat依赖,用于编译和测试,         *依赖时一定设置 scope 为 provided (相当于 tomcat 依赖只在本地运行和测试的时候有效,         打包的时候会排除这个依赖)<scope>provided

内核启动时减少log的方式

内核引导选项 内核引导选项大体上可以分为两类:一类与设备无关、另一类与设备有关。与设备有关的引导选项多如牛毛,需要你自己阅读内核中的相应驱动程序源码以获取其能够接受的引导选项。比如,如果你想知道可以向 AHA1542 SCSI 驱动程序传递哪些引导选项,那么就查看 drivers/scsi/aha1542.c 文件,一般在前面 100 行注释里就可以找到所接受的引导选项说明。大多数选项是通过"_

pdfmake生成pdf的使用

实际项目中有时会有根据填写的表单数据或者其他格式的数据,将数据自动填充到pdf文件中根据固定模板生成pdf文件的需求 文章目录 利用pdfmake生成pdf文件1.下载安装pdfmake第三方包2.封装生成pdf文件的共用配置3.生成pdf文件的文件模板内容4.调用方法生成pdf 利用pdfmake生成pdf文件 1.下载安装pdfmake第三方包 npm i pdfma

零基础学习Redis(10) -- zset类型命令使用

zset是有序集合,内部除了存储元素外,还会存储一个score,存储在zset中的元素会按照score的大小升序排列,不同元素的score可以重复,score相同的元素会按照元素的字典序排列。 1. zset常用命令 1.1 zadd  zadd key [NX | XX] [GT | LT]   [CH] [INCR] score member [score member ...]