Day:006(3 ) | Python爬虫:高效数据抓取的编程技术(爬虫工具)

2024-04-12 10:28

本文主要是介绍Day:006(3 ) | Python爬虫:高效数据抓取的编程技术(爬虫工具),希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

 

 selenium调用js方法

        有时候我们需要控制页面滚动条上的滚动条,但滚动条并非页面上的元素,这个时候就需要借助js是来进行操作。

一般用到操作滚动条的会两个场景:

  1. 要操作的页面元素不在当前页面范围,无法进行操作,需要拖动滚动条
  2. 注册时的法律条文需要阅读,判断用户是否阅读的标准是:滚动条是否拉到最下方
调用js的方法 :
execute_script(script, *args)
滚动条回到顶部: 
js="document.getElementById('id').scrollTop=0"
driver.execute_script(js)
滚动条拉到底部:
js="document.documentElement.scrollTop=10000"
driver.execute_script(js)

        可以修改scrollTop 的值,来定位右侧滚动条的位置,0是最上面,10000是最底部

        以上方法在Firefox和IE浏览器上上是可以的,但是用Chrome浏览器,发现不管用。Chrome浏览器解决办法: 

js = "document.body.scrollTop=0"
driver.execute_script(js)
横向滚动条:
js = "window.scrollTo(100,400)"
driver.execute_script(js)

代码

from selenium.webdriver.chrome.service
import Service
from selenium import webdriver
from time import sleep
from lxml import etreedef test_scroll():# 创建驱动s = Service('./chromedriver.exe')# 创建浏览器driver = webdriver.Chrome(service=s)# 访问页面
driver.get("https://search.jd.com/Search?
keyword=%E6%89%8B%E6%9C%BA&enc=utf8&suggest=1.def.0.SAK7|MIXTAG_SAK7R,SAK7_M_A
M_L5385,SAK7_M_COL_R,SAK7_S_AM_R,SAK7_SC_PD_
R,SAK7_SM_PB_R,SAK7_SS_PM_R,tsabtest_base64_
U2VhcmNobGlzdF80MzkyfGJhc2U_tsabtest|&wq=sho
uji&pvid=24340a2def0e4e0cb510af07aa32c89d")# 拉动滚动条到底部js='document.documentElement.scrollTop=100000'driver.execute_script(js)sleep(1)# 创建一个etree对象,用于解析数据e = etree.HTML(driver.page_source)# 获取数据价格prices = e.xpath('//ul[@class="gl-warpclearfix"]/li/div/div/strong/i/text()')print(prices)print(len(prices))# 关闭浏览器sleep(3)driver.quit()if __name__ =='__main__':test_scroll()

selenium 等待元素

  • 网速慢
  • AJAX请求数据
  • 调试
强制等待 

使用 time.sleep

作用:当代码运行到强制等待这一行的时候,无论出于什么原因,都强制等待指定的时间,需要通过time模块实现

优点:简单

缺点:无法做有效的判断,会浪费时间 

隐式等待

chrome.implicitly_wait(time_num)



到了一定的时间发现元素还没有加载,则继续等待我们指定的时间,如果超过了我们指定的时间还没有加载就会抛出异常,如果没有需要等待的时候就已经加载完毕就会立即执行

优点: 设置一次即可

缺点:必须等待加载完成才能到后续的操作,或者等待超时才能进入后续的操作 

from selenium import webdriver
url = 'https://www.baidu.com/'
driver = webdriver.Chrome()
driver.get(url)
driver.implicitly_wait(10)
print(driver.find_element_by_class_name('next'))
print(driver.page_source)
显示等待

from selenium.webdriver.support.wait import WebDriverWait



指定一个等待条件,并且指定一个最长等待时间,会在这个时间内进行判断是否满足等待条件,如果成立就会立即返回,如果不成立,就会一直等待,直到等待你指定的最长等待时间,如果还是不满足,就会抛出异常,如果满足了就会正常返回

优点:专门用于对指定一个元素等待,加载完即可运行后续代码

缺点:多个元素都需要要单独设置等待 

url = 'https://www.guazi.com/nj/buy/'
driver = webdriver.Chrome()
driver.get(url)
wait = WebDriverWait(driver,10,0.5)
wait.until(EC.presence_of_element_located((By
.CLASS_NAME, 'next')))
print(driver.page_source)

selenium 参数使用

chrome59版本以后可以变成无头的浏览器,加以下参数

def test_headless():# 设置参数,将浏览器隐藏起来(无头浏览器)options = ChromeOptions()options.add_argument('--headless')# 设置驱动
service = Service('./chromedriver')# 启动Chrome浏览器driver =Chrome(service=service,options=options)# 访问页面driver.get('https://www.baidu.com')# 打印代码print(driver.page_source)# 关闭浏览器driver.quit()
 代理模式
def test_proxy1():# 设置参数,给浏览器设置代理options = ChromeOptions()# options.add_argument('--proxyserver=http://ip:port')options.add_argument('--proxyserver=http://221.199.36.122:35414')# 设置驱动service = Service('./chromedriver')# 启动Chrome浏览器driver =Chrome(service=service,options=options)# 访问页面 "134.195.101.16",driver.get('http://httpbin.org/get')# 打印代码print(driver.page_source)# 关闭浏览器driver.quit()def test_proxy2():from selenium.webdriver.common.proxy
import ProxyType,Proxy# 设置参数,给浏览器设置代理ip = 'http://113.76.133.238:35680'proxy = Proxy()proxy.proxy_type = ProxyType.MANUALproxy.http_proxy = ipproxy.ssl_proxy = ip# 关联浏览器capabilities =DesiredCapabilities.CHROMEproxy.add_to_capabilities(capabilities)# 设置驱动service = Service('./chromedriver')# 启动Chrome浏览器driver =Chrome(service=service,desired_capabilities=capabilities)# 访问页面 "134.195.101.16",driver.get('http://httpbin.org/get')# 打印代码print(driver.page_source)# 关闭浏览器driver.quit()
 防检测设置

 

from selenium.webdriver import Chrome
from selenium.webdriver import ChromeOptionsoptions = ChromeOptions()
options.add_experimental_option('excludeSwitches', ['enable-automation'])
options.add_experimental_option('useAutomati
onExtension', False)chrome = Chrome(chrome_options=options)chrome.execute_cdp_cmd("Page.addScriptToEval
uateOnNewDocument", {"source": """Object.defineProperty(navigator,
'webdriver', {get: () => false})"""
})chrome.get('http://httpbin.org/get')
info = chrome.page_sourceprint(info)
sleep(20)

使用 window.navigator.webdriver 检测 

Selenium实战案例 

from selenium.webdriver.chrome.service
import Service
from selenium.webdriver import Chrome
from selenium.webdriver.common.by import Byfrom lxml import etreedef spider_huya():# 创建一个驱动service = Service('./chromedriver.exe')# 创建一个浏览器driver = Chrome(service=service)# 设置隐式等待driver.implicitly_wait(5)# 访问网址driver.get('https://www.huya.com/g/lol')count = 1while True:# print('获取了第%d页' % count)# count += 1# 提取数据e = etree.HTML(driver.page_source)names =e.xpath('//i[@class="nick"]/@title')person_nums =e.xpath('//i[@class="js-num"]/text()')# 打印数据# for n,p in zip(names,person_nums):#     print(f'主播名:{n} 人气:{p}')# 找到下一页的按钮# try:#     next_btn =driver.find_element(By.XPATH,'//a[@class="laypage_next"]')#     next_btn.click()# except Exception as e:#     breakif
driver.page_source.find('laypage_next') ==-1:breaknext_btn =driver.find_element(By.XPATH,'//a[@class="laypage_next"]')next_btn.click()# 关闭浏览器driver.quit()if __name__ == '__main__':spider_huya()

这篇关于Day:006(3 ) | Python爬虫:高效数据抓取的编程技术(爬虫工具)的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!


原文地址:
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.chinasem.cn/article/896868

相关文章

Spring Boot + MyBatis Plus 高效开发实战从入门到进阶优化(推荐)

《SpringBoot+MyBatisPlus高效开发实战从入门到进阶优化(推荐)》本文将详细介绍SpringBoot+MyBatisPlus的完整开发流程,并深入剖析分页查询、批量操作、动... 目录Spring Boot + MyBATis Plus 高效开发实战:从入门到进阶优化1. MyBatis

Python基于wxPython和FFmpeg开发一个视频标签工具

《Python基于wxPython和FFmpeg开发一个视频标签工具》在当今数字媒体时代,视频内容的管理和标记变得越来越重要,无论是研究人员需要对实验视频进行时间点标记,还是个人用户希望对家庭视频进行... 目录引言1. 应用概述2. 技术栈分析2.1 核心库和模块2.2 wxpython作为GUI选择的优

Java利用JSONPath操作JSON数据的技术指南

《Java利用JSONPath操作JSON数据的技术指南》JSONPath是一种强大的工具,用于查询和操作JSON数据,类似于SQL的语法,它为处理复杂的JSON数据结构提供了简单且高效... 目录1、简述2、什么是 jsONPath?3、Java 示例3.1 基本查询3.2 过滤查询3.3 递归搜索3.4

Python如何使用__slots__实现节省内存和性能优化

《Python如何使用__slots__实现节省内存和性能优化》你有想过,一个小小的__slots__能让你的Python类内存消耗直接减半吗,没错,今天咱们要聊的就是这个让人眼前一亮的技巧,感兴趣的... 目录背景:内存吃得满满的类__slots__:你的内存管理小助手举个大概的例子:看看效果如何?1.

Python+PyQt5实现多屏幕协同播放功能

《Python+PyQt5实现多屏幕协同播放功能》在现代会议展示、数字广告、展览展示等场景中,多屏幕协同播放已成为刚需,下面我们就来看看如何利用Python和PyQt5开发一套功能强大的跨屏播控系统吧... 目录一、项目概述:突破传统播放限制二、核心技术解析2.1 多屏管理机制2.2 播放引擎设计2.3 专

Python中随机休眠技术原理与应用详解

《Python中随机休眠技术原理与应用详解》在编程中,让程序暂停执行特定时间是常见需求,当需要引入不确定性时,随机休眠就成为关键技巧,下面我们就来看看Python中随机休眠技术的具体实现与应用吧... 目录引言一、实现原理与基础方法1.1 核心函数解析1.2 基础实现模板1.3 整数版实现二、典型应用场景2

Python实现无痛修改第三方库源码的方法详解

《Python实现无痛修改第三方库源码的方法详解》很多时候,我们下载的第三方库是不会有需求不满足的情况,但也有极少的情况,第三方库没有兼顾到需求,本文将介绍几个修改源码的操作,大家可以根据需求进行选择... 目录需求不符合模拟示例 1. 修改源文件2. 继承修改3. 猴子补丁4. 追踪局部变量需求不符合很

MySQL大表数据的分区与分库分表的实现

《MySQL大表数据的分区与分库分表的实现》数据库的分区和分库分表是两种常用的技术方案,本文主要介绍了MySQL大表数据的分区与分库分表的实现,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有... 目录1. mysql大表数据的分区1.1 什么是分区?1.2 分区的类型1.3 分区的优点1.4 分

Mysql删除几亿条数据表中的部分数据的方法实现

《Mysql删除几亿条数据表中的部分数据的方法实现》在MySQL中删除一个大表中的数据时,需要特别注意操作的性能和对系统的影响,本文主要介绍了Mysql删除几亿条数据表中的部分数据的方法实现,具有一定... 目录1、需求2、方案1. 使用 DELETE 语句分批删除2. 使用 INPLACE ALTER T

python+opencv处理颜色之将目标颜色转换实例代码

《python+opencv处理颜色之将目标颜色转换实例代码》OpenCV是一个的跨平台计算机视觉库,可以运行在Linux、Windows和MacOS操作系统上,:本文主要介绍python+ope... 目录下面是代码+ 效果 + 解释转HSV: 关于颜色总是要转HSV的掩膜再标注总结 目标:将红色的部分滤