Day:006(3 ) | Python爬虫:高效数据抓取的编程技术(爬虫工具)

2024-04-12 10:28

本文主要是介绍Day:006(3 ) | Python爬虫:高效数据抓取的编程技术(爬虫工具),希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

 

 selenium调用js方法

        有时候我们需要控制页面滚动条上的滚动条,但滚动条并非页面上的元素,这个时候就需要借助js是来进行操作。

一般用到操作滚动条的会两个场景:

  1. 要操作的页面元素不在当前页面范围,无法进行操作,需要拖动滚动条
  2. 注册时的法律条文需要阅读,判断用户是否阅读的标准是:滚动条是否拉到最下方
调用js的方法 :
execute_script(script, *args)
滚动条回到顶部: 
js="document.getElementById('id').scrollTop=0"
driver.execute_script(js)
滚动条拉到底部:
js="document.documentElement.scrollTop=10000"
driver.execute_script(js)

        可以修改scrollTop 的值,来定位右侧滚动条的位置,0是最上面,10000是最底部

        以上方法在Firefox和IE浏览器上上是可以的,但是用Chrome浏览器,发现不管用。Chrome浏览器解决办法: 

js = "document.body.scrollTop=0"
driver.execute_script(js)
横向滚动条:
js = "window.scrollTo(100,400)"
driver.execute_script(js)

代码

from selenium.webdriver.chrome.service
import Service
from selenium import webdriver
from time import sleep
from lxml import etreedef test_scroll():# 创建驱动s = Service('./chromedriver.exe')# 创建浏览器driver = webdriver.Chrome(service=s)# 访问页面
driver.get("https://search.jd.com/Search?
keyword=%E6%89%8B%E6%9C%BA&enc=utf8&suggest=1.def.0.SAK7|MIXTAG_SAK7R,SAK7_M_A
M_L5385,SAK7_M_COL_R,SAK7_S_AM_R,SAK7_SC_PD_
R,SAK7_SM_PB_R,SAK7_SS_PM_R,tsabtest_base64_
U2VhcmNobGlzdF80MzkyfGJhc2U_tsabtest|&wq=sho
uji&pvid=24340a2def0e4e0cb510af07aa32c89d")# 拉动滚动条到底部js='document.documentElement.scrollTop=100000'driver.execute_script(js)sleep(1)# 创建一个etree对象,用于解析数据e = etree.HTML(driver.page_source)# 获取数据价格prices = e.xpath('//ul[@class="gl-warpclearfix"]/li/div/div/strong/i/text()')print(prices)print(len(prices))# 关闭浏览器sleep(3)driver.quit()if __name__ =='__main__':test_scroll()

selenium 等待元素

  • 网速慢
  • AJAX请求数据
  • 调试
强制等待 

使用 time.sleep

作用:当代码运行到强制等待这一行的时候,无论出于什么原因,都强制等待指定的时间,需要通过time模块实现

优点:简单

缺点:无法做有效的判断,会浪费时间 

隐式等待

chrome.implicitly_wait(time_num)



到了一定的时间发现元素还没有加载,则继续等待我们指定的时间,如果超过了我们指定的时间还没有加载就会抛出异常,如果没有需要等待的时候就已经加载完毕就会立即执行

优点: 设置一次即可

缺点:必须等待加载完成才能到后续的操作,或者等待超时才能进入后续的操作 

from selenium import webdriver
url = 'https://www.baidu.com/'
driver = webdriver.Chrome()
driver.get(url)
driver.implicitly_wait(10)
print(driver.find_element_by_class_name('next'))
print(driver.page_source)
显示等待

from selenium.webdriver.support.wait import WebDriverWait



指定一个等待条件,并且指定一个最长等待时间,会在这个时间内进行判断是否满足等待条件,如果成立就会立即返回,如果不成立,就会一直等待,直到等待你指定的最长等待时间,如果还是不满足,就会抛出异常,如果满足了就会正常返回

优点:专门用于对指定一个元素等待,加载完即可运行后续代码

缺点:多个元素都需要要单独设置等待 

url = 'https://www.guazi.com/nj/buy/'
driver = webdriver.Chrome()
driver.get(url)
wait = WebDriverWait(driver,10,0.5)
wait.until(EC.presence_of_element_located((By
.CLASS_NAME, 'next')))
print(driver.page_source)

selenium 参数使用

chrome59版本以后可以变成无头的浏览器,加以下参数

def test_headless():# 设置参数,将浏览器隐藏起来(无头浏览器)options = ChromeOptions()options.add_argument('--headless')# 设置驱动
service = Service('./chromedriver')# 启动Chrome浏览器driver =Chrome(service=service,options=options)# 访问页面driver.get('https://www.baidu.com')# 打印代码print(driver.page_source)# 关闭浏览器driver.quit()
 代理模式
def test_proxy1():# 设置参数,给浏览器设置代理options = ChromeOptions()# options.add_argument('--proxyserver=http://ip:port')options.add_argument('--proxyserver=http://221.199.36.122:35414')# 设置驱动service = Service('./chromedriver')# 启动Chrome浏览器driver =Chrome(service=service,options=options)# 访问页面 "134.195.101.16",driver.get('http://httpbin.org/get')# 打印代码print(driver.page_source)# 关闭浏览器driver.quit()def test_proxy2():from selenium.webdriver.common.proxy
import ProxyType,Proxy# 设置参数,给浏览器设置代理ip = 'http://113.76.133.238:35680'proxy = Proxy()proxy.proxy_type = ProxyType.MANUALproxy.http_proxy = ipproxy.ssl_proxy = ip# 关联浏览器capabilities =DesiredCapabilities.CHROMEproxy.add_to_capabilities(capabilities)# 设置驱动service = Service('./chromedriver')# 启动Chrome浏览器driver =Chrome(service=service,desired_capabilities=capabilities)# 访问页面 "134.195.101.16",driver.get('http://httpbin.org/get')# 打印代码print(driver.page_source)# 关闭浏览器driver.quit()
 防检测设置

 

from selenium.webdriver import Chrome
from selenium.webdriver import ChromeOptionsoptions = ChromeOptions()
options.add_experimental_option('excludeSwitches', ['enable-automation'])
options.add_experimental_option('useAutomati
onExtension', False)chrome = Chrome(chrome_options=options)chrome.execute_cdp_cmd("Page.addScriptToEval
uateOnNewDocument", {"source": """Object.defineProperty(navigator,
'webdriver', {get: () => false})"""
})chrome.get('http://httpbin.org/get')
info = chrome.page_sourceprint(info)
sleep(20)

使用 window.navigator.webdriver 检测 

Selenium实战案例 

from selenium.webdriver.chrome.service
import Service
from selenium.webdriver import Chrome
from selenium.webdriver.common.by import Byfrom lxml import etreedef spider_huya():# 创建一个驱动service = Service('./chromedriver.exe')# 创建一个浏览器driver = Chrome(service=service)# 设置隐式等待driver.implicitly_wait(5)# 访问网址driver.get('https://www.huya.com/g/lol')count = 1while True:# print('获取了第%d页' % count)# count += 1# 提取数据e = etree.HTML(driver.page_source)names =e.xpath('//i[@class="nick"]/@title')person_nums =e.xpath('//i[@class="js-num"]/text()')# 打印数据# for n,p in zip(names,person_nums):#     print(f'主播名:{n} 人气:{p}')# 找到下一页的按钮# try:#     next_btn =driver.find_element(By.XPATH,'//a[@class="laypage_next"]')#     next_btn.click()# except Exception as e:#     breakif
driver.page_source.find('laypage_next') ==-1:breaknext_btn =driver.find_element(By.XPATH,'//a[@class="laypage_next"]')next_btn.click()# 关闭浏览器driver.quit()if __name__ == '__main__':spider_huya()

这篇关于Day:006(3 ) | Python爬虫:高效数据抓取的编程技术(爬虫工具)的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/896868

相关文章

大模型研发全揭秘:客服工单数据标注的完整攻略

在人工智能(AI)领域,数据标注是模型训练过程中至关重要的一步。无论你是新手还是有经验的从业者,掌握数据标注的技术细节和常见问题的解决方案都能为你的AI项目增添不少价值。在电信运营商的客服系统中,工单数据是客户问题和解决方案的重要记录。通过对这些工单数据进行有效标注,不仅能够帮助提升客服自动化系统的智能化水平,还能优化客户服务流程,提高客户满意度。本文将详细介绍如何在电信运营商客服工单的背景下进行

基于MySQL Binlog的Elasticsearch数据同步实践

一、为什么要做 随着马蜂窝的逐渐发展,我们的业务数据越来越多,单纯使用 MySQL 已经不能满足我们的数据查询需求,例如对于商品、订单等数据的多维度检索。 使用 Elasticsearch 存储业务数据可以很好的解决我们业务中的搜索需求。而数据进行异构存储后,随之而来的就是数据同步的问题。 二、现有方法及问题 对于数据同步,我们目前的解决方案是建立数据中间表。把需要检索的业务数据,统一放到一张M

关于数据埋点,你需要了解这些基本知识

产品汪每天都在和数据打交道,你知道数据来自哪里吗? 移动app端内的用户行为数据大多来自埋点,了解一些埋点知识,能和数据分析师、技术侃大山,参与到前期的数据采集,更重要是让最终的埋点数据能为我所用,否则可怜巴巴等上几个月是常有的事。   埋点类型 根据埋点方式,可以区分为: 手动埋点半自动埋点全自动埋点 秉承“任何事物都有两面性”的道理:自动程度高的,能解决通用统计,便于统一化管理,但个性化定

python: 多模块(.py)中全局变量的导入

文章目录 global关键字可变类型和不可变类型数据的内存地址单模块(单个py文件)的全局变量示例总结 多模块(多个py文件)的全局变量from x import x导入全局变量示例 import x导入全局变量示例 总结 global关键字 global 的作用范围是模块(.py)级别: 当你在一个模块(文件)中使用 global 声明变量时,这个变量只在该模块的全局命名空

使用SecondaryNameNode恢复NameNode的数据

1)需求: NameNode进程挂了并且存储的数据也丢失了,如何恢复NameNode 此种方式恢复的数据可能存在小部分数据的丢失。 2)故障模拟 (1)kill -9 NameNode进程 [lytfly@hadoop102 current]$ kill -9 19886 (2)删除NameNode存储的数据(/opt/module/hadoop-3.1.4/data/tmp/dfs/na

异构存储(冷热数据分离)

异构存储主要解决不同的数据,存储在不同类型的硬盘中,达到最佳性能的问题。 异构存储Shell操作 (1)查看当前有哪些存储策略可以用 [lytfly@hadoop102 hadoop-3.1.4]$ hdfs storagepolicies -listPolicies (2)为指定路径(数据存储目录)设置指定的存储策略 hdfs storagepolicies -setStoragePo

Hadoop集群数据均衡之磁盘间数据均衡

生产环境,由于硬盘空间不足,往往需要增加一块硬盘。刚加载的硬盘没有数据时,可以执行磁盘数据均衡命令。(Hadoop3.x新特性) plan后面带的节点的名字必须是已经存在的,并且是需要均衡的节点。 如果节点不存在,会报如下错误: 如果节点只有一个硬盘的话,不会创建均衡计划: (1)生成均衡计划 hdfs diskbalancer -plan hadoop102 (2)执行均衡计划 hd

高效+灵活,万博智云全球发布AWS无代理跨云容灾方案!

摘要 近日,万博智云推出了基于AWS的无代理跨云容灾解决方案,并与拉丁美洲,中东,亚洲的合作伙伴面向全球开展了联合发布。这一方案以AWS应用环境为基础,将HyperBDR平台的高效、灵活和成本效益优势与无代理功能相结合,为全球企业带来实现了更便捷、经济的数据保护。 一、全球联合发布 9月2日,万博智云CEO Michael Wong在线上平台发布AWS无代理跨云容灾解决方案的阐述视频,介绍了

嵌入式QT开发:构建高效智能的嵌入式系统

摘要: 本文深入探讨了嵌入式 QT 相关的各个方面。从 QT 框架的基础架构和核心概念出发,详细阐述了其在嵌入式环境中的优势与特点。文中分析了嵌入式 QT 的开发环境搭建过程,包括交叉编译工具链的配置等关键步骤。进一步探讨了嵌入式 QT 的界面设计与开发,涵盖了从基本控件的使用到复杂界面布局的构建。同时也深入研究了信号与槽机制在嵌入式系统中的应用,以及嵌入式 QT 与硬件设备的交互,包括输入输出设

【Prometheus】PromQL向量匹配实现不同标签的向量数据进行运算

✨✨ 欢迎大家来到景天科技苑✨✨ 🎈🎈 养成好习惯,先赞后看哦~🎈🎈 🏆 作者简介:景天科技苑 🏆《头衔》:大厂架构师,华为云开发者社区专家博主,阿里云开发者社区专家博主,CSDN全栈领域优质创作者,掘金优秀博主,51CTO博客专家等。 🏆《博客》:Python全栈,前后端开发,小程序开发,人工智能,js逆向,App逆向,网络系统安全,数据分析,Django,fastapi