Python网络爬虫实战——实验5:Python爬虫之selenium动态数据采集实战

2024-01-27 11:28

本文主要是介绍Python网络爬虫实战——实验5:Python爬虫之selenium动态数据采集实战,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

【实验内容】

本实验主要介绍和使用selenium库在js动态加载网页中数据采集的作用。

【实验目的】

1、理解动态加载网页的概念
2、学习Selenium库基本使用
3、掌握动态加载数据采集流程

【实验步骤】

步骤1理解动态加载网页
步骤2学习使用Selenium库
步骤3 采集河北政府采购网

步骤1:理解动态加载网页
动态加载网页是指在页面初次加载完成后,通过JavaScript等前端技术,根据用户的交互或其他触发条件,向服务器请求额外的数据并将其加载到已有页面中,而无需刷新整个页面。这种技术使得网页能够更快地响应用户操作,提升用户体验,同时避免了每次交互都重新加载整个页面的开销。以下是一些常见的动态加载网页的情形:
异步加载: 通过AJAX(Asynchronous JavaScript and XML)等技术,网页可以在后台异步加载数据,然后使用JavaScript更新页面的部分内容,而无需重新加载整个页面。
无限滚动: 在一些网页中,当用户滚动页面到底部时,会自动加载更多的内容,实现无限滚动效果。
实时更新: 一些网页需要实时显示最新的信息,例如社交媒体的实时更新流。在这里插入图片描述上图站长之家就是使用js动态渲染网页,在传统的静态网页爬取中,爬虫工具通常只能获取页面初次加载时的静态内容,而无法直接获取动态加载的数据。

步骤2:学习Selenium库基本使用
(1) 介绍
selenium最初是一个自动化测试工具,而爬虫中使用它主要是为了解决requests无法执行javaScript代码的问题。selenium本质上是通过驱动浏览器,完全模拟浏览器的操作,比如跳转、输入、点击、下拉等…进而拿到网页渲染之后的结果,可支持多种浏览器
(2) 安装Selenium库:
/==============/
(3) 下载浏览器驱动
根据使用的浏览器下载对应版本的浏览器驱动,例如Chrome浏览器需要下载ChromeDriver。将驱动文件保存在一个合适的位置。
下载地址:
/===================================/
在这里插入图片描述(4) 初始化Selenium WebDriver
在Python脚本中使用Selenium库,初始化一个WebDriver,指定浏览器类型和驱动路径。
-***************************************************************
(5) 访问目标网址
使用WebDriver访问需要采集数据的目标网页。
-***************************************************************
(6) 模拟用户行为
/======================================================/
(7) 等待数据加载
由于动态加载可能需要一些时间,需要使用等待机制确保数据加载完成。
-****************************************************
(8) 提取数据
一旦数据加载完成,使用Selenium提取目标数据。
-****************************************************
(9) 关闭浏览器在这里插入图片描述
步骤3 采集河北政府采购网
(1) 分析页面
主页面
地址:http://www.ccgp-hebei.gov.cn/province/cggg/zhbgg/index_1.html


进入主页面后,摁F12打开开发者工具,点击Doc输入关键字学,点击检索按钮,可以出现如上图4步骤所示的接口,preview中可以查看到该接口的返回值。

子页面
/=======================================================================================================/在这里插入图片描述
(2) 解析出子页面信息
导入第三方模块:
在这里插入图片描述
/==================================================================================================/


/==================================================================================================/

(3) 获取子页面源代码
导入模块
-***********************************************************************
首先初始化一个Chrome(options=chrome_options) ,创建了一个新的Chrome WebDriver实例,传入配置参数。


/==================================================================================================================================================/
-******************************************************************
/===============================================================================================================================================/
整个操作是在一个try-except-finally块中进行的,如果出现异常(比如加载超时),会打印一条消息,并在 finally 块中关闭 WebDriver,确保资源被正确释放。

(4) 解析子页面数据在这里插入图片描述下面代码是解析子页面主要标信息字段的代码,使用xpath语法对数据进行提取。
/===================================================================================================================================================/
-****************************************************************
提取的数据字段最终保存为如下图所示。
-*************************************************************************
(5) 保存为json文件
-*******************************************************************
使用with语句打开文件 “hebei -zhong.json”,打开模式为追加模式 a,以UTF-8编码。将JSON格式的字符串 message 写入文件,并添加一个逗号和换行符,以便在后续追加新的JSON数据,这有助于生成一个包含多个JSON对象的有效JSON数组。

生成单个字段完整示例如下:
-*************************************************************************************

这篇关于Python网络爬虫实战——实验5:Python爬虫之selenium动态数据采集实战的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/650094

相关文章

网页解析 lxml 库--实战

lxml库使用流程 lxml 是 Python 的第三方解析库,完全使用 Python 语言编写,它对 XPath表达式提供了良好的支 持,因此能够了高效地解析 HTML/XML 文档。本节讲解如何通过 lxml 库解析 HTML 文档。 pip install lxml lxm| 库提供了一个 etree 模块,该模块专门用来解析 HTML/XML 文档,下面来介绍一下 lxml 库

python: 多模块(.py)中全局变量的导入

文章目录 global关键字可变类型和不可变类型数据的内存地址单模块(单个py文件)的全局变量示例总结 多模块(多个py文件)的全局变量from x import x导入全局变量示例 import x导入全局变量示例 总结 global关键字 global 的作用范围是模块(.py)级别: 当你在一个模块(文件)中使用 global 声明变量时,这个变量只在该模块的全局命名空

性能分析之MySQL索引实战案例

文章目录 一、前言二、准备三、MySQL索引优化四、MySQL 索引知识回顾五、总结 一、前言 在上一讲性能工具之 JProfiler 简单登录案例分析实战中已经发现SQL没有建立索引问题,本文将一起从代码层去分析为什么没有建立索引? 开源ERP项目地址:https://gitee.com/jishenghua/JSH_ERP 二、准备 打开IDEA找到登录请求资源路径位置

Linux 网络编程 --- 应用层

一、自定义协议和序列化反序列化 代码: 序列化反序列化实现网络版本计算器 二、HTTP协议 1、谈两个简单的预备知识 https://www.baidu.com/ --- 域名 --- 域名解析 --- IP地址 http的端口号为80端口,https的端口号为443 url为统一资源定位符。CSDNhttps://mp.csdn.net/mp_blog/creation/editor

【Python编程】Linux创建虚拟环境并配置与notebook相连接

1.创建 使用 venv 创建虚拟环境。例如,在当前目录下创建一个名为 myenv 的虚拟环境: python3 -m venv myenv 2.激活 激活虚拟环境使其成为当前终端会话的活动环境。运行: source myenv/bin/activate 3.与notebook连接 在虚拟环境中,使用 pip 安装 Jupyter 和 ipykernel: pip instal

C#实战|大乐透选号器[6]:实现实时显示已选择的红蓝球数量

哈喽,你好啊,我是雷工。 关于大乐透选号器在前面已经记录了5篇笔记,这是第6篇; 接下来实现实时显示当前选中红球数量,蓝球数量; 以下为练习笔记。 01 效果演示 当选择和取消选择红球或蓝球时,在对应的位置显示实时已选择的红球、蓝球的数量; 02 标签名称 分别设置Label标签名称为:lblRedCount、lblBlueCount

【机器学习】高斯过程的基本概念和应用领域以及在python中的实例

引言 高斯过程(Gaussian Process,简称GP)是一种概率模型,用于描述一组随机变量的联合概率分布,其中任何一个有限维度的子集都具有高斯分布 文章目录 引言一、高斯过程1.1 基本定义1.1.1 随机过程1.1.2 高斯分布 1.2 高斯过程的特性1.2.1 联合高斯性1.2.2 均值函数1.2.3 协方差函数(或核函数) 1.3 核函数1.4 高斯过程回归(Gauss

ASIO网络调试助手之一:简介

多年前,写过几篇《Boost.Asio C++网络编程》的学习文章,一直没机会实践。最近项目中用到了Asio,于是抽空写了个网络调试助手。 开发环境: Win10 Qt5.12.6 + Asio(standalone) + spdlog 支持协议: UDP + TCP Client + TCP Server 独立的Asio(http://www.think-async.com)只包含了头文件,不依

【学习笔记】 陈强-机器学习-Python-Ch15 人工神经网络(1)sklearn

系列文章目录 监督学习:参数方法 【学习笔记】 陈强-机器学习-Python-Ch4 线性回归 【学习笔记】 陈强-机器学习-Python-Ch5 逻辑回归 【课后题练习】 陈强-机器学习-Python-Ch5 逻辑回归(SAheart.csv) 【学习笔记】 陈强-机器学习-Python-Ch6 多项逻辑回归 【学习笔记 及 课后题练习】 陈强-机器学习-Python-Ch7 判别分析 【学

滚雪球学Java(87):Java事务处理:JDBC的ACID属性与实战技巧!真有两下子!

咦咦咦,各位小可爱,我是你们的好伙伴——bug菌,今天又来给大家普及Java SE啦,别躲起来啊,听我讲干货还不快点赞,赞多了我就有动力讲得更嗨啦!所以呀,养成先点赞后阅读的好习惯,别被干货淹没了哦~ 🏆本文收录于「滚雪球学Java」专栏,专业攻坚指数级提升,助你一臂之力,带你早日登顶🚀,欢迎大家关注&&收藏!持续更新中,up!up!up!! 环境说明:Windows 10