Python网络爬虫实战——实验5:Python爬虫之selenium动态数据采集实战

2024-01-27 11:28

本文主要是介绍Python网络爬虫实战——实验5:Python爬虫之selenium动态数据采集实战,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

【实验内容】

本实验主要介绍和使用selenium库在js动态加载网页中数据采集的作用。

【实验目的】

1、理解动态加载网页的概念
2、学习Selenium库基本使用
3、掌握动态加载数据采集流程

【实验步骤】

步骤1理解动态加载网页
步骤2学习使用Selenium库
步骤3 采集河北政府采购网

步骤1:理解动态加载网页
动态加载网页是指在页面初次加载完成后,通过JavaScript等前端技术,根据用户的交互或其他触发条件,向服务器请求额外的数据并将其加载到已有页面中,而无需刷新整个页面。这种技术使得网页能够更快地响应用户操作,提升用户体验,同时避免了每次交互都重新加载整个页面的开销。以下是一些常见的动态加载网页的情形:
异步加载: 通过AJAX(Asynchronous JavaScript and XML)等技术,网页可以在后台异步加载数据,然后使用JavaScript更新页面的部分内容,而无需重新加载整个页面。
无限滚动: 在一些网页中,当用户滚动页面到底部时,会自动加载更多的内容,实现无限滚动效果。
实时更新: 一些网页需要实时显示最新的信息,例如社交媒体的实时更新流。在这里插入图片描述上图站长之家就是使用js动态渲染网页,在传统的静态网页爬取中,爬虫工具通常只能获取页面初次加载时的静态内容,而无法直接获取动态加载的数据。

步骤2:学习Selenium库基本使用
(1) 介绍
selenium最初是一个自动化测试工具,而爬虫中使用它主要是为了解决requests无法执行javaScript代码的问题。selenium本质上是通过驱动浏览器,完全模拟浏览器的操作,比如跳转、输入、点击、下拉等…进而拿到网页渲染之后的结果,可支持多种浏览器
(2) 安装Selenium库:
/==============/
(3) 下载浏览器驱动
根据使用的浏览器下载对应版本的浏览器驱动,例如Chrome浏览器需要下载ChromeDriver。将驱动文件保存在一个合适的位置。
下载地址:
/===================================/
在这里插入图片描述(4) 初始化Selenium WebDriver
在Python脚本中使用Selenium库,初始化一个WebDriver,指定浏览器类型和驱动路径。
-***************************************************************
(5) 访问目标网址
使用WebDriver访问需要采集数据的目标网页。
-***************************************************************
(6) 模拟用户行为
/======================================================/
(7) 等待数据加载
由于动态加载可能需要一些时间,需要使用等待机制确保数据加载完成。
-****************************************************
(8) 提取数据
一旦数据加载完成,使用Selenium提取目标数据。
-****************************************************
(9) 关闭浏览器在这里插入图片描述
步骤3 采集河北政府采购网
(1) 分析页面
主页面
地址:http://www.ccgp-hebei.gov.cn/province/cggg/zhbgg/index_1.html


进入主页面后,摁F12打开开发者工具,点击Doc输入关键字学,点击检索按钮,可以出现如上图4步骤所示的接口,preview中可以查看到该接口的返回值。

子页面
/=======================================================================================================/在这里插入图片描述
(2) 解析出子页面信息
导入第三方模块:
在这里插入图片描述
/==================================================================================================/


/==================================================================================================/

(3) 获取子页面源代码
导入模块
-***********************************************************************
首先初始化一个Chrome(options=chrome_options) ,创建了一个新的Chrome WebDriver实例,传入配置参数。


/==================================================================================================================================================/
-******************************************************************
/===============================================================================================================================================/
整个操作是在一个try-except-finally块中进行的,如果出现异常(比如加载超时),会打印一条消息,并在 finally 块中关闭 WebDriver,确保资源被正确释放。

(4) 解析子页面数据在这里插入图片描述下面代码是解析子页面主要标信息字段的代码,使用xpath语法对数据进行提取。
/===================================================================================================================================================/
-****************************************************************
提取的数据字段最终保存为如下图所示。
-*************************************************************************
(5) 保存为json文件
-*******************************************************************
使用with语句打开文件 “hebei -zhong.json”,打开模式为追加模式 a,以UTF-8编码。将JSON格式的字符串 message 写入文件,并添加一个逗号和换行符,以便在后续追加新的JSON数据,这有助于生成一个包含多个JSON对象的有效JSON数组。

生成单个字段完整示例如下:
-*************************************************************************************

这篇关于Python网络爬虫实战——实验5:Python爬虫之selenium动态数据采集实战的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/650094

相关文章

Python将博客内容html导出为Markdown格式

《Python将博客内容html导出为Markdown格式》Python将博客内容html导出为Markdown格式,通过博客url地址抓取文章,分析并提取出文章标题和内容,将内容构建成html,再转... 目录一、为什么要搞?二、准备如何搞?三、说搞咱就搞!抓取文章提取内容构建html转存markdown

Python获取中国节假日数据记录入JSON文件

《Python获取中国节假日数据记录入JSON文件》项目系统内置的日历应用为了提升用户体验,特别设置了在调休日期显示“休”的UI图标功能,那么问题是这些调休数据从哪里来呢?我尝试一种更为智能的方法:P... 目录节假日数据获取存入jsON文件节假日数据读取封装完整代码项目系统内置的日历应用为了提升用户体验,

Python FastAPI+Celery+RabbitMQ实现分布式图片水印处理系统

《PythonFastAPI+Celery+RabbitMQ实现分布式图片水印处理系统》这篇文章主要为大家详细介绍了PythonFastAPI如何结合Celery以及RabbitMQ实现简单的分布式... 实现思路FastAPI 服务器Celery 任务队列RabbitMQ 作为消息代理定时任务处理完整

Python Websockets库的使用指南

《PythonWebsockets库的使用指南》pythonwebsockets库是一个用于创建WebSocket服务器和客户端的Python库,它提供了一种简单的方式来实现实时通信,支持异步和同步... 目录一、WebSocket 简介二、python 的 websockets 库安装三、完整代码示例1.

Linux系统配置NAT网络模式的详细步骤(附图文)

《Linux系统配置NAT网络模式的详细步骤(附图文)》本文详细指导如何在VMware环境下配置NAT网络模式,包括设置主机和虚拟机的IP地址、网关,以及针对Linux和Windows系统的具体步骤,... 目录一、配置NAT网络模式二、设置虚拟机交换机网关2.1 打开虚拟机2.2 管理员授权2.3 设置子

揭秘Python Socket网络编程的7种硬核用法

《揭秘PythonSocket网络编程的7种硬核用法》Socket不仅能做聊天室,还能干一大堆硬核操作,这篇文章就带大家看看Python网络编程的7种超实用玩法,感兴趣的小伙伴可以跟随小编一起... 目录1.端口扫描器:探测开放端口2.简易 HTTP 服务器:10 秒搭个网页3.局域网游戏:多人联机对战4.

使用Python实现快速搭建本地HTTP服务器

《使用Python实现快速搭建本地HTTP服务器》:本文主要介绍如何使用Python快速搭建本地HTTP服务器,轻松实现一键HTTP文件共享,同时结合二维码技术,让访问更简单,感兴趣的小伙伴可以了... 目录1. 概述2. 快速搭建 HTTP 文件共享服务2.1 核心思路2.2 代码实现2.3 代码解读3.

Python使用自带的base64库进行base64编码和解码

《Python使用自带的base64库进行base64编码和解码》在Python中,处理数据的编码和解码是数据传输和存储中非常普遍的需求,其中,Base64是一种常用的编码方案,本文我将详细介绍如何使... 目录引言使用python的base64库进行编码和解码编码函数解码函数Base64编码的应用场景注意

Spring Boot + MyBatis Plus 高效开发实战从入门到进阶优化(推荐)

《SpringBoot+MyBatisPlus高效开发实战从入门到进阶优化(推荐)》本文将详细介绍SpringBoot+MyBatisPlus的完整开发流程,并深入剖析分页查询、批量操作、动... 目录Spring Boot + MyBATis Plus 高效开发实战:从入门到进阶优化1. MyBatis

MyBatis 动态 SQL 优化之标签的实战与技巧(常见用法)

《MyBatis动态SQL优化之标签的实战与技巧(常见用法)》本文通过详细的示例和实际应用场景,介绍了如何有效利用这些标签来优化MyBatis配置,提升开发效率,确保SQL的高效执行和安全性,感... 目录动态SQL详解一、动态SQL的核心概念1.1 什么是动态SQL?1.2 动态SQL的优点1.3 动态S