Python爬虫从入门到精通:(3)requests基础02_动态加载数据的捕获(爬取豆瓣电影数据)_Python涛哥

本文主要是介绍Python爬虫从入门到精通:(3)requests基础02_动态加载数据的捕获(爬取豆瓣电影数据)_Python涛哥,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

动态加载数据的捕获(爬取豆瓣电影数据)

现在我打算爬取这个页面:

在这里插入图片描述

话不多说,先上代码:

import requests
# 爬取豆瓣电影中的动作片详情数据
headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/93.0.4577.82 Safari/537.36'
}
url = 'https://movie.douban.com/typerank?type_name=%E5%8A%A8%E4%BD%9C&type=5&interval_id=100:90&action='response = requests.get(url, headers=headers)
page_text = response.text
with open('./douban.html', 'w', encoding='utf-8') as f:f.write(page_text)

代码运行后,打开 douban.html:

在这里插入图片描述

我们发现,程序并没有爬取到相关数据。这是为什么呢?

动态加载数据的捕获
  • 什么叫做动态加载的数据?

    我们通过requests模块进行爬取数据无法每次都实现可见即可得,有些数据是通过非浏览器地址栏中的url请求到的数据,而是其他请求 请求到的数据,那么这些通过请求请求到的数据就是动态加载的数据

  • 如何检测网页中是否存在动态加载数据

    基于抓包工具动态进行局部搜索:

    在当前网页中打开抓包工具,捕获到地址栏url对应的数据包,在该数据包中response选项卡搜索我们想要爬的数据,
    如果搜索到了就不是动态加载数据,如果没有搜索到,那就是动态加载数据

在这里插入图片描述


如果数据为动态加载,那么我们如何铺货到动态加载的数据

基于抓包工具进行全局搜索

  • 定位到动态加载数据对应的数据包,从该数据包中就可以提取出

    • 请求的url

    • 请求方式

    • 请求携带的参数

    • 看到响应数据

      在这里插入图片描述

    在这里插入图片描述

现在我们就可以写代码进行爬取了:

url = 'https://movie.douban.com/j/chart/top_list'
params = {'type': '5','interval_id': '100:90','action': '','start': '0','limit': '20'
}
response = requests.get(url=url, params=params, headers=headers)
# .json() 将获取的字符串形式的json数据反序列化成字典或列表对象
page_text = response.json()
print(page_text)
# 解析出电影的名称+评分
for movie in page_text:name = movie['title']score = movie['score']print(name, score)

思考:基于抓包工具进行全局搜索不一定每次都能定位到动态加载数据对应的数据包?

原因:如果动态加载的数据是经过加密的密文数据。(后续会详解)

关注 Python涛哥,学习更多Python知识!

这篇关于Python爬虫从入门到精通:(3)requests基础02_动态加载数据的捕获(爬取豆瓣电影数据)_Python涛哥的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/817404

相关文章

Python FastAPI+Celery+RabbitMQ实现分布式图片水印处理系统

《PythonFastAPI+Celery+RabbitMQ实现分布式图片水印处理系统》这篇文章主要为大家详细介绍了PythonFastAPI如何结合Celery以及RabbitMQ实现简单的分布式... 实现思路FastAPI 服务器Celery 任务队列RabbitMQ 作为消息代理定时任务处理完整

Python Websockets库的使用指南

《PythonWebsockets库的使用指南》pythonwebsockets库是一个用于创建WebSocket服务器和客户端的Python库,它提供了一种简单的方式来实现实时通信,支持异步和同步... 目录一、WebSocket 简介二、python 的 websockets 库安装三、完整代码示例1.

揭秘Python Socket网络编程的7种硬核用法

《揭秘PythonSocket网络编程的7种硬核用法》Socket不仅能做聊天室,还能干一大堆硬核操作,这篇文章就带大家看看Python网络编程的7种超实用玩法,感兴趣的小伙伴可以跟随小编一起... 目录1.端口扫描器:探测开放端口2.简易 HTTP 服务器:10 秒搭个网页3.局域网游戏:多人联机对战4.

使用Python实现快速搭建本地HTTP服务器

《使用Python实现快速搭建本地HTTP服务器》:本文主要介绍如何使用Python快速搭建本地HTTP服务器,轻松实现一键HTTP文件共享,同时结合二维码技术,让访问更简单,感兴趣的小伙伴可以了... 目录1. 概述2. 快速搭建 HTTP 文件共享服务2.1 核心思路2.2 代码实现2.3 代码解读3.

Python使用自带的base64库进行base64编码和解码

《Python使用自带的base64库进行base64编码和解码》在Python中,处理数据的编码和解码是数据传输和存储中非常普遍的需求,其中,Base64是一种常用的编码方案,本文我将详细介绍如何使... 目录引言使用python的base64库进行编码和解码编码函数解码函数Base64编码的应用场景注意

C#如何动态创建Label,及动态label事件

《C#如何动态创建Label,及动态label事件》:本文主要介绍C#如何动态创建Label,及动态label事件,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录C#如何动态创建Label,及动态label事件第一点:switch中的生成我们的label事件接着,

Spring Boot + MyBatis Plus 高效开发实战从入门到进阶优化(推荐)

《SpringBoot+MyBatisPlus高效开发实战从入门到进阶优化(推荐)》本文将详细介绍SpringBoot+MyBatisPlus的完整开发流程,并深入剖析分页查询、批量操作、动... 目录Spring Boot + MyBATis Plus 高效开发实战:从入门到进阶优化1. MyBatis

SpringCloud动态配置注解@RefreshScope与@Component的深度解析

《SpringCloud动态配置注解@RefreshScope与@Component的深度解析》在现代微服务架构中,动态配置管理是一个关键需求,本文将为大家介绍SpringCloud中相关的注解@Re... 目录引言1. @RefreshScope 的作用与原理1.1 什么是 @RefreshScope1.

MyBatis 动态 SQL 优化之标签的实战与技巧(常见用法)

《MyBatis动态SQL优化之标签的实战与技巧(常见用法)》本文通过详细的示例和实际应用场景,介绍了如何有效利用这些标签来优化MyBatis配置,提升开发效率,确保SQL的高效执行和安全性,感... 目录动态SQL详解一、动态SQL的核心概念1.1 什么是动态SQL?1.2 动态SQL的优点1.3 动态S

Spring Boot 配置文件之类型、加载顺序与最佳实践记录

《SpringBoot配置文件之类型、加载顺序与最佳实践记录》SpringBoot的配置文件是灵活且强大的工具,通过合理的配置管理,可以让应用开发和部署更加高效,无论是简单的属性配置,还是复杂... 目录Spring Boot 配置文件详解一、Spring Boot 配置文件类型1.1 applicatio