Pyhon爬虫之Ajax的数据爬取

2024-03-31 06:12
文章标签 数据 爬虫 ajax 爬取 pyhon

本文主要是介绍Pyhon爬虫之Ajax的数据爬取,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

Ajax数据爬取

一、什么是Ajax

Ajax,全称Asynchronous JavaScript and XML,即异步的JavaScript和XML。它不是一门编程语言,而是利用JavaScript在保证页面不被刷新、页面链接不改变的情况下与服务器交换数据并更新部分网页内容的技术

对于传统网页,要更新内容则需要刷新页面,而Ajax可以在页面不被刷新的情况下更新。(这个过程实际是页面在后台与服务器进行了数据交互,获取数据后,再利用JavaScript改变网页。)

1、实例

网页中的“下滑查看更多”的选项等…

2、基本原理

从发送Ajax请求到网页更新的这个过程分3步:发送请求、解析内容、渲染网页

2.1、发送请求

这是JavaScript对Ajax最底层的实现:

var xmlhttp;
if (window.XMLHttpRequest){xmlhttp=new XMLHttpRequest();
} else {//code for IE6,IE5xmlhttp=new ActiveXObject("Microsoft.XMLHTTP");
}
xmlhttp.onreadystatechange=function (){if (xmlhttp.readyState == 4 && xmlhttp.status == 200){document.getElementById("myDiv").innerText=xmlhttp.responseText;}
}
xmlhttp.open("POST","/ajax/",true);
xmlhttp.send();
  • 先新建一个XMLHttpRequest对象xmlhttp
  • 调用onreadystatechange属性设置监听
  • 调用open和send方法向某个链接(也就是服务器)发送请求。

2.2、解析内容

服务器返回响应后,onreadystateschange属性对应的方法就被触发了,此时利用xmlhttp的responseText属性便可以得到响应内容。

2.3、渲染网页

JavaScript有改变网页内容的能力,因此解析完响应内容之后,就可以调用JacaScript来基于解析完的内容对网页进行下一步处理了。

二、Ajax分析方法

1、案例分析

Ajax有其特殊的请求类型,叫做xhr。在 加载过程中使用检查工具的页面中,我们可以看到一个以getIndex开头的请求信息,其type就为xhr,意味着这就是一个Ajax请求。

右侧可以观察这个Ajax请求的Repuest Headers、URL和Response Headers等信息。其中Request Header中有一个信息为**X-Requested-With:XMLHttpRequest,**这就标记了此请求时Ajax请求,

点击Preview就能看到响应的内容,这些内容是JSON格式的。JavaScript接收到这些数据后,再执行相应的渲染方法,整个页面就渲染出来了。

所以说,呈现给我们的真实数据并不是最原始的页面返回的,而是执行JavaScript后再次向后台发送Ajax请求,浏览器拿到服务器返回的数据后进一步渲染得到的。

2、过滤数据

利用Chrome开发者工具的筛选功能能够筛选出所有Ajax请求。在请求的上方有一层筛选栏,直接单击XHR,就能显示所有Ajax的请求了。

随便点开其中一个条目,都可以清楚地看到其Request URL,Request Headers,Reponse Headers,Response Body等内容,此时想要模拟Ajax请求的发送和数据的提取就非常容易了。(用程序模拟这些Ajax请求

三、Ajax分析与爬取实战

1、爬取目标

https://spa1.scrape.center/

  • 分析页面数据的加载逻辑
  • 用requests实现Ajax数据的爬取
  • 将每部电影的数据分别保存到数据库

2、初步开始

用最简单的代码实现一下requests获取网站首页源码的过程:

import requestsurl = "https://spa1.scrape.center/"
html = requests.get(url).text
print(html)

3、爬取列表页

观察多个Ajax的参数,总结:limit一直为10,正好对应每页的10条数据;offset在依次变大,页数每加1,offset就加10,因此其代表页面的数据偏移量。

结果就是一些JSON数据,其中有一个results字段,是一个列表,列表中每一个元素都是一个字典,观察字典内容,里面正好可以看到对应电影数据的字段,如name、alias、cover、categories。我们只需要构造出所有页面的Ajax接口,就可以轻松获取内容了:

import logging
import requestslogging.basicConfig(level=logging.INFO, format='%(asctime)s - %(levelname)s: %(message)s')		# 定义logging的基本配置INDEX_URL = 'https://spa1.scrape.center/api/movie/?limit={limit}&offset={offset}'	# 把limit和offset预留出来变成占位符,可以动态传入参数构造一个完整的URL。# 专门用来处理JSON接口
def scrape_api(url):logging.info('scraping %s...', url)try:response = requests.get(url)	if response.status_code == 200:return response.json()	# 解析响应内容并将其转化成JSON字符串logging.error('get invalid status code %s while scraping %s', response.status_code, url)except requests.RequestException:logging.error('error occurred while scraping %s', url, exc_info=True)LIMIT = 10# 爬取列表页
def scrape_index(page):url = INDEX_URL.format(limit=LIMIT, offset=LIMIT * (page - 1))	# 通过字符串的format方法传入limit和offset的值。return scrape_api(url)

这样就完成了列表页的爬取,每次发送Ajax请求都会得到10部电影的数据信息。

由于这时爬取到的数据已经是JSON类型了,所以无需像之前那样去解析HTML代码来提取数据,爬取到的数据已经是我吗想要的结构化数据。

4、爬取详情页

单击任意一电影,发现URL变成https://spa1.scrape.center/detail/40,页面也成功展示了详情页。

可以在开发者工具发现出现了一个Ajax请求,其URL为https://spa1.scrape.center/api/movie/40,通过Preview也能看到 Ajax请求对应的响应信息。

# 爬取详情页的爬取逻辑
DETAIL_URL = 'https://spa1.scrape.center/api/movie/{id}'def scrape_detail(id):url = DETAIL_URL.format(id=id)return scrape_api(url)# 总的调用方法:
TOTAL_PAGE = 10def main():for page in range(1, TOTAL_PAGE + 1):index_data = scrape_index(page)for item in index_data.get('results'):id = item.get('id')detail_data = scrape_detail(id)logging.info('detail data %s', detail_data)if __name__ == '__main__':main()
  • main()方法首先遍历获取页码,然后把page当做参数传递给scrape_index方法,得到列表页的数据。接着遍历每个列表页的每个结果,获取每部电影的id。之后把id当做参数传递给scrape_detail方法来获取每部电影的详情数据,并将此数据赋值给detail_data,最后输出detail_data即可。

5、保存数据

这篇关于Pyhon爬虫之Ajax的数据爬取的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/863608

相关文章

SpringBoot集成Milvus实现数据增删改查功能

《SpringBoot集成Milvus实现数据增删改查功能》milvus支持的语言比较多,支持python,Java,Go,node等开发语言,本文主要介绍如何使用Java语言,采用springboo... 目录1、Milvus基本概念2、添加maven依赖3、配置yml文件4、创建MilvusClient

SpringValidation数据校验之约束注解与分组校验方式

《SpringValidation数据校验之约束注解与分组校验方式》本文将深入探讨SpringValidation的核心功能,帮助开发者掌握约束注解的使用技巧和分组校验的高级应用,从而构建更加健壮和可... 目录引言一、Spring Validation基础架构1.1 jsR-380标准与Spring整合1

MySQL 中查询 VARCHAR 类型 JSON 数据的问题记录

《MySQL中查询VARCHAR类型JSON数据的问题记录》在数据库设计中,有时我们会将JSON数据存储在VARCHAR或TEXT类型字段中,本文将详细介绍如何在MySQL中有效查询存储为V... 目录一、问题背景二、mysql jsON 函数2.1 常用 JSON 函数三、查询示例3.1 基本查询3.2

SpringBatch数据写入实现

《SpringBatch数据写入实现》SpringBatch通过ItemWriter接口及其丰富的实现,提供了强大的数据写入能力,本文主要介绍了SpringBatch数据写入实现,具有一定的参考价值,... 目录python引言一、ItemWriter核心概念二、数据库写入实现三、文件写入实现四、多目标写入

使用Python将JSON,XML和YAML数据写入Excel文件

《使用Python将JSON,XML和YAML数据写入Excel文件》JSON、XML和YAML作为主流结构化数据格式,因其层次化表达能力和跨平台兼容性,已成为系统间数据交换的通用载体,本文将介绍如何... 目录如何使用python写入数据到Excel工作表用Python导入jsON数据到Excel工作表用

Mysql如何将数据按照年月分组的统计

《Mysql如何将数据按照年月分组的统计》:本文主要介绍Mysql如何将数据按照年月分组的统计方式,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录mysql将数据按照年月分组的统计要的效果方案总结Mysql将数据按照年月分组的统计要的效果方案① 使用 DA

鸿蒙中Axios数据请求的封装和配置方法

《鸿蒙中Axios数据请求的封装和配置方法》:本文主要介绍鸿蒙中Axios数据请求的封装和配置方法,本文给大家介绍的非常详细,对大家的学习或工作具有一定的参考借鉴价值,需要的朋友参考下吧... 目录1.配置权限 应用级权限和系统级权限2.配置网络请求的代码3.下载在Entry中 下载AxIOS4.封装Htt

AJAX请求上传下载进度监控实现方式

《AJAX请求上传下载进度监控实现方式》在日常Web开发中,AJAX(AsynchronousJavaScriptandXML)被广泛用于异步请求数据,而无需刷新整个页面,:本文主要介绍AJAX请... 目录1. 前言2. 基于XMLHttpRequest的进度监控2.1 基础版文件上传监控2.2 增强版多

Python获取中国节假日数据记录入JSON文件

《Python获取中国节假日数据记录入JSON文件》项目系统内置的日历应用为了提升用户体验,特别设置了在调休日期显示“休”的UI图标功能,那么问题是这些调休数据从哪里来呢?我尝试一种更为智能的方法:P... 目录节假日数据获取存入jsON文件节假日数据读取封装完整代码项目系统内置的日历应用为了提升用户体验,

Java利用JSONPath操作JSON数据的技术指南

《Java利用JSONPath操作JSON数据的技术指南》JSONPath是一种强大的工具,用于查询和操作JSON数据,类似于SQL的语法,它为处理复杂的JSON数据结构提供了简单且高效... 目录1、简述2、什么是 jsONPath?3、Java 示例3.1 基本查询3.2 过滤查询3.3 递归搜索3.4