scrapy--解析HTML结构数据

2024-08-25 06:36

本文主要是介绍scrapy--解析HTML结构数据,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

免责声明:本文仅做演示分享...

目录

拿一页:

qczj.py

拿多页:

 构建start_urls自动发请求

手动发请求

详情页数据解析:

总结写法:


汽车之家数据

--用scrapy自带的xpath进行数据解析


拿一页:

qczj.py

    def parse(self, response):# pass# print(response.text)# 基于scrapy的xpath的解析方式:# 响应对象.xpath('xpath表达式')divs = response.xpath('//div[@class="list-cont"]')  # 页面中每个divfor div in divs:# name = div.xpath('.//a[@class="font-bold"]/text()')  # [<Selector对象>]#         # name = div.xpath('.//a[@class="font-bold"]/text()').extract() # ['数据值']#         # name = div.xpath('.//a[@class="font-bold"]/text()').extract_first() # '数据值'#         # name = div.xpath('.//a[@class="font-bold"]/text()').get()  # '数据值'#         # name = div.xpath('.//a[@class="font-bold"]/text()').getall() # ['数据值']#         通过响应对象.xpath得到的是[标签对象]#         如果想要从标签对象中取出文本内容#         返回字符串,用来获取单个:#         get()#         extract_first()#         返回列表,用来获取多个:#         getall()#         extract()name = div.xpath('.//a[@class="font-bold"]/text()').get()# 价格price = div.xpath('.//span[@class="font-arial"]/text()').get()# 其它信息(级别,续航,电动机)# class="info-gray"info = ",".join(div.xpath('.//span[@class="info-gray"]/text()').getall())print(name, price, info)

拿多页:

 构建start_urls自动发请求

    # 第一种写法:列表推导式,循环url并生成# start_urls = [#     f"https://car.autohome.com.cn/diandongche/list-20_25-0-0-0-0-0-0-0-{i}.html"#     for i in range(1, 11)# ]# 第二种写法: 往列表中添加数据 列表.append()# start_urls = []# for i in range(1,11):#     start_urls.append(f'https://car.autohome.com.cn/diandongche/list-20_25-0-0-0-0-0-0-0-{i}.html')

手动发请求

# 先访问第一页数据,进入解析方法start_urls = ['https://car.autohome.com.cn/diandongche/list-20_25-0-0-0-0-0-0-0-
1.html']url = 'https://car.autohome.com.cn/diandongche/list-20_25-0-0-0-0-0-0-0-%s.html'page = 1def parse(self, response):# 获取当前进入解析方法的请求url# print(response.url)divs = response.xpath('//div[@class="list-cont"]')  # 页面中每个divfor div in divs:name = div.xpath('.//a[@class="font-bold"]/text()').get()# 价格price = div.xpath('.//span[@class="font-arial"]/text()').get()# 其它信息(级别,续航,电动机)# class="info-gray"info = ','.join(div.xpath('.//span[@class="info-gray"]/text()').getall())print(name, price, info)# 发起后面的页码请求self.page += 1#         构造urlnext_url = self.url % (self.page)# 发请求# 回调函数 解析数据 把当前parse的地址传给callback# 作用:发完请求之后,继续进入解析方法对其它页数据进行解析if len(divs):# 如果解析出数据还有,就再发请求,否则无法结束yield scrapy.Request(url=next_url,callback=self.parse)

详情页数据解析:

很多情况下我们需要拿到主页列表数据之后,还需要进入详情页进行数据获取,这时候也需要借助手动请求的方式进 行数据获取.

def parse(self, response):divs = response.xpath('//div[@class="list-cont"]')  # 页面中每个divfor div in divs:name = div.xpath('.//a[@class="font-bold"]/text()').get()# 价格price = div.xpath('.//span[@class="font-arial"]/text()').get()# 其它信息(级别,续航,电动机)# class="info-gray"info = ','.join(div.xpath('.//span[@class="info-gray"]/text()').getall())# 存入item对象中item = Scrapy3Item()item['name'] = nameitem['price'] = priceitem['info'] = info# 要去当前汽车的详情页,就需要获取详情页的urldetail_url = div.xpath('.//a[@class="font-bold"]/@href').get()# https://car.autohome.com.cn/diandongche/series-4278.html#pvareaid=2042206#   /diandongche/series-4278.html#pvareaid=2042206# 拼接urldetail_url = 'https://car.autohome.com.cn' + detail_url#           手动对详情页url发起请求# meta参数是用来给回调方法传入数据的,传入的格式是字典,字典的key可以自定义,字典的值是你要传入的数据值yield scrapy.Request(url=detail_url,callback=self.parse_detail,meta=
{'item':item})# 定义一个方法,用来解析详情页数据def parse_detail(self, response):# 获取item数据 meta是个字典,字典再通过键取值item = response.meta['item']divs = response.xpath('//div[@class="interval01-list-cars-infor"]')types_ls = []for div in divs:type = div.xpath('./p[1]/a/text()').get()types_ls.append(type)#     往item对象中添加types属性item['types'] = types_ls print(item)

总结写法:

import scrapy
from scrapy_demo1.items import ScrapyDemo1Itemclass QczjSpider(scrapy.Spider):name = "qczj"# allowed_domains = ["qczj.com"]start_urls = ["https://car.autohome.com.cn/diandongche/list-20_25-0-0-0-0-0-0-0-1.html"]#url = "https://car.autohome.com.cn/diandongche/list-20_25-0-0-0-0-0-0-0-%s.html"# # 拿多页数据:# 分页的思路:# 因为框架自动从start_urls中拿到url自动发起请求# 如果要实现分页,只需要把分页的url放入列表即可page = 1def parse(self, response):divs = response.xpath('//div[@class="list-cont"]')  # 页面中每个divfor div in divs:name = div.xpath('.//a[@class="font-bold"]/text()').get()# 价格price = div.xpath('.//span[@class="font-arial"]/text()').get()# 其它信息(级别,续航,电动机)# class="info-gray"info = ",".join(div.xpath('.//span[@class="info-gray"]/text()').getall())# 存入item对象中item = ScrapyDemo1Item()item["name"] = nameitem["price"] = priceitem["info"] = info# 要去当前汽车的详情页,就需要获取详情页的urldetail_url = div.xpath('.//a[@class="font-bold"]/@href').get()# https://car.autohome.com.cn/diandongche/series-4278.html#pvareaid=2042206#    /diandongche/series-4278.html#pvareaid=2042206# 拼接urldetail_url = "https://car.autohome.com.cn" + detail_url#           手动对详情页url发起请求yield scrapy.Request(url=detail_url,callback=self.parse_detail,meta={"item": item},  # 传递item对象. 键随便写,值就是item对象.)# 定义一个方法,用来解析详情页数据#进入详细页数据:# https://car.autohome.com.cn/diandongche/series-4278.html#pvareaid=2042206def parse_detail(self, response):# 2个不同的方法,这个字段怎么存呢???item = response.meta["item"]  # 取出item对象divs = response.xpath('//div[@class="interval01-list-cars-infor"]')types_ls = []for div in divs:type = div.xpath("./p[1]/a/text()").get()types_ls.append(type)# 往item对象中添加types属性:item["types"] = types_ls# print(item)yield item  # 这里返回item对象,会自动存入到pipelines中.

 

 

 等等...


这篇关于scrapy--解析HTML结构数据的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1104817

相关文章

Python MySQL如何通过Binlog获取变更记录恢复数据

《PythonMySQL如何通过Binlog获取变更记录恢复数据》本文介绍了如何使用Python和pymysqlreplication库通过MySQL的二进制日志(Binlog)获取数据库的变更记录... 目录python mysql通过Binlog获取变更记录恢复数据1.安装pymysqlreplicat

Linux使用dd命令来复制和转换数据的操作方法

《Linux使用dd命令来复制和转换数据的操作方法》Linux中的dd命令是一个功能强大的数据复制和转换实用程序,它以较低级别运行,通常用于创建可启动的USB驱动器、克隆磁盘和生成随机数据等任务,本文... 目录简介功能和能力语法常用选项示例用法基础用法创建可启动www.chinasem.cn的 USB 驱动

Oracle数据库使用 listagg去重删除重复数据的方法汇总

《Oracle数据库使用listagg去重删除重复数据的方法汇总》文章介绍了在Oracle数据库中使用LISTAGG和XMLAGG函数进行字符串聚合并去重的方法,包括去重聚合、使用XML解析和CLO... 目录案例表第一种:使用wm_concat() + distinct去重聚合第二种:使用listagg,

Python实现将实体类列表数据导出到Excel文件

《Python实现将实体类列表数据导出到Excel文件》在数据处理和报告生成中,将实体类的列表数据导出到Excel文件是一项常见任务,Python提供了多种库来实现这一目标,下面就来跟随小编一起学习一... 目录一、环境准备二、定义实体类三、创建实体类列表四、将实体类列表转换为DataFrame五、导出Da

Python实现数据清洗的18种方法

《Python实现数据清洗的18种方法》本文主要介绍了Python实现数据清洗的18种方法,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学... 目录1. 去除字符串两边空格2. 转换数据类型3. 大小写转换4. 移除列表中的重复元素5. 快速统

Python数据处理之导入导出Excel数据方式

《Python数据处理之导入导出Excel数据方式》Python是Excel数据处理的绝佳工具,通过Pandas和Openpyxl等库可以实现数据的导入、导出和自动化处理,从基础的数据读取和清洗到复杂... 目录python导入导出Excel数据开启数据之旅:为什么Python是Excel数据处理的最佳拍档

vue解决子组件样式覆盖问题scoped deep

《vue解决子组件样式覆盖问题scopeddeep》文章主要介绍了在Vue项目中处理全局样式和局部样式的方法,包括使用scoped属性和深度选择器(/deep/)来覆盖子组件的样式,作者建议所有组件... 目录前言scoped分析deep分析使用总结所有组件必须加scoped父组件覆盖子组件使用deep前言

VUE动态绑定class类的三种常用方式及适用场景详解

《VUE动态绑定class类的三种常用方式及适用场景详解》文章介绍了在实际开发中动态绑定class的三种常见情况及其解决方案,包括根据不同的返回值渲染不同的class样式、给模块添加基础样式以及根据设... 目录前言1.动态选择class样式(对象添加:情景一)2.动态添加一个class样式(字符串添加:情

在Pandas中进行数据重命名的方法示例

《在Pandas中进行数据重命名的方法示例》Pandas作为Python中最流行的数据处理库,提供了强大的数据操作功能,其中数据重命名是常见且基础的操作之一,本文将通过简洁明了的讲解和丰富的代码示例,... 目录一、引言二、Pandas rename方法简介三、列名重命名3.1 使用字典进行列名重命名3.编

使用Python实现批量访问URL并解析XML响应功能

《使用Python实现批量访问URL并解析XML响应功能》在现代Web开发和数据抓取中,批量访问URL并解析响应内容是一个常见的需求,本文将详细介绍如何使用Python实现批量访问URL并解析XML响... 目录引言1. 背景与需求2. 工具方法实现2.1 单URL访问与解析代码实现代码说明2.2 示例调用