Python爬虫学习-第四篇 Scrapy框架抓取唯品会数据

2023-10-12 23:50

本文主要是介绍Python爬虫学习-第四篇 Scrapy框架抓取唯品会数据,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

上篇博文讲述了scrapy的框架和组件,对于scrapy有了基本的了解,那么我们进入今天的正题:使用Scrapy框架爬取数据。

1.创建Scrapy项目

创建Scrapy工程文件的命令:

 scrapy startproject scrapytest

  此命令是python默认目下创建的工程。

指定目录文件下创建项目:

1.进入指定目录  cd D:\workspaces 2.该目录下执行:scrapy startproject scrapytest 

2.scrpay项目结构

 使用PyCharm,打开scrpy的工程文件,效果如下:

2.1 spiders 文件夹就是我们编写spider存放的目录

2.2 items是定义数据类型

2.3 pipeline 负责处理被spider提取出来的item

2.4 Middlewares 默认两个中间件,一个spider 一个是download

2.5 setting 配置信息 默认:

 3.抓取某品会的纸尿裤数据

     3.1 定义数据

class DiaperItem(scrapy.Item):diaper_name = scrapy.Field() #纸尿裤商品名称diaper_price = scrapy.Field()#价格diaper_url = scrapy.Field()  #详情路径diaper_source_shop = scrapy.Field() #来源商城(默认为某品会)

   3.2 抓取目标分析

 

 

 

  目标是抓取上图所有的纸尿裤数据。

        3.2.1抓取页面代码

       通过写spider直接访问路径:https://category.vip.com/suggest.php?keyword=纸尿裤

from scrapy.spiders import Spider
from scrapy.http.request import Requestclass vipShopSpider(Spider):name = "vipshopSpider"allowed_domains = ["category.vip.com"]start_url = 'https://category.vip.com/suggest.php?keyword=%E7%BA%B8%E5%B0%BF%E8%A3%A4'def start_requests(self):yield Request(url=self.start_url, callback=self.parse)def parse(self, response):body = response.body.decode('utf-8')pass

其中name就是爬虫的名称,必有字段

allowed_domains 允许爬去站点的域名,此域名内的访问才算有效。

start_url自定义参数,爬虫开始的爬去的页面路径。

start_request第一次请求,url请求页面路径,callback回调函数。

parse 自定义的方法,用于解析html ,主要爬取规则在这里实现。

通过pycharm 配置参数,调试爬虫,获取响应的内容body,用于我们第二次分析.

配置调试步骤:

填入python命令行路径  和执行scrapy的命令:crawl  vipShopSpider

debug运行 ,设置断点,查看body:

复制body ,得到访问结果。经过分析,我们发现body没有商品的信息,得到是一段未经过js渲染的代码:

  那该怎么办呢,我们用到与scrpy配套的js渲染中间件splash,通过这个splash,我们可以得到渲染后的body。

 安装splash很简单,只需在docker环境 安装splash就可以了(这个不是此篇文章的重点)。具体百度。

 splash安装成功后 界面如下:

 

 setting配置splash:

SPLASH_URL = '你的splash的url'DOWNLOADER_MIDDLEWARES = {'scrapy_splash.SplashCookiesMiddleware': 723,'scrapy_splash.SplashMiddleware': 725,'scrapy.downloadermiddlewares.httpcompression.HttpCompressionMiddleware': 810,
}SPIDER_MIDDLEWARES = {'scrapy_splash.SplashDeduplicateArgsMiddleware': 100,
}DUPEFILTER_CLASS = 'scrapy_splash.SplashAwareDupeFilter'HTTPCACHE_STORAGE = 'scrapy_splash.SplashAwareFSCacheStorage'

修改spider:

  script = """function main(splash, args)splash:go(args.url)local scroll_to = splash:jsfunc("window.scrollTo")scroll_to(0, 2800)splash:set_viewport_full()splash:wait(5)return {html=splash:html()}end"""def start_requests(self):#yield Request(url=self.start_url, callback=self.parse)yield SplashRequest(url=self.start_url, callback=self.parse, endpoint='execute',args={'lua_source': self.script})

script的lua脚本,作用模拟拖动鼠标到页面最低端,保证页面把当前网页的数据加载完成。

再次debug运行爬虫,抓取body,查看最终的html代码。看到产品名称,价格信息。

    3.2.2抓取规则

     从html代码中获取到制定数据,selector(选择器)就在这时候大显身手,scapy选择器是依赖于lxml库,在我的博文《Python爬虫学习-第三篇 Scrapy框架初探和安装》提到过,所以在这儿我就不多讲,直接贴出我的筛选规则代码:

  def parse(self, response):sel = Selector(response)items = sel.xpath('//div[@class="goods-list-item  c-goods  J_pro_items"]')for data in items:diaper_name = data.xpath('.//h4[@class="goods-info goods-title-info"]/a/@title').extract_first()diaper_price = data.xpath('.//div[@class="goods-price-wrapper"]/em/span[@class="price"]/text()').extract_first()diaper_url = data.xpath('.//h4[@class="goods-info goods-title-info"]/a/@href').extract_first()shop_diaper_item = DiaperItem()shop_diaper_item['diaper_name'] = diaper_nameshop_diaper_item['diaper_price'] = (re.findall(r"\d+\.?\d*", diaper_price))[0]shop_diaper_item['diaper_url'] = 'https:' + diaper_urlshop_diaper_item['diaper_source_shop'] = '唯品会'yield shop_diaper_itemnext_url = sel.xpath('//div[@class="m-cat-paging ui-paging"]/a[@class="cat-paging-next next"]/@href').extract_first()if next_url is not None:next_url = response.urljoin(next_url)yield SplashRequest(next_url, callback=self.parse, endpoint='execute', args={'lua_source': self.script})

      第一步:  sel = Selector(response)
        items = sel.xpath('//div[@class="goods-list-item  c-goods  J_pro_items"]')  选取class是"goods-list-item  c-goods  J_pro_items"的元素

      第二步:遍历选取的元素,找到名称、价格、详情url,赋值给自定义DiaperItem,返回DiaperItem

      第三步:找取下一页:

       next_url = sel.xpath(
            '//div[@class="m-cat-paging ui-paging"]/a[@class="cat-paging-next next"]/@href').extract_first() 找取分页的下一页href。得到类似的结果:

判断是否为空,不为空,拼接成类似https://category.vip.com/suggest.php?keyword=纸尿裤&page=2&count=100&suggestType=brand#catPerPos的链接

在加入splash的渲染中间件,循环调取。

   ps:scrapy 是默认开启了,url去重的访问,所以即使有重复url路径请求,scrapy会自动清除。

   3.2.3保存数据

      使用pipeline来处理数据,使用mssql数据库来存储数据:

from DiaperService.MssqlService import MssqlServiceclass DiaperPipeline(object):def process_item(self, item, spider):name = item['diaper_name'].replace("'", "''")ms = MssqlService(server='192.168.200.200', user='sa', password='123456aA', db_name='test')sql = 'insert into [dbo].[Diaper](Name,Price,DetailUrl,SourceShop) ' \'values(\'%s\',%f,\'%s\',\'%s\') ' % (name,float(item['diaper_price']),item['diaper_url'],item['diaper_source_shop'])# print(sql)ms.exec_non_query(sql)return item

封装的mssql服务:

import pymssqlclass MssqlService(object):def __init__(self, server, user, password, db_name):self.host = serverself.user = userself.password = passwordself.database = db_nameself.conn = self.__get_Conn()def __get_Conn(self):conn = pymssql.connect(self.host, self.user, self.password, self.database)return conndef exec_query(self, sql):cur = self.conn.cursor()cur.execute(sql)result_list = cur.fetchall()cur.close()return result_listdef exec_non_query(self, sql):cur = self.conn.cursor()cur.execute(sql)self.conn.commit()cur.close()

setting配置pipeline的优先级300:

ITEM_PIPELINES = {'Diaper.pipelines.DiaperPipeline': 300,
}

那么到现在我们已经把爬虫从请求网页,获取相应,解析内容,保存数据的都完成开发,所以我们运行下程序,查看是否成功抓取数据。

数据库中的数据:

 4.总结

      scrapy还有很多强大的功能去探索,比如链式爬虫,能够递归爬取数据,可以配置递归的层级等。同时它的选择器lxml库,筛选查询非常方便快速,相较于正则表达式学习成本更低,更易理解,能让新手快速入门。

这篇关于Python爬虫学习-第四篇 Scrapy框架抓取唯品会数据的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/199308

相关文章

Java中注解与元数据示例详解

《Java中注解与元数据示例详解》Java注解和元数据是编程中重要的概念,用于描述程序元素的属性和用途,:本文主要介绍Java中注解与元数据的相关资料,文中通过代码介绍的非常详细,需要的朋友可以参... 目录一、引言二、元数据的概念2.1 定义2.2 作用三、Java 注解的基础3.1 注解的定义3.2 内

将sqlserver数据迁移到mysql的详细步骤记录

《将sqlserver数据迁移到mysql的详细步骤记录》:本文主要介绍将SQLServer数据迁移到MySQL的步骤,包括导出数据、转换数据格式和导入数据,通过示例和工具说明,帮助大家顺利完成... 目录前言一、导出SQL Server 数据二、转换数据格式为mysql兼容格式三、导入数据到MySQL数据

C++中使用vector存储并遍历数据的基本步骤

《C++中使用vector存储并遍历数据的基本步骤》C++标准模板库(STL)提供了多种容器类型,包括顺序容器、关联容器、无序关联容器和容器适配器,每种容器都有其特定的用途和特性,:本文主要介绍C... 目录(1)容器及简要描述‌php顺序容器‌‌关联容器‌‌无序关联容器‌(基于哈希表):‌容器适配器‌:(

Python判断for循环最后一次的6种方法

《Python判断for循环最后一次的6种方法》在Python中,通常我们不会直接判断for循环是否正在执行最后一次迭代,因为Python的for循环是基于可迭代对象的,它不知道也不关心迭代的内部状态... 目录1.使用enuhttp://www.chinasem.cnmerate()和len()来判断for

C#提取PDF表单数据的实现流程

《C#提取PDF表单数据的实现流程》PDF表单是一种常见的数据收集工具,广泛应用于调查问卷、业务合同等场景,凭借出色的跨平台兼容性和标准化特点,PDF表单在各行各业中得到了广泛应用,本文将探讨如何使用... 目录引言使用工具C# 提取多个PDF表单域的数据C# 提取特定PDF表单域的数据引言PDF表单是一

使用Python实现高效的端口扫描器

《使用Python实现高效的端口扫描器》在网络安全领域,端口扫描是一项基本而重要的技能,通过端口扫描,可以发现目标主机上开放的服务和端口,这对于安全评估、渗透测试等有着不可忽视的作用,本文将介绍如何使... 目录1. 端口扫描的基本原理2. 使用python实现端口扫描2.1 安装必要的库2.2 编写端口扫

使用Python实现操作mongodb详解

《使用Python实现操作mongodb详解》这篇文章主要为大家详细介绍了使用Python实现操作mongodb的相关知识,文中的示例代码讲解详细,感兴趣的小伙伴可以跟随小编一起学习一下... 目录一、示例二、常用指令三、遇到的问题一、示例from pymongo import MongoClientf

使用Python合并 Excel单元格指定行列或单元格范围

《使用Python合并Excel单元格指定行列或单元格范围》合并Excel单元格是Excel数据处理和表格设计中的一项常用操作,本文将介绍如何通过Python合并Excel中的指定行列或单... 目录python Excel库安装Python合并Excel 中的指定行Python合并Excel 中的指定列P

一文详解Python中数据清洗与处理的常用方法

《一文详解Python中数据清洗与处理的常用方法》在数据处理与分析过程中,缺失值、重复值、异常值等问题是常见的挑战,本文总结了多种数据清洗与处理方法,文中的示例代码简洁易懂,有需要的小伙伴可以参考下... 目录缺失值处理重复值处理异常值处理数据类型转换文本清洗数据分组统计数据分箱数据标准化在数据处理与分析过

大数据小内存排序问题如何巧妙解决

《大数据小内存排序问题如何巧妙解决》文章介绍了大数据小内存排序的三种方法:数据库排序、分治法和位图法,数据库排序简单但速度慢,对设备要求高;分治法高效但实现复杂;位图法可读性差,但存储空间受限... 目录三种方法:方法概要数据库排序(http://www.chinasem.cn对数据库设备要求较高)分治法(常