Scrapy(四):selectors 选择器

2024-01-23 18:48
文章标签 scrapy 选择器 selectors

本文主要是介绍Scrapy(四):selectors 选择器,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

通过上期的简单介绍,我们已经可以新建一个简单的spider,但是细心的网友发现,我们在解析HTML网页的时候是:

tds = BeautifulSoup(response.text, 'lxml').find_all('tr', bgcolor='#FFFFFF')#解析网页

我们使用到了BeautifulSoup:

Beautiful Soup 是一个可以从HTML或XML文件中提取数据的Python库.它能够通过你喜欢的转换器实现惯用的文档导航,查找,修改文档的方式,但是缺点慢。上期网友反馈使用其它解析,本期简单介绍一下scrapy的自带选择器(selectors)。

spider 流程图

1. 选择器(Selectors)

当抓取网页时,我们主要的工作是从HTML源码中提取数据。当我们编写spider时,可以使用如下解析器来解析HTML网页数据:

  • BeautifulSoup 它基于HTML代码的结构来构造一个Python对象, 缺点:慢
  • lxml 是一个基于 ElementTree (不是Python标准库的一部分)的python化的XML解析库
  • scrapy自带解析器(selector),称之为选择器

Scrapy 选择器(seletors),通过特定的 XPath 或者 CSS 表达式来解析HTML文件中的某个部分。

XPath 是一门用来在XML文件中选择节点的语言,也可以用在HTML上。
CSS 是将HTML文档样式化的语言,与特定的HTML元素的样式相关连。
Scrapy选择器构建于 lxml 库之上,速度比BeautifulSoup快,比lxml简洁

我们通过修改上期的代码,正式了解一下XPath

import scrapy
import os
from scrapy.http import Request
from myproject.items import PowersItem
class PowersSpider(scrapy.Spider):#爬虫的名字name = "powers" #允许爬取的域名allowed_domains = ["23us.so"] #spider的第一个URLstart_urls = ['http://www.23us.so/full.html']

使用response.xpath来解析HTML

#这里必须使用parse定义函数,因为scrapy设置的第一个调度函数
def parse(self, response):
#response.xpath解析tds = response.xpath("//tr[@bgcolor='#FFFFFF']/td[1]/a/text()")item = PowersItem() # item初始化for td in tds:novelname = td.extract() # 获取小说名字item['novelname'] = novelname # 获取到Itemsprint(item)pass
>>>

1.1 Xpath选取节点

Xpath使用路径表达式在XML文档中选取节点。节点是通过沿着路径来选取的,通过路径可以找到我们想要的节点或者节点范围。

Xpath节点

1.2 Xpath谓语(Predicates)

谓语用来查找某个特定的节点或者包含某个指定的值的节点。

Xpath谓语(Predicates)

1.3 Xpath通配符

XPath 通配符可用来选取未知的 XML 元素,通配指定节点。

Xpath通配符

以上列取了Xpath的基本语法结构,关于Xpath的语法详细学习,大家可以到如下地址学习:w3school.com.cn/xpath/

2. 下期预告

OK,我们后期会按照XPath与BeautifulSoup两条路线代码,来接着我们的爬虫工程。

这篇关于Scrapy(四):selectors 选择器的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/637192

相关文章

css选择器和xpath选择器在线转换器

具体前往:Css Selector(选择器)转Xpath在线工具

ExtMvc store不能通过xtype选择器得到的办法

store 不能通过xtype选择器得到,  init : function() {         this.control({                 'smsmenu gridpanel[name='company'] : {                                         render:function(grid,opts){

SFC CSS 功能:深层选择/插槽选择器/动态绑定

深层选择器​ 如果您希望样式中的选择器scoped“深入”,即影响子组件,则可以使用:deep()伪类: <style scoped>.a :deep(.b) {/* ... */}</style> 以上内容将被编译为: .a[data-v-f3f3eg9] .b {/* ... */} 提示 创建的 DOM 内容v-html不受范围样式的影响,但您仍然可以使用深

python scrapy爬虫框架 抓取BOSS直聘平台 数据可视化统计分析

使用python scrapy实现BOSS直聘数据抓取分析 前言   随着金秋九月的悄然而至,我们迎来了业界俗称的“金九银十”跳槽黄金季,周围的朋友圈中弥漫着探索新机遇的热烈氛围。然而,作为深耕技术领域的程序员群体,我们往往沉浸在代码的浩瀚宇宙中,享受着解决技术难题的乐趣,却也不经意间与职场外部的风云变幻保持了一定的距离,对行业动态或许仅有一鳞半爪的了解,甚至偶有盲区。   但正是这份对技术

前端面试:浏览器是怎样解析CSS选择器的?

浏览器解析CSS选择器的过程是一个复杂而高效的过程,涉及多个步骤。以下是浏览器解析CSS选择器的基本流程: 构建DOM树: 浏览器首先解析HTML文档,构建DOM(文档对象模型)树。DOM树是HTML元素的层次结构表示。 构建CSS规则树: 浏览器解析CSS样式表,构建CSS规则树。每个CSS规则包含选择器和相应的样式声明。 选择器匹配: 浏览器遍历DOM树中的每个节点,并将其与CSS

scrapy 编写扩展 (八)

在scrapy使用过程中,很多情况下需要根据实际需求定制自己的扩展,小到实现自己的pipelines,大到用新的scheduler替换默认的scheduler。 扩展可以按照是否需要读取crawler大致分为两种,对于不需要读取的,比如pipelines的编写,只需要实现默认的方法porcess_item。需要读取的,如scheduler的编写又存在另外的方式。 1.第一种 这种处理起来比较

scrapy 设置爬取深度 (七)

通过在settings.py中设置DEPTH_LIMIT的值可以限制爬取深度,这个深度是与start_urls中定义url的相对值。也就是相对url的深度。例如定义url为:http://www.domz.com/game/,DEPTH_LIMIT=1那么限制爬取的只能是此url下一级的网页。深度大于设置值的将被ignore。       如图:

Scrapy ——如何防止被ban 屏蔽 之策略大集合(六)

话说在尝试设置download_delay小于1,并且无任何其他防止被ban的策略之后,我终于成功的被ban了。   关于scrapy的使用可参见之前文章:   http://blog.csdn.net/u012150179/article/details/34913315 http://blog.csdn.net/u012150179/article/details/34486677

scrapy自动多网页爬取CrawlSpider类(五)

一.目的。 自动多网页爬取,这里引出CrawlSpider类,使用更简单方式实现自动爬取。   二.热身。 1.CrawlSpider (1)概念与作用: 它是Spider的派生类,首先在说下Spider,它是所有爬虫的基类,对于它的设计原则是只爬取start_url列表中的网页,而从爬取的网页中获取link并继续爬取的工作CrawlSpider类更适合。 ࿰

Scrapy ——自动多网页爬取(抓取某人博客所有文章)(四)

首先创建project:   [python]  view plain  copy     转存失败重新上传取消<