本文主要是介绍Datawhale-爬虫-Task4(学习xpath),希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!
学习内容
- XPath简介
- lxml简介
- 实例:使用xpath提取丁香园论坛的回复内容。
XPath简介
XPath 是一门在 XML 文档中查找信息的语言。XPath 用于在 XML 文档中通过元素和属性进行导航。
什么是XPath?
- XPath 使用路径表达式在 XML 文档中进行导航
- XPath 使用路径表达式来选取 XML 文档中的节点或者节点集。这些路径表达式和我们在常规的电脑文件系统中看到的表达式非常相似。
- XPath 包含一个标准函数库
- XPath 含有超过 100 个内建的函数。这些函数用于字符串值、数值、日期和时间比较、节点和 QName 处理、序列处理、逻辑值等等
- XPath 是 XSLT 中的主要元素
- XPath 是 XSLT 标准中的主要元素。如果没有 XPath 方面的知识,您就无法创建 XSLT 文档。
- XPath 是一个 W3C 标准
- XPath 于 1999 年 11 月 16 日 成为 W3C 标准。
XPath 被设计为供 XSLT、XPointer 以及其他 XML 解析软件使用。
- XPath 于 1999 年 11 月 16 日 成为 W3C 标准。
XPath节点:
在 XPath 中,有七种类型的节点:元素、属性、文本、命名空间、处理指令、注释以及文档节点(或称为根节点)
具体介绍见W3school:W3school之XPath节点
XPath语法:
XPath 使用路径表达式来选取 XML 文档中的节点或节点集。节点是通过沿着路径 (path) 或者步 (steps) 来选取的。
下表给出最有用的路径表达式:
表达式 | 描述 |
---|---|
nodename | 选取此节点的所有子节点。 |
/ | 从根节点选取。 |
// | 从匹配选择的当前节点选择文档中的节点,而不考虑它们的位置。 |
. | 选取当前节点。 |
.. | 选取当前节点的父节点。 |
@ | 选取属性。 |
具体实例及用法见:W3school之XP
这篇关于Datawhale-爬虫-Task4(学习xpath)的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!