网页解析 lxml 库--实战

2024-09-09 18:20
文章标签 实战 网页 解析 lxml

本文主要是介绍网页解析 lxml 库--实战,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

lxml库使用流程

lxml 是 Python 的第三方解析库,完全使用 Python 语言编写,它对 XPath表达式提供了良好的支
持,因此能够了高效地解析 HTML/XML 文档。本节讲解如何通过 lxml 库解析 HTML 文档。

pip install lxml

lxm| 库提供了一个 etree 模块,该模块专门用来解析 HTML/XML 文档,下面来介绍一下 lxml 库的使用流程,主要有 3个步骤:

1、导入模块

from lxml import etree

2、创建解析对象

调用 etree 模块的 HTML() 方法来创建 HTML 解析对象。如下所示!

parse_html = etree.HTML(html)

HTML() 方法能够将 HTML 标签字符串解析为 HTML 文件,该方法可以自动修正 HTML 文本。示例如

from lxml import etree
html_str = '''
<div><ul><li class="item1"><a href="link1.html">Python</a></li><li class="item2"><a href="link2.html">Java</a></li><li class="site1"><a href="www.youbafu.com">跟有霸夫学编程</a><li class="site2"><a href="www.baidu.com">百度</a></li><li class="site3"><a href="www.jd.com">京东</a></li></ul>
</div>'''
html = etree.HTML(html_str)
result = etree.tostring() #将标签元素转换为字符串输出,注意:result为字节类型
print(result.decode('utf-8'))

输出结果如下:

<html><body><div><ul><li class="item1"><a href="link1.html">Python</a></li><li class="item2"><a href="link2.html">Java</a></li><li class="site1"><a href="www.youbafu.com">&#36319;&#26377;&#38712;&#22827;&#23398;&#32534;&#31243;</a></li><li class="site2"><a href="www.baidu.com">&#30334;&#24230;</a></li><li class="site3"><a href="www.jd.com">&#20140;&#19996;</a></li></ul>
</div></body></html>

上述 HTML 字符串存在缺少标签的情况,比如“(语言中文网“缺少一个 闭合标签,当使用了 HTMLO)方法后,会将其自动转换为符合规范的 HTML 文档格式。

3、调用xpath表达式

最后使用第二步创建的解析对象调用 xpath() 方法,完成数据的提取,如下所示:

r_list = parse_html.xpath('xpath表达式')

lxml库提取数据

下面通过一段 HTML 代码实例演示如何使用 lxml 库提取想要的数据。HTML 代码如下所示:

<div class="wrapper"><a href="www.youbafu.com/" id="site">网站类别</a><ul id="sitename"><li><a href="http://www.youbafu.com/" title="有霸夫">编程</a></li><li><a href="http://world.sina.com/" title="新浪娱乐">微博</a></li><li><a href="http://www.baidu.com" title="百度">百度贴吧</a></li><li><a href="http://www.taobao.com" title="淘宝">天猫淘宝</a></li><li><a href="http://www.jd.com/" title="京东">京东购物</a></li><li><a href="http://www.360.com" title="360科技">安全卫士</a></li><li><a href="http://www.bytesjump.com/" title=字节">视频娱乐</a></li><li><a href="http://bzhan.com/" title="b站">年轻娱乐</a></li><li><a href="http://hao123.com/" title="浏览器">搜索引擎</a></li></ul>
</div>

提取所有a标签的文本

from lxml import etree
# 创建解析对象
parse_html = etree.HTML(html) # 书写xpath表达式,提取文本最终使用text()
xpath_bds = '//a/text()' # 提取文本数据,以列表形式输出
r_list = parse_html.xpath(xpath_bds) # 打印数据列表
print(r_list)

输出结果:

['网站类别', '编程', '微博', '百度贴吧', '天猫淘宝', '京东购物', '安全卫士', '视频娱乐', '年
轻娱乐', '搜索引擎']

获取所有href的属性值

这里接上面的代码,不同的地方就是xpath的表达式不一样。

xpath_bds = '//a/@href' # 书写xpath表达式,提取文本最终使用text()
r_list = parse_html.xpath(xpath_bds) # 提取文本数据,以列表形式输出
print(r_list) # 打印数据列表

输出结果:

['www.youbafu.com/', 'http://www.youbafu.com/', 'http://world.sina.com/',
'http://www.baidu.com', 'http://www.taobao.com', 'http://www.jd.com/',
'http://www.360.com', 'http://www.bytesjump.com/', 'http://bzhan.com/',
'http://hao123.com/']

匹配指定内容

# 书写xpath表达式,提取文本最终使用text()
xpath_bds='//ul[@id="sitename"]/li/a[@title="有霸夫"]/@href'
r_list = parse_html.xpath(xpath_bds) # 提取文本数据,以列表形式输出
print(r_list) # 打印数据列表

输出结果:

['http://www.youbafu.com/']

XPath入门

在编写爬虫程序的过程中提取信息是非常重要的环节,但是有时使用正则表达式无法匹配到想要的信息,或者书写起来非常麻烦,此时就需要用另外一种数据解析方法,也就是本节要学习的 XPath表达式。

XPath表达式

XPath(全称:XML Path Language)即 XML 路径语言,它是一门在 XML 文档中查找信息的语言,最初被用来搜寻 XML 文档,同时它也适用于搜索 HTML 文档。因此,在爬虫过程中可以使用 XPath来提取相应的数据。
提示:XML 是一种遵守 W3C 标椎的标记语言,类似于 HTML,但两者的设计目的是不同,XML
通常被用来传输和存储数据,而 HTML 常用来显示数据。

您可以将 XPath理解为在 XML/HTML 文档中检索、匹配元素节点的工具。
XPath使用路径表达式来选取 XML/HTML 文档中的节点或者节点集。XPath的功能十分强大,它除了提供了简洁的路径表达式外,还提供了100 多个内建函数,包括了处理字符串、数值、日期以及时间的函数。因此 XPath路径表达式几乎可以匹配所有的元素节点。
Python 第三方解析库 lxml 对 XPath路径表达式提供了良好的支持,能够解析 XML 与 HTML 文档。

XPath节点

XPath提供了多种类型的节点,常用的节点有:元素、属性、文本、注释以及文档节点。如下所示:

<?xml version="1.0" encoding="utf-8"?>
<website>
        <site><title lang="zh-CN">website name</title>
                <name>跟有霸夫学编程</name>
                <year>2022</year>
                <address>www.youbafu.com</address>
        </site>
</website>

上面的 XML 文档中的节点例子:

<website></website> (文档节点)
<name></name> (元素节点)
lang="zh-CN" (属性节点)

节点关系

XML 文档的节点关系和 HTML 文档相似,同样有父、子、同代、先辈、后代节点。如下所示:

<?xml version="1.0" encoding="utf-8"?>
<website>
        <site><title lang="zh-CN">website name</title>
                <name>跟有霸夫学编程</name>
                <year>2022</year>
                <address>www.youbafu.com</address>
        </site>
</website>

上述示例分析后,会得到如下结果:

XPath使用路径表达式在文档中选取节点,下表列出了常用的表达式规则:
下面以下述代码为例讲解 XPath表达式的基本应用,代码如下所示:
路径表达式以及相应的匹配内容如下:
title name year address 都是 site 的子节点
site 是 title name year address 父节点
title name year address 属于同代节点
title 元素的先辈节点是 site website
website 的后代节点是 site title name year address

XPath基本语法

1) 基本语法使用

XPath使用路径表达式在文档中选取节点,下表列出了常用的表达式规则:

下面以下述代码为例讲解 XPath表达式的基本应用,代码如下所示:

<ul class="BookList">
        <li class="book1" id="book_01" href="http://www.youbafu.com/c"><p
class="name">c语言小白入门到小怪兽</p>
                <p class="model">纸质书</p>
                <p class="price">80元</p>
                <p class="color">红蓝色封装</p></li>
        <li class="book2" id="book_02" href="http://www.youbafu.com/python"><p
class="name">Python入门到精通</p>
                <p class="model">电子书</p>
                <p class="price">45元</p>
                <p class="color">蓝绿色封装</p></li>
</ul>

路径表达式以及相应的匹配内容如下

xpath表达式://li
匹配内容:
c语言小白入门到小怪兽
纸质书
80元
红蓝色封装

Python入门到精通
电子书
45元
蓝绿色封装


xpath表达式://li/p[@class="name"]
匹配内容:
c语言小白入门到小怪兽
Python入门到精通


xpath表达式://li/p[@class="model"]
匹配内容:
纸质书
电子书


xpath表达式://ul/li/@href
匹配内容:
http://www.youbafu.com/c
http://www.youbafu.com/python


xpath表达式://ul/li
匹配内容:
c语言小白入门到小怪兽
纸质书
80元
红蓝色封装
Python入门到精通
电子书
45元
蓝绿色封装

注意:当需要查找某个特定的节点或者选取节点中包含的指定值时需要使用[]方括号。如下所示

xpath表达式://ul/li[@class="book2"]/p[@class="price"]
匹配结果:45元

2)XPath通配符

XPath表达式的通配符可以用来选取未知的节点元素,基本语法如下:

示例如下:

xpath表达式://li/*
匹配内容:
c语言小白入门到小怪兽
纸质书
80元
红蓝色封装
Python入门到精通
电子书
45元
蓝绿色封装

3)多路径匹配

多个 XPath路径表达式可以同时使用,其语法如下:

XPath内建函数

XPath提供 100 多个内建函数,这些函数给我们提供了很多便利,比如实现文本匹配、模糊匹配、以及位置匹配等,下面介绍几个常用的内建函数。

lxml库实战

接下来我们一起来编写一个简单的爬虫程序,进一步熟悉 lxml 解析库的使用。
前面我们使用正则和BS4爬取了豆瓣电影top250,今天我们来使用lxml解析库爬取豆瓣电影top250,与前面使用的正则解析和BS4解析方式对比,来看一看你到底喜欢哪种方式。

确定信息元素结构

首先明确要抓取信息的网页元素结构,比如电影名称、主演演员、上映时间。通过简单分析可以得
知,每一部影片的信息都包含在 <li> 标签中,而每一 <li> 标签又包含在 <ol> 标签中,因此对于 li 标签而言, ol 标签是一个更大的节点,也就是它的父辈节点,如下图所示:

当一个 <li> 标签内的影片信息提取完成时,您需要使用同样的 XPath表达式提取下一影片信息,直到所有影片信息提取完成,这种方法显然很繁琐,那么有没有更好的方法呢?
当然有的,来看基准表达式。

基准表达式

因为每一个节点对象都使用相同 XPath表达式去匹配信息,所以很容易想到 for 循环。我们将 25 个
<li> 节点放入一个列表中,然后使用 for 循环的方式去遍历每一个节点对象,这样就大大提高了编码的效
率。
通过 <li> 节点的父节点 <ol> 可以同时匹配 25 个 <li> 节点,并将这些节点对象放入列表中。我们把
匹配 25个 <li> 节点的 XPath表达式称为“基准表达式”。如下所示:

xpath_bds = '//ol[@class="grid_view"]/li'

下面通过基准表达式匹配
节点对象,代码如下:

# 匹配25个li节点对象
xpath_bds = '//ol[@class="grid_view"]/li'
movie_list=parse_html.xpath(xpath_bds)

输出结果:

[<Element li at 0x364621d0>, <Element li at 0x36462180>, <Element li at
0x36462b80>, <Element li at 0x36462270>, <Element li at 0x36462770>, <Element
li at 0x36462bd0>, <Element li at 0x36462c20>, <Element li at 0x36462c70>,
<Element li at 0x36462cc0>, <Element li at 0x36462d10>, <Element li at
0x36462d60>, <Element li at 0x36462db0>, <Element li at 0x36462e00>, <Element
li at 0x36462e50>, <Element li at 0x36462ea0>, <Element li at 0x36462ef0>,
<Element li at 0x36462f40>, <Element li at 0x36462f90>, <Element li at
0x3647a040>, <Element li at 0x3647a090>, <Element li at 0x3647a0e0>, <Element
li at 0x3647a130>, <Element li at 0x3647a180>, <Element li at 0x3647a1d0>,
<Element li at 0x3647a220>]

这样虽然很方便的获取每部影片的全部信息,但是我们所要提取的目标细信息都在
标签下的中。

<li>
<div class="item">
<div>
...
</div>
<div class="info">
目标信息
</div>

我们可以将基准表达式编写的更加详细一点,可以如下

xpath_bds = '//ol[@class="grid_view"]/li/div/div[@class='info']'
movie_list=parse_html.xpath(xpath_bds)
# 这样同样可以得到25部影片的信息,而且过滤了一些干扰信息。

提取数据表达式

因为我们想要抓取的信息都包含在 <li> 节点中,接下来开始分析
节点包含的 HTML 代码,下面随意选取的一段
节点包含的影片信息,如下所示:

<div class="info">
        <div class="hd">
                <a href="https://movie.douban.com/subject/1292052/" class="">
                        <span class="title">肖申克的救赎</span>
                        <span class="title">&nbsp;/&nbsp;The Shawshank Redemption</span>
                        <span class="other">&nbsp;/&nbsp;月黑高飞(港) / 刺激1995(台)</span>
                </a>
                <span class="playable">[可播放]</span>
        </div>
        <div class="bd">
                <p class="">
                        导演: 弗兰克·德拉邦特 Frank Darabont&nbsp;&nbsp;&nbsp;主演: 蒂姆·罗宾斯 Tim Robbins /...<br>
                        1994&nbsp;/&nbsp;美国&nbsp;/&nbsp;犯罪 剧情
                </p>
                <div class="star">
                        <span class="rating5-t"></span>
                        <span class="rating_num" property="v:average">9.7</span>
                        <span property="v:best" content="10.0"></span>
                        <span>2564578人评价</span>
                </div>
                <p class="quote">
                        <span class="inq">希望让人自由。</span>
                </p>
        </div>
</div>

分析上述代码段,写出待抓取信息的 XPath表达式,如下所示

movie_list = parse_html.xpath(xpath_bds)
movies = []
# 这里 movie 表示每一个 <div class='info'>里面的元素信息
for movie in movie_list:
        title = movie.xpath('div[@class="hd"]/a/span[@class="title"]/text()')
        other = movie.xpath('div[@class="hd"]/a/span[@class="other"]/text()')
        url = movie.xpath('div[@class="hd"]/a/@href')
        m_info = movie.xpath('div[@class="bd"]/p/text()')
        rate_num =
movie.xpath('div[@class="bd"]/div[@class="star"]/span[@class="rating_num"]/text
()')
        quote = movie.xpath('div[@class="bd"]/p[@class="quote"]/span/text()')

完整程序代码

上述内容介绍了编写程序时用到的 XPath表达式,下面正式编写爬虫程序,代码如下所示:

import json
import pandas as pd
import requests
from lxml import html
import csvclass LxmlDoubanTopMovies(object):headers = {'Host': 'movie.douban.com','Origin': 'movie.douban.com','User-Agent': 'Mozilla/5.0 (Linux; Android 6.0; Nexus 5 Build/MRA58N) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/73.0.3683.103 Mobile Safari/537.36',}def __init__(self):self.baseurl = 'https://movie.douban.com/top250'self.movies = []def start_requests(self, url):r = requests.get(url, headers=self.headers)return r.contentdef parse(self, source):parse_html = html.fromstring(source)xpath_bds = '//ol[@class="grid_view"]/li/div/div[@class="info"]'movie_list = parse_html.xpath(xpath_bds)for movie in movie_list:title = movie.xpath('div[@class="hd"]/a/span[@class="title"]/text()')other = movie.xpath('div[@class="hd"]/a/span[@class="other"]/text()')url = movie.xpath('div[@class="hd"]/a/@href')m_info = movie.xpath('div[@class="bd"]/p/text()')rate_num = movie.xpath('div[@class="bd"]/div[@class="star"]/span[@class="rating_num"]/text()')quote = movie.xpath('div[@class="bd"]/p[@class="quote"]/span/text()')movie_dic = {}movie_dic["电影名称"] = ''.join(title + other).replace(u'\xa0', ' ')movie_dic["url"] = url[0] if url else ""movie_dic['导演和演员'] = m_info[0].strip().replace(u'\xa0', ' ').replace(u'\u3000', ' ') if m_info else ""mi = m_info[1].strip() if len(m_info) > 1 else ""movie_dic['发行时间'] = mi.split('/')[0].strip() if '/' in mi else ""movie_dic['地区'] = mi.split('/')[1].strip() if '/' in mi else ""movie_dic['类别'] = mi.split('/')[2].strip() if '/' in mi else ""movie_dic["评分"] = rate_num[0] if rate_num else ""movie_dic["简介"] = quote[0] if quote else ""self.movies.append(movie_dic)print(movie_dic)next_page = parse_html.xpath('//span[@class="next"]/a/@href')if next_page:next_url = self.baseurl + next_page[0]text = self.start_requests(next_url)self.parse(text)def write_json(self, result):s = json.dumps(result, indent=4, ensure_ascii=False)with open(r'data/lxml_movies.json', 'w', encoding='utf-8') as f:f.write(s)def write_csv(self, data):with open(r'data/lxml_movies.csv', 'w', encoding='utf-8') as f:w = csv.DictWriter(f, fieldnames=data[0].keys())w.writeheader()w.writerows(data)def write_excel(self, data):excel_file = pd.DataFrame(data)excel_file.to_excel(r'data/lxml_movies.xlsx', sheet_name="豆瓣电影lxml", index=False)def start(self):text = self.start_requests(self.baseurl)self.parse(text)self.write_json(self.movies)self.write_csv(self.movies)self.write_excel(self.movies)if __name__ == '__main__':db_movies = LxmlDoubanTopMovies()db_movies.start()

课程总结

本节课我们又学习了爬虫的一个新的网页解析库lxml,从网页中快速解析出想要的目标元素,熟练掌握解析库的使用技巧是必须的基础,爬虫的范围非常的广,爬虫的入门门槛很低,但是要修炼到更高的阶段,道路可不平坦,课程所限不能将爬虫的知识展开细讲,同学们有需要可以在拉拉老师的星球里和老师一起来研讨如何写出自己想要的爬虫。

课后练习

编程题
基于lxml库,编写requestImages(url)方法,url为网站地址,筛选出豆瓣电影top250(https://movi
e.douban.com/top250)第一页电影列表中的所有电影封面图片,结合爬虫(二)作业中的
download(img_url)方法,将所有电影封面图片保存到D:\images目录下。

参考思路:参考实战案例中的parse()方法,首先定位到电影封面图片列表,遍历每项图片模块,在通过xpath定位图片的链接地址,将链接地址传入download(img_url)中保存图片

这篇关于网页解析 lxml 库--实战的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1151920

相关文章

Python中的随机森林算法与实战

《Python中的随机森林算法与实战》本文详细介绍了随机森林算法,包括其原理、实现步骤、分类和回归案例,并讨论了其优点和缺点,通过面向对象编程实现了一个简单的随机森林模型,并应用于鸢尾花分类和波士顿房... 目录1、随机森林算法概述2、随机森林的原理3、实现步骤4、分类案例:使用随机森林预测鸢尾花品种4.1

使用Python实现批量访问URL并解析XML响应功能

《使用Python实现批量访问URL并解析XML响应功能》在现代Web开发和数据抓取中,批量访问URL并解析响应内容是一个常见的需求,本文将详细介绍如何使用Python实现批量访问URL并解析XML响... 目录引言1. 背景与需求2. 工具方法实现2.1 单URL访问与解析代码实现代码说明2.2 示例调用

SSID究竟是什么? WiFi网络名称及工作方式解析

《SSID究竟是什么?WiFi网络名称及工作方式解析》SID可以看作是无线网络的名称,类似于有线网络中的网络名称或者路由器的名称,在无线网络中,设备通过SSID来识别和连接到特定的无线网络... 当提到 Wi-Fi 网络时,就避不开「SSID」这个术语。简单来说,SSID 就是 Wi-Fi 网络的名称。比如

SpringCloud配置动态更新原理解析

《SpringCloud配置动态更新原理解析》在微服务架构的浩瀚星海中,服务配置的动态更新如同魔法一般,能够让应用在不重启的情况下,实时响应配置的变更,SpringCloud作为微服务架构中的佼佼者,... 目录一、SpringBoot、Cloud配置的读取二、SpringCloud配置动态刷新三、更新@R

使用Java解析JSON数据并提取特定字段的实现步骤(以提取mailNo为例)

《使用Java解析JSON数据并提取特定字段的实现步骤(以提取mailNo为例)》在现代软件开发中,处理JSON数据是一项非常常见的任务,无论是从API接口获取数据,还是将数据存储为JSON格式,解析... 目录1. 背景介绍1.1 jsON简介1.2 实际案例2. 准备工作2.1 环境搭建2.1.1 添加

Golang使用minio替代文件系统的实战教程

《Golang使用minio替代文件系统的实战教程》本文讨论项目开发中直接文件系统的限制或不足,接着介绍Minio对象存储的优势,同时给出Golang的实际示例代码,包括初始化客户端、读取minio对... 目录文件系统 vs Minio文件系统不足:对象存储:miniogolang连接Minio配置Min

Node.js 中 http 模块的深度剖析与实战应用小结

《Node.js中http模块的深度剖析与实战应用小结》本文详细介绍了Node.js中的http模块,从创建HTTP服务器、处理请求与响应,到获取请求参数,每个环节都通过代码示例进行解析,旨在帮... 目录Node.js 中 http 模块的深度剖析与实战应用一、引言二、创建 HTTP 服务器:基石搭建(一

在C#中合并和解析相对路径方式

《在C#中合并和解析相对路径方式》Path类提供了几个用于操作文件路径的静态方法,其中包括Combine方法和GetFullPath方法,Combine方法将两个路径合并在一起,但不会解析包含相对元素... 目录C#合并和解析相对路径System.IO.Path类幸运的是总结C#合并和解析相对路径对于 C

Java解析JSON的六种方案

《Java解析JSON的六种方案》这篇文章介绍了6种JSON解析方案,包括Jackson、Gson、FastJSON、JsonPath、、手动解析,分别阐述了它们的功能特点、代码示例、高级功能、优缺点... 目录前言1. 使用 Jackson:业界标配功能特点代码示例高级功能优缺点2. 使用 Gson:轻量

Java如何接收并解析HL7协议数据

《Java如何接收并解析HL7协议数据》文章主要介绍了HL7协议及其在医疗行业中的应用,详细描述了如何配置环境、接收和解析数据,以及与前端进行交互的实现方法,文章还分享了使用7Edit工具进行调试的经... 目录一、前言二、正文1、环境配置2、数据接收:HL7Monitor3、数据解析:HL7Busines