python-14(BS4解析网页)

2024-05-27 20:52
文章标签 python 网页 解析 14 bs4

本文主要是介绍python-14(BS4解析网页),希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

目录

课前案例

Beautiful Soup

什么是Beautiful Soup

解析器

安装与配置

快速入门

解析数据

标签

属性

标签内容

遍历文档树

子节点

父节点

兄弟节点

搜索文档树

find

find_all

css选择器

3.综合案例


课前案例

通过requests模块爬取指定网站中的图片并保存到本地目录中。

import re
import threading
import uuid
from pathlib import Path
import requests# 定义一个函数用于下载图片
def download(url):# 生成一个唯一的文件名,使用uuid4生成的随机UUID加上.jpg后缀filename = str(uuid.uuid4()) + ".jpg"# 打印一条消息,告知用户正在下载图片print(f"正在下载{filename}图片,请稍等。。。")# 创建一个文件路径对象,路径为"imgs\\"加上生成的文件名p = Path("imgs\\" + filename)# 创建一个空文件,如果文件不存在的话p.touch()# 发送GET请求到图片的URL,获取图片内容f = requests.get(url)# 将获取到的图片内容写入到之前创建的文件中p.write_bytes(f.content)# 设置爬取网页地址
resp = requests.get('http://www.deskcity.org/animals/')  # 注意:这里需要提供一个有效的URL
# 设置编码格式
resp.encoding = 'utf-8'
# 使用正则表达式查找resp.text中所有<img>标签的src属性值
rs = re.findall(r'<img src="(.*?)"', resp.text)# 创建一个线程列表用于存储所有下载线程
threads = []# 遍历从HTML中提取的图片URL列表
for url in rs:# 创建一个线程,目标是执行download函数,参数是当前的URLt = threading.Thread(target=download, args=(url,))t.start()  # 启动线程threads.append(t)  # 将线程添加到线程列表中# 等待所有线程结束
for t in threads:t.join()print('结束')

上述案例采用的是同步方式下载图片,效率太低。异步方式如下(线程):

# target为目标函数;args中传入的是download函数的参数url
threading.Thread(target=download,args=(url,)).start()

注意:args为元组格式,如果传入一个参数注意后面必须跟着一个逗号;线程配置完毕之后记得调用start方法启动线程。

Beautiful Soup

什么是Beautiful Soup

Beautiful Soup 是一个可以从HTML或XML文件中提取数据的Python库.它能够通过你喜欢的转换器实现惯用的文档导航,查找,修改文档的方式.Beautiful Soup会帮你节省数小时甚至数天的工作时间.

解析器

Beautiful Soup支持Python标准库中的HTML解析器,还支持一些第三方的解析器:

解析器使用方法优势劣势
Python标准库BeautifulSoup(markup, "html.parser")Python的内置标准库执行速度适中文档容错能力强Python 2.7.3 or 3.2.2)前 的版本中文档容错能力差
lxml HTML 解析器BeautifulSoup(markup, "lxml")速度快文档容错能力强需要安装C语言库
lxml XML 解析器BeautifulSoup(markup, ["lxml-xml"])``BeautifulSoup(markup, "xml")速度快唯一支持XML的解析器需要安装C语言库
html5libBeautifulSoup(markup, "html5lib")最好的容错性以浏览器的方式解析文档生成HTML5格式的文档速度慢不依赖外部扩展

安装与配置

# 安装requests模块
pip install requests==2.10.0
# 安装beautiful soup4
pip install bs4
# 安装lxml解析器
pip install lxml

快速入门

将课件资料中的index.html文件复制到python项目中即可。

解析数据

标签

每个tag都有自己的名字,通过soup.name来获取标签。

# 获取p标签
p = soup.p
print(p)
# 获取title标签
title = soup.title
print(title)

注意:如果有多个相同的标签,则会返回第一个。

属性

一个标签可能有很多个属性。例如:标签 <b class="boldest"> 有一个 class 的属性,值为 boldest 。标签的属性的操作方法与字典相同。

  • 获取指定标签的单一属性,类似字典方式

# 获取p标签的class属性
attrs = soup.p["class"]
print(attrs)

注意:最常见的多值的属性是 class (一个标签可以有多个CSSclass). 还有一些属性 rel , rev , accept-charset , headers , accesskey . 在Beautiful Soup中多值属性的返回类型是list

  • 获取指定标签的单一属性,通过attrs方式

# 通过attrs获取p标签的id属性
id_ = soup.p.attrs["id"]
print(id_)

  • 获取指定标签的所有属性:

# 获取指定标签的所有属性
p_attrs = soup.p.attrs
print(p_attrs)

标签内容

通过.text.string获取标签节点的内容,也可以通过.strings获取标签节点下的所有内容。

# 获取单个标签的内容
text = soup.p.text
print(text)
print(soup.p.string)
# 获取该标签下所有的内容,返回generator生成器
strings = soup.div.strings
for st in strings:print(st)

关于解析标签的使用

from bs4 import BeautifulSoup
html_doc = """
<html>
<head><title>title</title></head>
<body><div><p class="aa" id="username">hello world</p><p>hello python</p><p>hello girl</p><input class="aa" type="text" value="hehe"/></div>
</body>
</html>
"""
# 解析文档
soup = BeautifulSoup(html_doc,'lxml')
# 获取p标签
p = soup.p
print(p)
# 获取title标签
title = soup.title
print(title)
# 逐级获取
pp = soup.body.div.input
print('逐级获取',pp)# 中括号的访问形式
# 获取标签某属性值
p_class = pp['type']
print(p_class)# attrs的访问方式
# 获取标签某属性值
id_ = soup.p.attrs["id"]
print(id_)
# 查看某标签的所有属性及值
attrs = p.attrs
print(attrs)
for k,v in attrs.items():print(k,v)
# 标签内容
print('div.text',soup.div.text)
print('div.string',soup.div.string)strings = soup.div.strings
print(strings)
for st in strings:print('st',st)

遍历文档树

子节点

标签小技巧获取层级子节点:

# tag小技巧获取层级子节点
print(soup.body.div.p)

.contents:将标签的子节点以列表的方式输出

# 获取div标签下的所有子节点
print(soup.body.div.contents)
# 获取div标签下的第二个子节点
print(soup.body.div.contents[1])
# 获取div标签下的第二个子节点的标签名
print(soup.body.div.contents[1].name)
# 获取div标签下的第二个子节点的所有属性
print(soup.body.div.contents[1].attrs)

.children:对标签的子节点进行循环

# 获取div下的的子节点
children = soup.body.div.children
print(children)
# 循环打印节点信息
for child in children:print(child)

.descendants:对所有标签的子孙节点进行递归循环

descendants = soup.body.descendants
for des in descendants:print(des)

更多内容请查看官网子节点。

from bs4 import BeautifulSoup
html_doc = """
<html>
<head><title>title</title></head>
<body><div><p class="aa" id="username">hello world<p>123</p></p><p>hello python</p><p>hello girl</p><input class="aa" type="text" value="hehe"/></div>
</body>
</html>
"""
# 解析文档
soup = BeautifulSoup(html_doc,'lxml')
# 获取div标签下的所有子节点
print(soup.div.contents)
# 获取div标签下的第二个子节点
print(soup.body.div.contents[1])
# 获取div标签下的第二个子节点的标签名
print(soup.body.div.contents[1].name)
# 获取div标签下的第二个子节点的所有属性
print(soup.body.div.contents[1].attrs)
# `.children`:对标签的子节点进行循环
for s in soup.div.children:print('s',s)
# `.descendants`:对所有标签的子孙节点进行递归循环
descendants = soup.div.descendants
for des in descendants:print('对所有标签的子孙节点进行递归循环',des)
父节点

.parent:获取某个元素的父节点

print(soup.p.parent)

.parents:递归得到元素的所有父辈节点

parents = soup.p.parents
for p in parents:print(p)

更多内容请查看官网父节点。

from bs4 import BeautifulSoup
html_doc = """
<html>
<head><title>title</title></head>
<body><div><p class="aa" id="username">hello world</p><p>hello python</p><p>hello girl</p><input class="aa" type="text" value="hehe"/></div>
</body>
</html>
"""
# 解析文档
soup = BeautifulSoup(html_doc,'lxml')
# `.parent`:获取某个元素的父节点
print(soup.p.parent,'\n')
# `.parents`:递归得到元素的所有父辈节点
parents = soup.p.parents
for p in parents:print(p)
兄弟节点

.next_sibling:获取下级单个兄弟节点

print(soup.p.next_sibling.next_sibling)

.previous_sibling:获取上级单个兄弟节点

print(soup.body.previous_sibling.previous_sibling)

注意:在使用.next_sibling.previous_sibling获取单个兄弟节点时,兄弟节点之间存在顿号和换行符的可能!!!

更多内容请查看官网兄弟节点。

from bs4 import BeautifulSoup
html_doc = """
<html>
<head><title>title</title></head>
<body><div><p class="aa" id="username">hello world<p>123</p></p><p>hello python</p><p>hello girl</p><input class="aa" type="text" value="hehe"/></div>
</body>
</html> 
"""
# 解析文档
soup = BeautifulSoup(html_doc,'lxml')
# 格式化文档
# print(soup.prettify())
# 获取下级单个兄弟标签
xd = soup.p.next_sibling
print(xd)
# `.previous_sibling`:获取上级单个兄弟节点
md = soup.p.previous_sibling
print(md)

搜索文档树

find

find方法,语法格式如下:

find( name , attrs , recursive , string , **kwargs )

参数说明:

参数说明
name需要查找的标签名,可以是字符串、正则表达式、列表或True
attrs需要查找的标签的属性,可以是字典类型或关键字参数
recursive是否递归地搜索子标签,默认为True,即会搜索所有子孙标签
string需要查找的标签中包含的文本内容
kwargs其他属性条件

通过find方法搜索指定的标签。

print(soup.find('p', class_="aa"))
print(soup.find('p', class_="aa", id="username"))

注意:class类样式的处理。

True 可以匹配任何值,如下示例返回第一个节点:

print(soup.find(True))

更多内容请查看官网。

find_all

find_all()方法的基本语法如下:

find_all(name=None, attrs={}, recursive=True, text=None, limit=None, **kwargs)

参数说明:

参数说明
name需要查找的标签名,可以是字符串、正则表达式、列表或True
attrs需要查找的标签的属性,可以是字典类型或关键字参数
recursive是否递归地搜索子标签,默认为True,即会搜索所有子孙标签
text需要查找的标签中包含的文本内容
limit限制返回的结果数量,可以传入一个整数值

返回值:

  • 如果找到满足条件的元素,则返回一个包含这些元素的列表。

  • 如果未找到满足条件的元素,则返回一个空列表。

find_add方法搜索当前标签下所有子节点,并判断是否符合过滤器的条件。

all = soup.find_all('p')
for a in all:print(a)
print(soup.find_all(["p", "input"]))

更多内容请查看官网。

from bs4 import BeautifulSoup
html_doc = """
<html>
<head><title>title</title></head>
<body><div><p class="aa" id="username">hello world<p>mmmm</p></p><p class="aa" id="pa">hello world</p><p>hello python</p><p>hello girl</p><input class="aa" type="text" value="hehe"/></div>
</body>
</html>
"""
soup = BeautifulSoup(html_doc,'lxml')
# find和find_all的区别:
# find:查一个
# find_all:查多个# # 标签查找(返回列表格式)
# ps = soup.find_all(['p','input'])
# print(ps)
# # 根据属性查找
# pr = soup.find_all(class_='aa')
# print(pr)
#
# print(soup.find(attrs={"value":"hehe"}))
css选择器

Beautiful Soup支持大部分的CSS选择器。在 TagBeautifulSoup 对象的 .select() 方法中传入字符串参数, 即可使用CSS选择器的语法找到标签:

print(soup.select("title"))
print(soup.select("body div"))
print(soup.select("p.aa"))
from bs4 import BeautifulSouphtml_doc = """
<html>
<head><title>title</title></head>
<body><div><p class="aa" id="username">hello world<p id ='e'>mmmm</p></p><p class="aa" id="pa">hello world</p><p>hello python</p><p>hello girl</p><input class="aa" type="text" value="hehe"/></div>
</body>
</html>
"""
# 解析文档
soup = BeautifulSoup(html_doc,'lxml')
# CSS查询
# 类名
print(soup.div.select(".aa"))
# id
print(soup.select('#pa'))
#p标签中类名为aa
print(soup.select('p.aa'))
#div标签中的p标签
print(soup.select('div p'))
#获取属性值(id的值)
print(soup.select('.aa')[0].get("id"))

3.综合案例

通过requestsBeautiful Soup4模块结合实现小说网站内容爬虫案例。

import requests   # 导入requests模块,用于发送网络请求
from bs4 import BeautifulSoup   # 导入BeautifulSoup模块,用于解析HTML文档# 发送GET请求到指定的URL
resp = equests.get('https://www.readnovel.com/chapter/22376031000468402/96104372900365392')
# 获取网页文档
soup = BeautifulSoup(resp.text, 'lxml')  # 使用lxml解析器解析响应的文本内容for i in range(3):  # 循环3次,用于爬取前三章的数据print(f'正在爬取{i + 1}章数据')  # 打印当前正在爬取的章节编号with open("庆余年", "a+", encoding="utf-8") as fp:  # 以追加模式打开文件"庆余年",编码为utf-8title = soup.find(class_='j_chapterName')  # 查找具有'class_='j_chapterName'的元素fp.write(title.string + "\n")  # 将找到的章节标题写入文件,后面跟一个换行符strings = soup.select('.ywskythunderfont')[0].strings  # 选择具有'class_='ywskythunderfont'的元素,并获取其文本内容for line in list(strings)[0:-1]:  # 遍历字符串列表,跳过最后一个元素(通常是章节结束标记)fp.write(line + "\n")  # 将每一行内容写入文件,后面跟一个换行符# 下一章href = "小说阅读网" + soup.select('#j_chapterNext')[0]['href']  # 获取下一章的链接地址resp = requests.get(href)  # 发送GET请求到下一章的链接地址soup = BeautifulSoup(resp.text, 'lxml')  # 使用lxml解析器解析响应的文本内容

这篇关于python-14(BS4解析网页)的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1008570

相关文章

使用Java解析JSON数据并提取特定字段的实现步骤(以提取mailNo为例)

《使用Java解析JSON数据并提取特定字段的实现步骤(以提取mailNo为例)》在现代软件开发中,处理JSON数据是一项非常常见的任务,无论是从API接口获取数据,还是将数据存储为JSON格式,解析... 目录1. 背景介绍1.1 jsON简介1.2 实际案例2. 准备工作2.1 环境搭建2.1.1 添加

使用Python绘制蛇年春节祝福艺术图

《使用Python绘制蛇年春节祝福艺术图》:本文主要介绍如何使用Python的Matplotlib库绘制一幅富有创意的“蛇年有福”艺术图,这幅图结合了数字,蛇形,花朵等装饰,需要的可以参考下... 目录1. 绘图的基本概念2. 准备工作3. 实现代码解析3.1 设置绘图画布3.2 绘制数字“2025”3.3

python使用watchdog实现文件资源监控

《python使用watchdog实现文件资源监控》watchdog支持跨平台文件资源监控,可以检测指定文件夹下文件及文件夹变动,下面我们来看看Python如何使用watchdog实现文件资源监控吧... python文件监控库watchdogs简介随着Python在各种应用领域中的广泛使用,其生态环境也

Python中构建终端应用界面利器Blessed模块的使用

《Python中构建终端应用界面利器Blessed模块的使用》Blessed库作为一个轻量级且功能强大的解决方案,开始在开发者中赢得口碑,今天,我们就一起来探索一下它是如何让终端UI开发变得轻松而高... 目录一、安装与配置:简单、快速、无障碍二、基本功能:从彩色文本到动态交互1. 显示基本内容2. 创建链

Java调用Python代码的几种方法小结

《Java调用Python代码的几种方法小结》Python语言有丰富的系统管理、数据处理、统计类软件包,因此从java应用中调用Python代码的需求很常见、实用,本文介绍几种方法从java调用Pyt... 目录引言Java core使用ProcessBuilder使用Java脚本引擎总结引言python

python 字典d[k]中key不存在的解决方案

《python字典d[k]中key不存在的解决方案》本文主要介绍了在Python中处理字典键不存在时获取默认值的两种方法,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,... 目录defaultdict:处理找不到的键的一个选择特殊方法__missing__有时候为了方便起见,

使用Python绘制可爱的招财猫

《使用Python绘制可爱的招财猫》招财猫,也被称为“幸运猫”,是一种象征财富和好运的吉祥物,经常出现在亚洲文化的商店、餐厅和家庭中,今天,我将带你用Python和matplotlib库从零开始绘制一... 目录1. 为什么选择用 python 绘制?2. 绘图的基本概念3. 实现代码解析3.1 设置绘图画

Python pyinstaller实现图形化打包工具

《Pythonpyinstaller实现图形化打包工具》:本文主要介绍一个使用PythonPYQT5制作的关于pyinstaller打包工具,代替传统的cmd黑窗口模式打包页面,实现更快捷方便的... 目录1.简介2.运行效果3.相关源码1.简介一个使用python PYQT5制作的关于pyinstall

使用Python实现大文件切片上传及断点续传的方法

《使用Python实现大文件切片上传及断点续传的方法》本文介绍了使用Python实现大文件切片上传及断点续传的方法,包括功能模块划分(获取上传文件接口状态、临时文件夹状态信息、切片上传、切片合并)、整... 目录概要整体架构流程技术细节获取上传文件状态接口获取临时文件夹状态信息接口切片上传功能文件合并功能小

python实现自动登录12306自动抢票功能

《python实现自动登录12306自动抢票功能》随着互联网技术的发展,越来越多的人选择通过网络平台购票,特别是在中国,12306作为官方火车票预订平台,承担了巨大的访问量,对于热门线路或者节假日出行... 目录一、遇到的问题?二、改进三、进阶–展望总结一、遇到的问题?1.url-正确的表头:就是首先ur