Python3网络爬虫教程15——BeautifulSoup4中的编码，格式化，解析器的区别

2024-06-04 18:08

文章标签 15 教程格式化网络区别爬虫编码 python3 解析器 beautifulsoup4

本文主要是介绍Python3网络爬虫教程15——BeautifulSoup4中的编码，格式化，解析器的区别，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

上接：
Python3网络爬虫教程14——BeautifulSoup4之搜索文档树
https://blog.csdn.net/u011318077/article/details/86633433

5.5. 格式化输出

prettify() 方法将Beautiful Soup的文档树格式化后以Unicode编码输出,
每个XML/HTML标签都独占一行

如下示例
markup = ‘I linked to example.com’
soup = BeautifulSoup(markup)
soup.prettify()
print(soup.prettify())

  # <html>#  <head>#  </head>#  <body>#   <a href="http://example.com/">#    I linked to#    <i>#     example.com#    </i>#   </a>#  </body># </html>

5.6. 解析器的区别

主要的解析器,以及它们的优缺点

Python标准库 BeautifulSoup(markup, “html.parser”)
Python的内置标准库
执行速度适中
文档容错能力强
Python 2.7.3 or 3.2.2)前的版本中文档容错能力差

lxml HTML 解析器 BeautifulSoup(markup, “lxml”)
速度快
文档容错能力强
需要安装C语言库
lxml XML 解析器
BeautifulSoup(markup, [“lxml-xml”])

BeautifulSoup(markup, “xml”)
速度快
唯一支持XML的解析器
需要安装C语言库

html5lib BeautifulSoup(markup, “html5lib”)
最好的容错性
以浏览器的方式解析文档
生成HTML5格式的文档
速度慢
不依赖外部扩展

5.7. 编码

任何HTML或XML文档都有自己的编码方式,比如ASCII 或 UTF-8,
但是使用Beautiful Soup解析后,文档都被转换成了Unicode
编码自动检测_ 功能大部分时候都能猜对编码格式,但有时候也会出错.
有时候即使猜测正确,也是在逐个字节的遍历整个文档后才猜对的,这样很慢.
如果预先知道文档编码,可以设置编码参数来减少自动检查编码出错的概率
并且提高文档解析速度
语法
soup = BeautifulSoup(markup, from_encoding=“iso-8859-8”)
通过Beautiful Soup输出文档时,不管输入文档是什么编码方式,
输出编码均为UTF-8编码

5.8. 补充知识

复制Beautiful Soup对象
copy.copy() 方法可以复制任意 Tag 或 NavigableString 对象
import copy
p_copy = copy.copy(soup.p)
print p_copy
#
I want pizza and more pizza!

本章案例较多：
源代码请到GITHUB下载：
https://github.com/FangbaiZhang/TLXY_study_note/tree/master/Spider

下接：
Python3网络爬虫教程16——动态HTML（Selenium + Firefox/Chrome的使用）
https://blog.csdn.net/u011318077/article/details/86692354

这篇关于Python3网络爬虫教程15——BeautifulSoup4中的编码，格式化，解析器的区别的文章就介绍到这儿，希望我们推荐的文章对编程师们有所帮助！

http://www.chinasem.cn/article/1030738。 23002807@qq.com

相关文章

Ubuntu中远程连接Mysql数据库的详细图文教程

Ubuntu中远程连接Mysql数据库的详细图文教程

《Ubuntu中远程连接Mysql数据库的详细图文教程》Ubuntu是一个以桌面应用为主的Linux发行版操作系统,这篇文章主要为大家详细介绍了Ubuntu中远程连接Mysql数据库的详细图文教程,有... 目录1、版本2、检查有没有mysql2.1 查询是否安装了Mysql包2.2 查看Mysql版本2.

阅读更多...

Linux系统配置NAT网络模式的详细步骤(附图文)

Linux系统配置NAT网络模式的详细步骤(附图文)

《Linux系统配置NAT网络模式的详细步骤(附图文)》本文详细指导如何在VMware环境下配置NAT网络模式,包括设置主机和虚拟机的IP地址、网关,以及针对Linux和Windows系统的具体步骤,... 目录一、配置NAT网络模式二、设置虚拟机交换机网关2.1 打开虚拟机2.2 管理员授权2.3 设置子

阅读更多...

揭秘Python Socket网络编程的7种硬核用法

揭秘Python Socket网络编程的7种硬核用法

《揭秘PythonSocket网络编程的7种硬核用法》Socket不仅能做聊天室,还能干一大堆硬核操作,这篇文章就带大家看看Python网络编程的7种超实用玩法,感兴趣的小伙伴可以跟随小编一起... 目录1.端口扫描器：探测开放端口2.简易 HTTP 服务器：10 秒搭个网页3.局域网游戏：多人联机对战4.

阅读更多...

Springboot @Autowired和@Resource的区别解析

Springboot @Autowired和@Resource的区别解析

《Springboot@Autowired和@Resource的区别解析》@Resource是JDK提供的注解,只是Spring在实现上提供了这个注解的功能支持,本文给大家介绍Springboot@... 目录【一】定义【1】@Autowired【2】@Resource【二】区别【1】包含的属性不同【2】@

阅读更多...

Elasticsearch 在 Java 中的使用教程

Elasticsearch 在 Java 中的使用教程

《Elasticsearch在Java中的使用教程》Elasticsearch是一个分布式搜索和分析引擎,基于ApacheLucene构建,能够实现实时数据的存储、搜索、和分析,它广泛应用于全文... 目录1. Elasticsearch 简介2. 环境准备2.1 安装 Elasticsearch2.2 J

阅读更多...

Linux系统中卸载与安装JDK的详细教程

Linux系统中卸载与安装JDK的详细教程

《Linux系统中卸载与安装JDK的详细教程》本文详细介绍了如何在Linux系统中通过Xshell和Xftp工具连接与传输文件,然后进行JDK的安装与卸载,安装步骤包括连接Linux、传输JDK安装包... 目录1、卸载1.1 linux删除自带的JDK1.2 Linux上卸载自己安装的JDK2、安装2.1

阅读更多...

Java中的String.valueOf()和toString()方法区别小结

Java中的String.valueOf()和toString()方法区别小结

《Java中的String.valueOf()和toString()方法区别小结》字符串操作是开发者日常编程任务中不可或缺的一部分,转换为字符串是一种常见需求,其中最常见的就是String.value... 目录String.valueOf()方法方法定义方法实现使用示例使用场景toString()方法方法

阅读更多...

Python使用自带的base64库进行base64编码和解码

Python使用自带的base64库进行base64编码和解码

《Python使用自带的base64库进行base64编码和解码》在Python中,处理数据的编码和解码是数据传输和存储中非常普遍的需求,其中,Base64是一种常用的编码方案,本文我将详细介绍如何使... 目录引言使用python的base64库进行编码和解码编码函数解码函数Base64编码的应用场景注意

阅读更多...

Linux卸载自带jdk并安装新jdk版本的图文教程

Linux卸载自带jdk并安装新jdk版本的图文教程

《Linux卸载自带jdk并安装新jdk版本的图文教程》在Linux系统中,有时需要卸载预装的OpenJDK并安装特定版本的JDK,例如JDK1.8,所以本文给大家详细介绍了Linux卸载自带jdk并... 目录Ⅰ、卸载自带jdkⅡ、安装新版jdkⅠ、卸载自带jdk1、输入命令查看旧jdkrpm -qa

阅读更多...

分辨率三兄弟LPI、DPI 和 PPI有什么区别? 搞清分辨率的那些事儿

分辨率三兄弟LPI、DPI 和 PPI有什么区别? 搞清分辨率的那些事儿

《分辨率三兄弟LPI、DPI和PPI有什么区别?搞清分辨率的那些事儿》分辨率这个东西，真的是让人又爱又恨,为了搞清楚它，我可是翻阅了不少资料，最后发现“小7的背包”的解释最让我茅塞顿开,于是，我... 在谈到分辨率时，我们经常会遇到三个相似的缩写：PPI、DPI 和 LPI。虽然它们看起来差不多，但实际应用

阅读更多...