Python3网络爬虫教程15——BeautifulSoup4中的编码,格式化,解析器的区别

本文主要是介绍Python3网络爬虫教程15——BeautifulSoup4中的编码,格式化,解析器的区别,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

上接:
Python3网络爬虫教程14——BeautifulSoup4之搜索文档树
https://blog.csdn.net/u011318077/article/details/86633433

5.5. 格式化输出

  • prettify() 方法将Beautiful Soup的文档树格式化后以Unicode编码输出,

  • 每个XML/HTML标签都独占一行

  • 如下示例
    markup = ‘I linked to example.com
    soup = BeautifulSoup(markup)
    soup.prettify()
    print(soup.prettify())

      # <html>#  <head>#  </head>#  <body>#   <a href="http://example.com/">#    I linked to#    <i>#     example.com#    </i>#   </a>#  </body># </html> 
    

5.6. 解析器的区别

  • 主要的解析器,以及它们的优缺点

    Python标准库 BeautifulSoup(markup, “html.parser”)
    Python的内置标准库
    执行速度适中
    文档容错能力强
    Python 2.7.3 or 3.2.2)前 的版本中文档容错能力差

    lxml HTML 解析器 BeautifulSoup(markup, “lxml”)
    速度快
    文档容错能力强
    需要安装C语言库
    lxml XML 解析器
    BeautifulSoup(markup, [“lxml-xml”])

    BeautifulSoup(markup, “xml”)
    速度快
    唯一支持XML的解析器
    需要安装C语言库

    html5lib BeautifulSoup(markup, “html5lib”)
    最好的容错性
    以浏览器的方式解析文档
    生成HTML5格式的文档
    速度慢
    不依赖外部扩展

5.7. 编码

  • 任何HTML或XML文档都有自己的编码方式,比如ASCII 或 UTF-8,

  • 但是使用Beautiful Soup解析后,文档都被转换成了Unicode

  • 编码自动检测_ 功能大部分时候都能猜对编码格式,但有时候也会出错.

  • 有时候即使猜测正确,也是在逐个字节的遍历整个文档后才猜对的,这样很慢.

  • 如果预先知道文档编码,可以设置编码参数来减少自动检查编码出错的概率

  • 并且提高文档解析速度

  • 语法
    soup = BeautifulSoup(markup, from_encoding=“iso-8859-8”)

  • 通过Beautiful Soup输出文档时,不管输入文档是什么编码方式,

  • 输出编码均为UTF-8编码

5.8. 补充知识

  • 复制Beautiful Soup对象
  • copy.copy() 方法可以复制任意 Tag 或 NavigableString 对象
    import copy
    p_copy = copy.copy(soup.p)
    print p_copy
    #

    I want pizza and more pizza!

本章案例较多:
源代码请到GITHUB下载:
https://github.com/FangbaiZhang/TLXY_study_note/tree/master/Spider

下接:
Python3网络爬虫教程16——动态HTML(Selenium + Firefox/Chrome的使用)
https://blog.csdn.net/u011318077/article/details/86692354

这篇关于Python3网络爬虫教程15——BeautifulSoup4中的编码,格式化,解析器的区别的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1030738

相关文章

Ubuntu中远程连接Mysql数据库的详细图文教程

《Ubuntu中远程连接Mysql数据库的详细图文教程》Ubuntu是一个以桌面应用为主的Linux发行版操作系统,这篇文章主要为大家详细介绍了Ubuntu中远程连接Mysql数据库的详细图文教程,有... 目录1、版本2、检查有没有mysql2.1 查询是否安装了Mysql包2.2 查看Mysql版本2.

Linux系统配置NAT网络模式的详细步骤(附图文)

《Linux系统配置NAT网络模式的详细步骤(附图文)》本文详细指导如何在VMware环境下配置NAT网络模式,包括设置主机和虚拟机的IP地址、网关,以及针对Linux和Windows系统的具体步骤,... 目录一、配置NAT网络模式二、设置虚拟机交换机网关2.1 打开虚拟机2.2 管理员授权2.3 设置子

揭秘Python Socket网络编程的7种硬核用法

《揭秘PythonSocket网络编程的7种硬核用法》Socket不仅能做聊天室,还能干一大堆硬核操作,这篇文章就带大家看看Python网络编程的7种超实用玩法,感兴趣的小伙伴可以跟随小编一起... 目录1.端口扫描器:探测开放端口2.简易 HTTP 服务器:10 秒搭个网页3.局域网游戏:多人联机对战4.

Springboot @Autowired和@Resource的区别解析

《Springboot@Autowired和@Resource的区别解析》@Resource是JDK提供的注解,只是Spring在实现上提供了这个注解的功能支持,本文给大家介绍Springboot@... 目录【一】定义【1】@Autowired【2】@Resource【二】区别【1】包含的属性不同【2】@

Elasticsearch 在 Java 中的使用教程

《Elasticsearch在Java中的使用教程》Elasticsearch是一个分布式搜索和分析引擎,基于ApacheLucene构建,能够实现实时数据的存储、搜索、和分析,它广泛应用于全文... 目录1. Elasticsearch 简介2. 环境准备2.1 安装 Elasticsearch2.2 J

Linux系统中卸载与安装JDK的详细教程

《Linux系统中卸载与安装JDK的详细教程》本文详细介绍了如何在Linux系统中通过Xshell和Xftp工具连接与传输文件,然后进行JDK的安装与卸载,安装步骤包括连接Linux、传输JDK安装包... 目录1、卸载1.1 linux删除自带的JDK1.2 Linux上卸载自己安装的JDK2、安装2.1

Java中的String.valueOf()和toString()方法区别小结

《Java中的String.valueOf()和toString()方法区别小结》字符串操作是开发者日常编程任务中不可或缺的一部分,转换为字符串是一种常见需求,其中最常见的就是String.value... 目录String.valueOf()方法方法定义方法实现使用示例使用场景toString()方法方法

Python使用自带的base64库进行base64编码和解码

《Python使用自带的base64库进行base64编码和解码》在Python中,处理数据的编码和解码是数据传输和存储中非常普遍的需求,其中,Base64是一种常用的编码方案,本文我将详细介绍如何使... 目录引言使用python的base64库进行编码和解码编码函数解码函数Base64编码的应用场景注意

Linux卸载自带jdk并安装新jdk版本的图文教程

《Linux卸载自带jdk并安装新jdk版本的图文教程》在Linux系统中,有时需要卸载预装的OpenJDK并安装特定版本的JDK,例如JDK1.8,所以本文给大家详细介绍了Linux卸载自带jdk并... 目录Ⅰ、卸载自带jdkⅡ、安装新版jdkⅠ、卸载自带jdk1、输入命令查看旧jdkrpm -qa

分辨率三兄弟LPI、DPI 和 PPI有什么区别? 搞清分辨率的那些事儿

《分辨率三兄弟LPI、DPI和PPI有什么区别?搞清分辨率的那些事儿》分辨率这个东西,真的是让人又爱又恨,为了搞清楚它,我可是翻阅了不少资料,最后发现“小7的背包”的解释最让我茅塞顿开,于是,我... 在谈到分辨率时,我们经常会遇到三个相似的缩写:PPI、DPI 和 LPI。虽然它们看起来差不多,但实际应用