本文主要是介绍使用Beautiful Soup解析网页,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!
3 使用Beautiful Soup解析网页
Beautiful Soup是一个可以从HTML或XML文件中提取数据的Python库。目前Beautiful Soup 3已经停止开发,大部分的爬虫选择使用Beautiful Soup 4开发。Beautiful Soup不仅支持Python标准库中的HTML解析器,还支持一些第三方的解析器,具体语法如下。
lxml解析器比较常用。
3.1 创建BeautifulSoup对象
要使用Beautiful Soup库解析网页首先需要创建BeautifulSoup对象,将字符串或HTML文件传入。
创建一个BeautifulSoup对象,使用格式如下。
BeautifulSoup("<html>data</html>") #通过字符串创建BeautifulSoup(open("index.html")) #通过HTML文件创建
import requests
from bs4 import BeautifulSoup #pip install beautifulsoup4 -i http://pypi.douban.com/simple --trusted-host pypi.douban.com#requests发送请求
rq = requests.get('http://www.tipdm.com/')
#BeautifulSoup实现网页解析
soup = BeautifulSoup(rq.text, 'lxml') #'lxml'表解析器
3.2 对象类型
3.2.1 Tag对象类型
(1)Tag对象为HTML文档中的标签,形如“<title>The Dormouse's story</title>”或“<p class="title"><b>The Dormouse's story</b></p>”等HTML标签再加上其中包含的内容便是Beautiful Soup中的Tag对象。
(2)通过Tag的名称属性可以很方便的在文档树中获取需要的Tag对象,通过该方法只能获取文档树中第一个同名的Tag对象,而通过多次调用可获取某个Tag对象下的分支Tag对象。通过find_all方法可以获取文档树中的全部同名Tag对象。
soup.head #返回head标签内容
soup.title #返回title标签内容
soup.body.li #返回的是第一个li标签
soup.find_all('li') #可返回所有li标签
type(soup.head) #bs4.element.Tag
(3)Tag有两个非常重要的属性:name和attributes。name属性可通过name方法来获取和修改,修改过后的name属性将会应用至BeautifulSoup对象生成的HTML文档。
a = soup.link
a.name #name属性返回的是标签名称
a.attrs #attrs属性返回的是该标签下面的属性和属性值
3.2.2 NavigableString对象类型
NavigableString对象为包含在Tag中的文本字符串内容,如“<title>The Dormouse‘s story</title>”中的“The Dormouse’s story”,使用string的方法获取,NavigableString对象无法被编辑,但可以使用replace_with的方法进行替换。
soup.title.string #可获取到title标签的文本内容
type(soup.title.string) #bs4.element.NavigableString
#更改标签里的文本内容
a = soup.title.string
a.replace_with('广东泰迪科技股份有限公司') #替换
soup.title.string
3.2.3 BeautifulSoup对象类型
BeautifulSoup对象表示的是一个文档的全部内容。大部分时候,可以把它当作Tag对象。 BeautifulSoup对象并不是真正的HTML或XML的tag,所以并没有tag的name和attribute属性,但其包含了一个值为“[document]”的特殊属性name。
type(soup) #bs4.BeautifulSoup
soup.name #只返回[document]值
soup.attrs #BeautifulSoup对象类型没有attribute属性
3.2.4 Comment对象类型
Tag、NavigableString、BeautifulSoup几乎覆盖了html和xml中的所有内容,但是还有一些特殊对象,文档的注释部分是最容易与Tag中的文本字符串混淆的部分。Beautiful Soup库中将文档的注释部分识别为Comment类型,Comment对象是一个特殊类型的NavigableString对象,但是当其出现在HTML文档中时,Comment对象会使用特殊的格式输出,需调用prettify方法。
markup = '<c><!--This is a markup--></b>'
markup_soup = BeautifulSoup(markup, 'lxml')
markup_soup.c.string
type(markup_soup.c.string) #bs4.element.Comment
3.3 搜索特定节点并获取其中的链接及文本
Beautiful Soup定义了很多搜索方法,其中常用的有find方法和find_all方法,两者的参数一致,区别为find_all方法的返回结果是值包含一个元素的列表,而find直接返回的是结果。find_all方法用于搜索文档树中的Tag非常方便,其语法格式如下。
BeautifulSoup.find_all(name,attrs,recursive,string,**kwargs)
find_all方法的常用参数及其说明如下。
find_all方法
(1)可通过多种参数遍历搜索文档树中符合条件的所有子节点。
(2)可通过name参数搜索同名的全部子节点,并接收多种过滤器。
(3)按照CSS类名可模糊匹配或完全匹配。完全匹配class的值时,如果CSS类名的顺序与实际不符,将搜索不到结果。
(4)若tag的class属性是多值属性,可以分别搜索tag中的每个CSS类名。
(5)通过字符串内容进行搜索符合条件的全部子节点,可通过过滤器操作。
(6)通过传入关键字参数,搜索匹配关键字的子节点。
import requests
from bs4 import BeautifulSoup #pip install beautifulsoup4#requests发送请求
rq = requests.get('http://www.tipdm.com/')
#BeautifulSoup实现网页解析
soup = BeautifulSoup(rq.text, 'lxml') #'lxml'表解析器soup.find_all('title') #返回的是列表
soup.find('title') #直接返回结果#获取标签内容,使用get_text()方法
soup.find_all('title')[0].get_text()
soup.find('title').get_text()soup.find('nav', class_="nav").find('ul', id="menu").find_all('li')[0].find('a').get_text() #class_ 这里加一个下划线是因为避免与python关键字冲突所以用一个下划线.#find、find_all方法+for循环获取导航条全部数据
a = soup.find('nav', class_="nav").find('ul', id="menu").find_all('li')
list1 = []
for i in range(8):b = a[i].find('a').get_text()list1.append(b)
find、find_all方法+for循环获取导航条全部数据思路:先定位包含你想获取的全部数据的标签,像这里就是nav标签。然后再一个标签一个标签找下来,直到找到你想获取的数据。像li标签有多个,且想都获取的话,就用find_all方法,像nav标签此处只出现一个,就可以直接用find方法。
3.4 爬虫练习requests+beautifulsoup
import requests
from bs4 import BeautifulSoupurl = 'http://www.tipdm.com/xwzx/index.jhtml'
#发送请求
rq = requests.get(url)#解析网页
soup = BeautifulSoup(rq.text, 'lxml')a = soup.find('section', id="t505").find_all('div', class_="item clearfix")
#构建空列表用于存放所有的新闻标题
all_title = []
for i in range(5):title = a[i].find('div', class_="con").find('h1').find('a').get_text() #新闻标题all_title.append(title)#构建空列表用于存放所有的新闻内容
all_content = []
for j in range(5):content = a[i].find('div', class_="con").find('div', class_="des").get_text() #新闻内容all_content.append(content)
这篇关于使用Beautiful Soup解析网页的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!