本文主要是介绍第 0008 题: 一个HTML文件,找出里面的正文。,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!
from bs4 import BeautifulSoup# with open("e:\python\wenjian\ex-2\venv\lol-第1页.html", "r", encoding="utf-8") as f:
with open("E:\python\wenjian\ex-2\html1.html", "r", encoding="utf-8") as f:# html_doc = open("E:\python\wenjian\ex-2\venv\lol-第1页.html", "r", encoding="utf-8")# 读取html文件的内容,html_note = f.read()# 使用 beautifulsoup 解析功能,解析器使用lxmlsoup = BeautifulSoup(html_note, "html.parser")# 输出标题print(soup.title)# 输出p标签的内容print(soup.p)# 输出a连接print(soup.a)# 输出body标签的内容即正文print(soup.findall("body"))# 输出整个文件print(soup.get_text)
这篇关于第 0008 题: 一个HTML文件,找出里面的正文。的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!