Python基础12-爬虫抓取网页内容

本文主要是介绍Python基础12-爬虫抓取网页内容，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

在本文中，我们将学习如何使用 Python 的 requests 和 BeautifulSoup 库进行网页抓取。我们将从基本的网页请求开始，逐步扩展到更高级的主题，如处理分页、AJAX 请求、正则表达式和异步抓取。

1. 使用 requests 获取网页

要检索网页的内容，我们可以使用 requests 库。以下是一个简单的示例：

import requestsurl = 'https://example.com'
response = requests.get(url)
html = response.text

2. 使用 BeautifulSoup 解析 HTML

要解析 HTML 并提取数据，我们可以使用 BeautifulSoup 库。以下是一个简单的示例：

from bs4 import BeautifulSoupsoup = BeautifulSoup(html, 'html.parser')
print(soup.prettify())  # 美观地打印 HTML

3. HTML 树导航

要使用标签查找元素，我们可以使用 BeautifulSoup 的方法。以下是一个简单的示例：

title = soup.title.text  # 获取页面标题
headings = soup.find_all('h1')  # 列出所有 <h1> 标签

4. 使用 CSS 选择器

要使用 CSS 选择器选择元素，我们可以使用 BeautifulSoup 的 select 方法。以下是一个简单的示例：

articles = soup.select('div.article')  # 所有具有类 'article' 的 <div> 元素

5. 从标签中提取数据

要从 HTML 元素中提取文本和属性，我们可以使用 BeautifulSoup 的方法。以下是一个简单的示例：

for article in articles:title = article.h2.text  # 获取 <h2> 标签内的文本link = article.a['href']  # 获取 <a> 标签的 'href' 属性print(title, link)

6. 处理相对 URL

要将相对 URL 转换为绝对 URL，我们可以使用 urllib.parse 库的 urljoin 函数。以下是一个简单的示例：

from urllib.parse import urljoinabsolute_urls = [urljoin(url, link) for link in relative_urls]

7. 处理分页

要跨多个页面抓取内容，我们可以使用循环。以下是一个简单的示例：

base_url = "https://example.com/page/"
for page in range(1, 6):  # 对 5 个页面进行循环page_url = base_url + str(page)response = requests.get(page_url)# 处理每个页面的内容

8. 处理 AJAX 请求

要抓取 AJAX 请求加载的数据，我们可以找到 AJAX 请求的 URL（使用浏览器的开发者工具）并获取它。以下是一个简单的示例：

ajax_url = 'https://example.com/ajax_endpoint'
data = requests.get(ajax_url).json()  # 假设响应为 JSON

9. 在网页抓取中使用正则表达式

要使用正则表达式提取数据，我们可以使用 re 库。以下是一个简单的示例：

import reemails = re.findall(r'\b[A-Za-z0-9._%+-]+@[A-Za-z0-9.-]+\.[A-Z|a-z]{2,}\b', html)

10. 尊重 robots.txt

要检查 robots.txt 的抓取权限，我们可以使用 urllib.robotparser 库。以下是一个简单的示例：

from urllib.robotparser import RobotFileParserrp = RobotFileParser()
rp.set_url('https://example.com/robots.txt')
rp.read()
can_scrape = rp.can_fetch('*', url)

11. 使用会话和 Cookie

要维护会话并处理 cookie，我们可以使用 requests 库的 Session 类。以下是一个简单的示例：

session = requests.Session()
session.get('https://example.com/login')
session.cookies.set('key', 'value')  # 如果需要，设置 cookie
response = session.get('https://example.com/protected_page')

12. 使用浏览器自动化进行抓取（selenium 库）

要抓取 JavaScript 呈现的动态内容，我们可以使用 selenium 库。以下是一个简单的示例：

from selenium import webdriverbrowser = webdriver.Chrome()
browser.get('https://example.com')
content = browser.page_source
# 使用 BeautifulSoup 等解析和提取数据
browser.quit()

13. 网页抓取中的错误处理

要处理错误和异常，我们可以使用 try-except 语句。以下是一个简单的示例：

try:response = requests.get(url, timeout=5)response.raise_for_status()  # 为错误状态码引发错误
except requests.exceptions.RequestException as e:print(f"Error: {e}")

14. 异步网页抓取

要异步抓取网站以加快数据检索速度，我们可以使用 aiohttp 库。以下是一个简单的示例：

import aiohttp
import asyncioasync def fetch(url):async with aiohttp.ClientSession() as session:async with session.get(url) as response:return await response.text()urls = ['https://example.com/page1', 'https://example.com/page2']
loop = asyncio.get_event_loop()
pages = loop.run_until_complete(asyncio.gather(*(fetch(url) for url in urls)))

15. 数据存储（CSV、数据库）

要将抓取的数据存储在 CSV 文件或数据库中，我们可以使用 csv 库。以下是一个简单的示例：

import csvwith open('output.csv', 'w', newline='') as file:writer = csv.writer(file)writer.writerow(['Title', 'URL'])for article in articles:writer.writerow([article['title'], article['url']])

通过学习这些技巧，您将能够使用 Python 进行高效的网页抓取。请确保遵循网站的 robots.txt 规则并尊重网站所有者的意愿。

这篇关于Python基础12-爬虫抓取网页内容的文章就介绍到这儿，希望我们推荐的文章对编程师们有所帮助！

Python基础12-爬虫抓取网页内容

1. 使用 requests 获取网页

2. 使用 BeautifulSoup 解析 HTML

3. HTML 树导航

4. 使用 CSS 选择器

5. 从标签中提取数据

6. 处理相对 URL

7. 处理分页

8. 处理 AJAX 请求

9. 在网页抓取中使用正则表达式

10. 尊重 robots.txt

11. 使用会话和 Cookie

12. 使用浏览器自动化进行抓取（selenium 库）

13. 网页抓取中的错误处理

14. 异步网页抓取

15. 数据存储（CSV、数据库）

相关文章

一文带你搞懂Python中init.py到底是什么

使用Python实现图像LBP特征提取的操作方法

Python中init方法使用的深度解析

Python实现特殊字符判断并去掉非字母和数字的特殊字符

python中各种常见文件的读写操作与类型转换详细指南

使用Python实现一个优雅的异步定时器

基于Python实现读取嵌套压缩包下文件的方法

Python处理函数调用超时的四种方法

Python实现word文档内容智能提取以及合成

Python结合PyWebView库打造跨平台桌面应用