【小白必看】Python爬取NBA球员数据示例

2023-11-01 12:10

本文主要是介绍【小白必看】Python爬取NBA球员数据示例,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

文章目录

  • 前言
  • 导入需要的库和模块
  • 设置请求头和请求地址
  • 发送HTTP请求并获取响应
  • 处理响应结果
  • 解析数据
  • 将结果保存到文件
  • 完整代码
    • 详细解析
  • 运行效果
  • 结束语

在这里插入图片描述

前言

使用 Python 爬取 NBA 球员数据的示例代码。通过发送 HTTP 请求,解析 HTML 页面,然后提取出需要的排名、姓名、球队和得分信息,并将结果保存到文件中。

导入需要的库和模块

在这里插入图片描述

import requests
from lxml import etree
  • 使用requests库发送HTTP请求。
  • 使用lxml库进行HTML解析。

设置请求头和请求地址

在这里插入图片描述

url = 'https://nba.hupu.com/stats/players'
headers ={'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/78.0.3904.70 Safari/537.36'
}
  • 设置请求头信息,包括用户代理(User-Agent)。
  • 设置请求的地址为’https://nba.hupu.com/stats/players’。

发送HTTP请求并获取响应

在这里插入图片描述

resp = requests.get(url, headers=headers)
  • 使用requests库发送HTTP GET请求,并传入请求地址和请求头信息。
  • 将返回的响应保存在变量resp中。

处理响应结果

在这里插入图片描述

e = etree.HTML(resp.text)
  • 使用etree.HTML函数将返回的响应文本解析为一个可操作的HTML元素树对象。
  • 将解析后的结果保存在变量e中。

解析数据

在这里插入图片描述

nos = e.xpath('//table[@class="players_table"]//tr/td[1]/text()')
names = e.xpath('//table[@class="players_table"]//tr/td[2]/a/text()')
teams = e.xpath('//table[@class="players_table"]//tr/td[3]/a/text()')
scores = e.xpath('//table[@class="players_table"]//tr/td[4]/text()')
  • 使用XPath表达式从HTML元素树中提取需要的数据。
  • 分别将排名(nos)、姓名(names)、球队(teams)和得分(scores)保存在对应的变量中。

将结果保存到文件

with open('nba.txt', 'w', encoding='utf-8') as f:for no, name, team, score in zip(nos, names, teams, scores):f.write(f'排名:{no} 姓名:{name}  球队:{team} 得分:{score}\n')
  • 打开一个文件nba.txt,以写入模式(‘w’)进行操作,编码方式为UTF-8。
  • 使用zip函数同时遍历排名、姓名、球队和得分,将它们合并成一个元组。
  • 将每一行的数据按照指定格式写入文件中。

完整代码

# 引入 requests 库,用于发送 HTTP 请求
import requests
# 引入 lxml 库,用于解析 HTML
from lxml import etree# 设置请求的地址
url = 'https://nba.hupu.com/stats/players'
# 设置请求头信息,包括用户代理(User-Agent)
headers ={ 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/78.0.3904.70 Safari/537.36'
}# 发送HTTP GET请求,并传入请求地址和请求头信息,将返回的响应保存在变量resp中
resp = requests.get(url, headers=headers)# 使用etree.HTML函数将返回的响应文本解析为一个可操作的HTML元素树对象
e = etree.HTML(resp.text)# 使用XPath表达式从HTML元素树中提取需要的数据
nos = e.xpath('//table[@class="players_table"]//tr/td[1]/text()')
names = e.xpath('//table[@class="players_table"]//tr/td[2]/a/text()')
teams = e.xpath('//table[@class="players_table"]//tr/td[3]/a/text()')
scores = e.xpath('//table[@class="players_table"]//tr/td[4]/text()')# 打开一个文件`nba.txt`,以写入模式('w')进行操作,编码方式为UTF-8
with open('nba.txt', 'w', encoding='utf-8') as f:# 使用zip函数同时遍历排名、姓名、球队和得分,将它们合并成一个元组for no, name, team, score in zip(nos, names, teams, scores):# 将每一行的数据按照指定格式写入文件中f.write(f'排名:{no} 姓名:{name}  球队:{team} 得分:{score}\n')

详细解析

# pip install requests
import requests

导入 requests 库,该库用于发送 HTTP 请求。

# pip install lxml
from lxml import etree

导入 lxml 库,该库用于解析 HTML。

# 发送的地址
url = 'https://nba.hupu.com/stats/players'

设置需要发送请求的地址。

headers ={ 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/78.0.3904.70 Safari/537.36'}

设置请求头信息,包括用户代理(User-Agent)。这个信息告诉服务器我们的请求是从一个浏览器发出的,而不是爬虫,这样可以避免被反爬虫机制阻止。

# 发送请求
resp = requests.get(url,headers = headers)

使用 requests.get 方法发送 HTTP GET 请求,并传入请求地址和请求头信息。将返回的响应保存在变量 resp 中。

e = etree.HTML(resp.text)

使用 etree.HTML 函数将返回的响应文本解析为一个可操作的 HTML 元素树对象。etree.HTML 接受一个字符串类型的参数,这里使用 resp.text 来获取响应的文本内容。

nos = e.xpath('//table[@class="players_table"]//tr/td[1]/text()')
names = e.xpath('//table[@class="players_table"]//tr/td[2]/a/text()')
teams = e.xpath('//table[@class="players_table"]//tr/td[3]/a/text()')
scores = e.xpath('//table[@class="players_table"]//tr/td[4]/text()')

使用 XPath 表达式从 HTML 元素树中提取需要的数据。这里分别使用了四个 XPath 表达式来提取排名、姓名、球队和得分的数据,并将它们分别保存在 nosnamesteamsscores 变量中。

with open('nba.txt','w',encoding='utf-8') as f:for no,name,team,score in zip(nos,names,teams,scores):f.write(f'排名:{no} 姓名:{name}  球队:{team} 得分:{score}\n')

以写入模式(‘w’)打开一个名为 nba.txt 的文件,并使用 UTF-8 编码。然后,使用 zip 函数同时遍历排名、姓名、球队和得分,将它们合并成一个元组。通过循环遍历每个元组,将每行的数据按照指定格式写入文件中。

这样,代码就实现了对 NBA 球员数据进行爬取,并将结果保存到 nba.txt 文件中。

运行效果

在这里插入图片描述

结束语

通过本文的示例代码,你可以学习使用Python爬取NBA球员数据的方法。我们使用了requests库发送HTTP请求,lxml库进行HTML解析,以及XPath表达式提取需要的数据。最后将结果保存到文件中。这个示例可以帮助你了解爬虫的基本原理和操作步骤,同时也能够获取到有关NBA球员的数据。希望本文对你理解和掌握Python爬虫技术有所帮助。

这篇关于【小白必看】Python爬取NBA球员数据示例的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/322860

相关文章

Python包管理工具pip的升级指南

《Python包管理工具pip的升级指南》本文全面探讨Python包管理工具pip的升级策略,从基础升级方法到高级技巧,涵盖不同操作系统环境下的最佳实践,我们将深入分析pip的工作原理,介绍多种升级方... 目录1. 背景介绍1.1 目的和范围1.2 预期读者1.3 文档结构概述1.4 术语表1.4.1 核

SpringBoot线程池配置使用示例详解

《SpringBoot线程池配置使用示例详解》SpringBoot集成@Async注解,支持线程池参数配置(核心数、队列容量、拒绝策略等)及生命周期管理,结合监控与任务装饰器,提升异步处理效率与系统... 目录一、核心特性二、添加依赖三、参数详解四、配置线程池五、应用实践代码说明拒绝策略(Rejected

SQL中如何添加数据(常见方法及示例)

《SQL中如何添加数据(常见方法及示例)》SQL全称为StructuredQueryLanguage,是一种用于管理关系数据库的标准编程语言,下面给大家介绍SQL中如何添加数据,感兴趣的朋友一起看看吧... 目录在mysql中,有多种方法可以添加数据。以下是一些常见的方法及其示例。1. 使用INSERT I

基于Python实现一个图片拆分工具

《基于Python实现一个图片拆分工具》这篇文章主要为大家详细介绍了如何基于Python实现一个图片拆分工具,可以根据需要的行数和列数进行拆分,感兴趣的小伙伴可以跟随小编一起学习一下... 简单介绍先自己选择输入的图片,默认是输出到项目文件夹中,可以自己选择其他的文件夹,选择需要拆分的行数和列数,可以通过

Python中反转字符串的常见方法小结

《Python中反转字符串的常见方法小结》在Python中,字符串对象没有内置的反转方法,然而,在实际开发中,我们经常会遇到需要反转字符串的场景,比如处理回文字符串、文本加密等,因此,掌握如何在Pyt... 目录python中反转字符串的方法技术背景实现步骤1. 使用切片2. 使用 reversed() 函

Python中将嵌套列表扁平化的多种实现方法

《Python中将嵌套列表扁平化的多种实现方法》在Python编程中,我们常常会遇到需要将嵌套列表(即列表中包含列表)转换为一个一维的扁平列表的需求,本文将给大家介绍了多种实现这一目标的方法,需要的朋... 目录python中将嵌套列表扁平化的方法技术背景实现步骤1. 使用嵌套列表推导式2. 使用itert

使用Docker构建Python Flask程序的详细教程

《使用Docker构建PythonFlask程序的详细教程》在当今的软件开发领域,容器化技术正变得越来越流行,而Docker无疑是其中的佼佼者,本文我们就来聊聊如何使用Docker构建一个简单的Py... 目录引言一、准备工作二、创建 Flask 应用程序三、创建 dockerfile四、构建 Docker

Python使用vllm处理多模态数据的预处理技巧

《Python使用vllm处理多模态数据的预处理技巧》本文深入探讨了在Python环境下使用vLLM处理多模态数据的预处理技巧,我们将从基础概念出发,详细讲解文本、图像、音频等多模态数据的预处理方法,... 目录1. 背景介绍1.1 目的和范围1.2 预期读者1.3 文档结构概述1.4 术语表1.4.1 核

Python使用pip工具实现包自动更新的多种方法

《Python使用pip工具实现包自动更新的多种方法》本文深入探讨了使用Python的pip工具实现包自动更新的各种方法和技术,我们将从基础概念开始,逐步介绍手动更新方法、自动化脚本编写、结合CI/C... 目录1. 背景介绍1.1 目的和范围1.2 预期读者1.3 文档结构概述1.4 术语表1.4.1 核

Conda与Python venv虚拟环境的区别与使用方法详解

《Conda与Pythonvenv虚拟环境的区别与使用方法详解》随着Python社区的成长,虚拟环境的概念和技术也在不断发展,:本文主要介绍Conda与Pythonvenv虚拟环境的区别与使用... 目录前言一、Conda 与 python venv 的核心区别1. Conda 的特点2. Python v