爬虫案例5——爬取东方财富网的港股数据

2024-08-22 12:12

本文主要是介绍爬虫案例5——爬取东方财富网的港股数据,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

简介:个人学习分享,如有错误,欢迎批评指正

任务从东方财富网中爬取港股的代码,名称,最近价格,涨跌幅,今开,最高等数据

目标网页地址:https://data.eastmoney.com/bbsj/yjbb/603112.htmll

一、思路和过程

目标网页具体内容如下图:
​​​​
图1

我们的任务是将上图中港股的代码,名称,最近价格,涨跌幅,今开,最高等数据爬取下来。

1.URL和User-Agent的确定

1.1. URL确定
在这里插入图片描述

东方财富网具有一定的反爬程序,具体分析如下:
如上图,当我们切换上图框2中的页码时,上图框2里面url地址并没有变化,也就是说上图框1的URL地址作为我们的目标URL时,将得不到我们想要的图中间部分内容(代码,名称,最近价格等信息)。

怎么解决:
在这里插入图片描述
如上图,鼠标右键选择检查,进入源代码操作页面,点击框2的元素,然后点击右边的框3的三个点,选择框4的搜索,在框5中搜索框1的股票代码,框6为搜索的结果。

在这里插入图片描述

如上图,点击刚才的搜索结果框1,上面源代码部分会对框1的内容进行一个格式化展示,可以看到刚才搜索的股票代码在框2中有了一个呈现,在框2旁边的空白处点击鼠标右键,复制框3的链接地址,该地址就是包含我们想要的股票信息的正确URL地址

1.2.User-Agent确定
由于网页普遍具有反爬程序,不加修饰的直接访问网页可能会失败,所以第一步学会伪装自己。
如何伪装自己呢,可以通过找到正常访问网页时的访问状态,将自己的这次爬虫模拟成一次正常访问网页,因此我们的目标是找到正常访问网页时的User-Agent。User Agent中文名为用户代理,(简称 UA,它是一个特殊字符串头,使得服务器能够识别客户使用的操作系统及版本、CPU 类型、浏览器及版本、浏览器渲染引擎、浏览器语言、浏览器插件等)。User-Agent就是你访问网页的身份证明。具体操作如下:

如下图,首先打开目标(或任意)网页,然后点击鼠标右键后选择检查打开网页的HTML 页面。
在这里插入图片描述

如下图,在HTML 页面里面依次点击网络,然后任意点一条网络请求(如果没有显示任何网络请求可以点击网页左上角的刷新),然后选择标头,下拉列表找到User-Agent,User-Agent后面那段内容就是我们用来伪装自己的身份码。

在这里插入图片描述

2.发送GET请求获取网页内容

通过上面的步骤我们获得了
url = ‘https://34.push2.eastmoney.com/api/qt/clist/get?cb=jQuery112406894991919602407_1720001154034&pn=1&pz=20&po=1&np=1&ut=bd1d9ddb04089700cf9c27f6f7426281&fltt=2&invt=2&dect=1&wbp2u=|0|0|0|web&fid=f3&fs=m:128+t:3,m:128+t:4,m:128+t:1,m:128+t:2&fields=f1,f2,f3,f4,f5,f6,f7,f8,f9,f10,f12,f13,f14,f15,f16,f17,f18,f19,f20,f21,f23,f24,f25,f26,f22,f33,f11,f62,f128,f136,f115,f152&_=1720001154170’

User-Agent:‘Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/126.0.0.0 Safari/537.36 Edg/126.0.0.0’

接下来发起网页访问请求,代码如下:

import requests  # 引入requests库,用于发送HTTP请求
import jsonpath  # 引入jsonpath库,用于解析JSON数据
import json  # 引入json库,用于处理JSON数据
import re  # 引入re库,用于使用正则表达式
import math  # 引入math库,用于数学计算
import csv  # 引入csv库,用于CSV文件读写# 定义目标URL,获取股票数据的API接口地址
url = 'https://34.push2.eastmoney.com/api/qt/clist/get?cb=jQuery112406894991919602407_1720001154034&pn=1&pz=20&po=1&np=1&ut=bd1d9ddb04089700cf9c27f6f7426281&fltt=2&invt=2&dect=1&wbp2u=|0|0|0|web&fid=f3&fs=m:128+t:3,m:128+t:4,m:128+t:1,m:128+t:2&fields=f1,f2,f3,f4,f5,f6,f7,f8,f9,f10,f12,f13,f14,f15,f16,f17,f18,f19,f20,f21,f23,f24,f25,f26,f22,f33,f11,f62,f128,f136,f115,f152&_=1720001154170'# 定义HTTP请求头,其中包括User-Agent信息,用于伪装成浏览器进行访问
headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 5.1; U; en; rv:1.8.1) Gecko/20061208 Firefox/2.0.0 Opera 9.50'
}# 发送GET请求获取网页内容,并将响应内容解码为字符串格式
data = requests.get(url, headers=headers).content.decode()
print(data)

下图查看print结果,我们发现成功获得了网页相关的html表达,

在这里插入图片描述

3.分析网页内容

接下来对html进行解析获得我们目标内容。
这里,我们需要借助工具json.cn来辅助内容解析,

找到目标内容方法
首先,对刚才得到的结果,使用正则表达式从响应内容中提取出JSON数据,红框为解析后的数据。

# 使用正则表达式从响应内容中提取出JSON数据,'{"rc":.*}]}}'表示匹配以{"rc":开头,后面跟着任意字符,再后面跟着"}]"的字符串
json_data = re.findall('{"rc":.*}]}}', data)[0]
print(json_data)  # 打印提取出的JSON数据,检查内容是否正确

在这里插入图片描述

明确目标内容的位置。将上一步得到的JSON数据复制到json.cn中进行格式化

在这里插入图片描述

通过json.cn的可视化,我们可以清晰的看到f1、f2、f3等序号,而与之对应的则是我们需要的港股的代码,名称,最近价格,涨跌幅,今开等数据。

但是,我们发现上面只能取到单页的内容,而如下图整个网页有很多页。
在这里插入图片描述

对于上述问题,我们通过对比不同页面提取的URL,发现url地址不同的页码的url仅仅换了"pn="后面的数字,数字即对应页码。
在这里插入图片描述
首先,获取总页数,总页数在刚才获取的json格式结果中有,因此使用如下代码获取:

# 使用jsonpath从JSON数据中提取出总记录数,$..total表示从根节点开始,取出total字段的值
total = jsonpath.jsonpath(json_data, '$..total')[0]
print(json_data)  # 打印JSON数据,检查内容
print(total)  # 打印总记录数# 计算总页数,每页20条数据
page = math.ceil(total / 20)
print(page)  # 打印总页数

其次,进一步添加一个for循环来取得所有页的url地址,代码如下:

   for i in range(1, page + 1):# 构建每一页的URLnew_url = 'https://34.push2.eastmoney.com/api/qt/clist/get?cb=jQuery112406894991919602407_1720001154034&pn={}&pz=20&po=1&np=1&ut=bd1d9ddb04089700cf9c27f6f7426281&fltt=2&invt=2&dect=1&wbp2u=|0|0|0|web&fid=f3&fs=m:128+t:3,m:128+t:4,m:128+t:1,m:128+t:2&fields=f1,f2,f3,f4,f5,f6,f7,f8,f9,f10,f12,f13,f14,f15,f16,f17,f18,f19,f20,f21,f23,f24,f25,f26,f22,f33,f11,f62,f128,f136,f115,f152&_=1720001154170'.format(i)# 发送GET请求获取当前页码的网页内容,并将响应内容解码为字符串格式data = requests.get(new_url, headers=headers).content.decode()j += 1  # 更新页数计数器print('第{}页已保存'.format(j))  # 打印当前页数已保存

4.获取目标数据

上一步得到了目标数据的地址,接下来就是分别获得到目标数据,代码如下:

 # 使用正则表达式从响应内容中提取出JSON数据new_json_data = re.findall('{"rc":.*}]}}', data)[0]# 将JSON数据字符串转换为Python字典对象json_data = json.loads(new_json_data)# 依次使用jsonpath从JSON数据中提取出代码、名称、最新价、涨跌幅、今开、最高、最低、昨收、成交量、成交额等数据code = jsonpath.jsonpath(json_data, '$..f12')  # 代码name = jsonpath.jsonpath(json_data, '$..f14')  # 名称new_price = jsonpath.jsonpath(json_data, '$..f2')  # 最新价up_and_down = jsonpath.jsonpath(json_data, '$..f4')  # 涨跌幅today = jsonpath.jsonpath(json_data, '$..f17')  # 今开highest = jsonpath.jsonpath(json_data, '$..f15')  # 最高minimum = jsonpath.jsonpath(json_data, '$..f16')  # 最低yesterday = jsonpath.jsonpath(json_data, '$..f18')  # 昨收volume = jsonpath.jsonpath(json_data, '$..f5')  # 成交量(股)turnover = jsonpath.jsonpath(json_data, '$..f6')  # 成交额(港元)

5.保存数据

首先创建一个csv文件。


with open('港股.csv', 'a+', newline='', encoding='utf-8-sig') as f:writer = csv.writer(f)# 写入CSV文件的表头writer.writerow(['代码', '名称', '最新价', '涨跌幅', '今开', '最高', '最低', '昨收', '成交量(股)', '成交额(港元)'])j = 0  # 初始化页数计数器

其次,对得到的数据进行清洗和写入csv文件

# 数据清洗和写入CSV文件
for i, code in enumerate(code):try:# 检查数据是否为空(即8个字段是否都为'-')res = new_price[i] + up_and_down[i] + today[i] + highest[i] + minimum[i] + yesterday[i] + volume[i] + \turnover[i]if res == '-' * 8:continue  # 如果数据为空,则跳过该条记录# 将提取到的数据写入CSV文件writer.writerow([code, name[i], new_price[i], up_and_down[i], today[i], highest[i], minimum[i], yesterday[i],volume[i], turnover[i]])except:continue  # 如果发生异常,跳过该条记录

二、完整python代码

import requests  # 引入requests库,用于发送HTTP请求
import jsonpath  # 引入jsonpath库,用于解析JSON数据
import json  # 引入json库,用于处理JSON数据
import re  # 引入re库,用于使用正则表达式
import math  # 引入math库,用于数学计算
import csv  # 引入csv库,用于CSV文件读写# 定义目标URL,获取股票数据的API接口地址
url = 'https://34.push2.eastmoney.com/api/qt/clist/get?cb=jQuery112406894991919602407_1720001154034&pn=1&pz=20&po=1&np=1&ut=bd1d9ddb04089700cf9c27f6f7426281&fltt=2&invt=2&dect=1&wbp2u=|0|0|0|web&fid=f3&fs=m:128+t:3,m:128+t:4,m:128+t:1,m:128+t:2&fields=f1,f2,f3,f4,f5,f6,f7,f8,f9,f10,f12,f13,f14,f15,f16,f17,f18,f19,f20,f21,f23,f24,f25,f26,f22,f33,f11,f62,f128,f136,f115,f152&_=1720001154170'# 定义HTTP请求头,其中包括User-Agent信息,用于伪装成浏览器进行访问
headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 5.1; U; en; rv:1.8.1) Gecko/20061208 Firefox/2.0.0 Opera 9.50'
}# 发送GET请求获取网页内容,并将响应内容解码为字符串格式
data = requests.get(url, headers=headers).content.decode()
print(data)
# 使用正则表达式从响应内容中提取出JSON数据,'{"rc":.*}]}}'表示匹配以{"rc":开头,后面跟着任意字符,再后面跟着"}]"的字符串
json_data = re.findall('{"rc":.*}]}}', data)[0]
print(json_data)  # 打印提取出的JSON数据,检查内容是否正确# 将JSON数据字符串转换为Python字典对象
json_data = json.loads(json_data)# 使用jsonpath从JSON数据中提取出总记录数,$..total表示从根节点开始,取出total字段的值
total = jsonpath.jsonpath(json_data, '$..total')[0]
print(json_data)  # 打印JSON数据,检查内容
print(total)  # 打印总记录数# 计算总页数,每页20条数据
page = math.ceil(total / 20)
print(page)  # 打印总页数# 打开一个CSV文件,准备写入数据。 a+
with open('港股.csv', 'a+', newline='', encoding='utf-8-sig') as f:writer = csv.writer(f)# 写入CSV文件的表头writer.writerow(['代码', '名称', '最新价', '涨跌幅', '今开', '最高', '最低', '昨收', '成交量(股)', '成交额(港元)'])j = 0  # 初始化页数计数器# 遍历所有页码for i in range(1, page + 1):# 构建每一页的URLnew_url = 'https://34.push2.eastmoney.com/api/qt/clist/get?cb=jQuery112406894991919602407_1720001154034&pn={}&pz=20&po=1&np=1&ut=bd1d9ddb04089700cf9c27f6f7426281&fltt=2&invt=2&dect=1&wbp2u=|0|0|0|web&fid=f3&fs=m:128+t:3,m:128+t:4,m:128+t:1,m:128+t:2&fields=f1,f2,f3,f4,f5,f6,f7,f8,f9,f10,f12,f13,f14,f15,f16,f17,f18,f19,f20,f21,f23,f24,f25,f26,f22,f33,f11,f62,f128,f136,f115,f152&_=1720001154170'.format(i)# 发送GET请求获取当前页码的网页内容,并将响应内容解码为字符串格式data = requests.get(new_url, headers=headers).content.decode()j += 1  # 更新页数计数器print('第{}页已保存'.format(j))  # 打印当前页数已保存# 使用正则表达式从响应内容中提取出JSON数据new_json_data = re.findall('{"rc":.*}]}}', data)[0]# 将JSON数据字符串转换为Python字典对象json_data = json.loads(new_json_data)# 依次使用jsonpath从JSON数据中提取出代码、名称、最新价、涨跌幅、今开、最高、最低、昨收、成交量、成交额等数据code = jsonpath.jsonpath(json_data, '$..f12')  # 代码name = jsonpath.jsonpath(json_data, '$..f14')  # 名称new_price = jsonpath.jsonpath(json_data, '$..f2')  # 最新价up_and_down = jsonpath.jsonpath(json_data, '$..f4')  # 涨跌幅today = jsonpath.jsonpath(json_data, '$..f17')  # 今开highest = jsonpath.jsonpath(json_data, '$..f15')  # 最高minimum = jsonpath.jsonpath(json_data, '$..f16')  # 最低yesterday = jsonpath.jsonpath(json_data, '$..f18')  # 昨收volume = jsonpath.jsonpath(json_data, '$..f5')  # 成交量(股)turnover = jsonpath.jsonpath(json_data, '$..f6')  # 成交额(港元)# 数据清洗和写入CSV文件for i, code in enumerate(code):try:# 检查数据是否为空(即8个字段是否都为'-')res = new_price[i] + up_and_down[i] + today[i] + highest[i] + minimum[i] + yesterday[i] + volume[i] + \turnover[i]if res == '-' * 8:continue  # 如果数据为空,则跳过该条记录# 将提取到的数据写入CSV文件writer.writerow([code, name[i], new_price[i], up_and_down[i], today[i], highest[i], minimum[i], yesterday[i],volume[i], turnover[i]])except:continue  # 如果发生异常,跳过该条记录

结~~~

这篇关于爬虫案例5——爬取东方财富网的港股数据的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1096236

相关文章

大模型研发全揭秘:客服工单数据标注的完整攻略

在人工智能(AI)领域,数据标注是模型训练过程中至关重要的一步。无论你是新手还是有经验的从业者,掌握数据标注的技术细节和常见问题的解决方案都能为你的AI项目增添不少价值。在电信运营商的客服系统中,工单数据是客户问题和解决方案的重要记录。通过对这些工单数据进行有效标注,不仅能够帮助提升客服自动化系统的智能化水平,还能优化客户服务流程,提高客户满意度。本文将详细介绍如何在电信运营商客服工单的背景下进行

基于MySQL Binlog的Elasticsearch数据同步实践

一、为什么要做 随着马蜂窝的逐渐发展,我们的业务数据越来越多,单纯使用 MySQL 已经不能满足我们的数据查询需求,例如对于商品、订单等数据的多维度检索。 使用 Elasticsearch 存储业务数据可以很好的解决我们业务中的搜索需求。而数据进行异构存储后,随之而来的就是数据同步的问题。 二、现有方法及问题 对于数据同步,我们目前的解决方案是建立数据中间表。把需要检索的业务数据,统一放到一张M

关于数据埋点,你需要了解这些基本知识

产品汪每天都在和数据打交道,你知道数据来自哪里吗? 移动app端内的用户行为数据大多来自埋点,了解一些埋点知识,能和数据分析师、技术侃大山,参与到前期的数据采集,更重要是让最终的埋点数据能为我所用,否则可怜巴巴等上几个月是常有的事。   埋点类型 根据埋点方式,可以区分为: 手动埋点半自动埋点全自动埋点 秉承“任何事物都有两面性”的道理:自动程度高的,能解决通用统计,便于统一化管理,但个性化定

Hadoop企业开发案例调优场景

需求 (1)需求:从1G数据中,统计每个单词出现次数。服务器3台,每台配置4G内存,4核CPU,4线程。 (2)需求分析: 1G / 128m = 8个MapTask;1个ReduceTask;1个mrAppMaster 平均每个节点运行10个 / 3台 ≈ 3个任务(4    3    3) HDFS参数调优 (1)修改:hadoop-env.sh export HDFS_NAMENOD

使用SecondaryNameNode恢复NameNode的数据

1)需求: NameNode进程挂了并且存储的数据也丢失了,如何恢复NameNode 此种方式恢复的数据可能存在小部分数据的丢失。 2)故障模拟 (1)kill -9 NameNode进程 [lytfly@hadoop102 current]$ kill -9 19886 (2)删除NameNode存储的数据(/opt/module/hadoop-3.1.4/data/tmp/dfs/na

异构存储(冷热数据分离)

异构存储主要解决不同的数据,存储在不同类型的硬盘中,达到最佳性能的问题。 异构存储Shell操作 (1)查看当前有哪些存储策略可以用 [lytfly@hadoop102 hadoop-3.1.4]$ hdfs storagepolicies -listPolicies (2)为指定路径(数据存储目录)设置指定的存储策略 hdfs storagepolicies -setStoragePo

Hadoop集群数据均衡之磁盘间数据均衡

生产环境,由于硬盘空间不足,往往需要增加一块硬盘。刚加载的硬盘没有数据时,可以执行磁盘数据均衡命令。(Hadoop3.x新特性) plan后面带的节点的名字必须是已经存在的,并且是需要均衡的节点。 如果节点不存在,会报如下错误: 如果节点只有一个硬盘的话,不会创建均衡计划: (1)生成均衡计划 hdfs diskbalancer -plan hadoop102 (2)执行均衡计划 hd

性能分析之MySQL索引实战案例

文章目录 一、前言二、准备三、MySQL索引优化四、MySQL 索引知识回顾五、总结 一、前言 在上一讲性能工具之 JProfiler 简单登录案例分析实战中已经发现SQL没有建立索引问题,本文将一起从代码层去分析为什么没有建立索引? 开源ERP项目地址:https://gitee.com/jishenghua/JSH_ERP 二、准备 打开IDEA找到登录请求资源路径位置

深入探索协同过滤:从原理到推荐模块案例

文章目录 前言一、协同过滤1. 基于用户的协同过滤(UserCF)2. 基于物品的协同过滤(ItemCF)3. 相似度计算方法 二、相似度计算方法1. 欧氏距离2. 皮尔逊相关系数3. 杰卡德相似系数4. 余弦相似度 三、推荐模块案例1.基于文章的协同过滤推荐功能2.基于用户的协同过滤推荐功能 前言     在信息过载的时代,推荐系统成为连接用户与内容的桥梁。本文聚焦于

【Prometheus】PromQL向量匹配实现不同标签的向量数据进行运算

✨✨ 欢迎大家来到景天科技苑✨✨ 🎈🎈 养成好习惯,先赞后看哦~🎈🎈 🏆 作者简介:景天科技苑 🏆《头衔》:大厂架构师,华为云开发者社区专家博主,阿里云开发者社区专家博主,CSDN全栈领域优质创作者,掘金优秀博主,51CTO博客专家等。 🏆《博客》:Python全栈,前后端开发,小程序开发,人工智能,js逆向,App逆向,网络系统安全,数据分析,Django,fastapi