Python爬虫爬取中药材价格数据

2024-04-21 13:44

本文主要是介绍Python爬虫爬取中药材价格数据,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

🎈 博主:一只程序猿子

🎈 博客主页:一只程序猿子 博客主页

🎈 个人介绍:爱好(bushi)编程!

🎈 创作不易:喜欢的话麻烦您点个👍和

🎈 欢迎访问我的主页(点我直达)

🎈 除此之外您还可以通过个人名片联系我

额滴名片儿

目录

1.介绍

2.网页分析

(1)市场价格数据

(2)药材历史价格数据

3.设计

(1)数据库设计

(2)代码结构

4.源码

5.测试


1.介绍

        本文将介绍如何编写Python爬虫,从中药材天地网,爬取中药材的市场价格某几种中药材的历史价格数据,在下一篇文章中我们将根据这些数据,做一个简单的基于Flask的中药材价格数据分析与可视化系统。

2.网页分析

(1)市场价格数据

        其中我们需要获取到的市场价格数据来自如下图片标示的位置:

        在页面底部有翻页按钮:

         再看看数据在html中的位置:

        首先可以看到表格的表头在文件中的位置。

        这是表格数据的位置:

         这是翻页按钮的位置:

         这里可以很容易发现规律,既翻页是通过修改url的最后一位数字实现的。

(2)药材历史价格数据

        这里我们偷懒,只爬取四种中药材的历史价格数据,分别是白术、麦冬、川芎和白芍。

        我们只爬取这四种药材在亳州药市,规格一的历史价格数据。

         现在我们看下数据是怎么获取的 :

通过开发者工具中的网络,很容易发现这个页面是一个动态页面,数据并不能在html中直接获取。

我们来抓下包看看: 

         很容易我们找到了我们想要的数据:

        看一下请求头和需要什么参数:

 

         然后可以找到mid从哪获取的:

         再看一下它的请求头和参数:

        因为我们只爬取四种中药材的历史价格,所以我们手动找到这四种中药材的MBID和MAreaID即可:

3.设计

(1)数据库设计

        总共设计了两张表,marketprice表用来存储药材的市场价格数据,historicalprice表用来存储四种药材的历史价格数据。

        表结构如下:

(2)代码结构

4.源码

db_helper.py:

import pymysql"""数据库操作"""class DBHelper(object):def __init__(self):pymysql.version_info = (1, 4, 13, "final", 0)  # 必须有这个不然会报版本不对错误pymysql.install_as_MySQLdb()  # 使用pymysql代替mysqldb连接数据库# 建立数据库连接self.conn = pymysql.connect(host="127.0.0.1",port=3306,user="用户名",passwd="密码",db="zhongyaoprice_demo")# 通过 cursor() 创建游标对象,并让查询结果以字典格式输出self.cur = self.conn.cursor(cursor=pymysql.cursors.DictCursor)def __del__(self):  # 对象资源被释放时触发,在对象即将被删除时的最后操作# 关闭游标self.cur.close()# 关闭数据库连接self.conn.close()def select_db(self, sql):"""查询"""# 使用 execute() 执行sqlself.cur.execute(sql)# 使用 fetchall() 获取查询结果data = self.cur.fetchall()return datadef execute_db(self, sql):"""更新/插入/删除"""try:# 使用 execute() 执行sqlself.cur.execute(sql)# 提交事务self.conn.commit()except Exception as e:print("操作出现错误:{}".format(e))# 回滚所有更改self.conn.rollback()def execute_db_ex(self, sql, params):"""更新/插入/删除"""try:# 使用 execute() 执行sqlself.cur.execute(sql, params)# 提交事务self.conn.commit()except Exception as e:print("操作出现错误:{}".format(e))# 回滚所有更改self.conn.rollback()def save_market_price(self, zhongyao):"""查找或者保存中药材市场价格"""select_sql_temp = "select * from marketprice where name = '%s' and spec = '%s'" % (zhongyao[0], zhongyao[1])result = self.select_db(select_sql_temp)if result is None or len(result) == 0:self.execute_db_ex("insert into marketprice (name, spec, market, recentprice, tendency, ""weeklyfluctuation, monthlyfluctuation, yearlyfluctuation)"" values (%s,%s,%s,%s,%s,%s,%s,%s) ",(zhongyao[0], zhongyao[1], zhongyao[2], zhongyao[3], zhongyao[4], zhongyao[5],zhongyao[6], zhongyao[7]))print(f'中药材:{zhongyao[0]},规格:{zhongyao[1]} 的市场价格信息保存成功!!!')else:print(f'该规格的中药材:{zhongyao[0]} 的市场价格信息已在数据库存在!!!')def save_historical_price(self, prices_info):"""查找或者保存中药材历史价格"""select_sql_temp = "select * from historicalprice where name = '%s' and spec = '%s'" % (prices_info[0], prices_info[1])result = self.select_db(select_sql_temp)if result is None or len(result) == 0:self.execute_db_ex("insert into historicalprice (name, spec, market, prices)"" values (%s,%s,%s,%s) ",(prices_info[0], prices_info[1], '亳州药市', prices_info[2]))print(f'中药材:{prices_info[0]},规格:{prices_info[1]} 的历史价格信息保存成功!!!')else:print(f'该规格的中药材:{prices_info[0]} 的历史价格信息已在数据库存在!!!')

settings.py:

HEADERS = {'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,image/avif,image/webp,image/apng,*/*;q=0.8,application/signed-exchange;v=b3;q=0.7','Accept-Language': 'zh-CN,zh;q=0.9,en;q=0.8,en-GB;q=0.7,en-US;q=0.6','Cache-Control': 'max-age=0','Connection': 'keep-alive','Sec-Fetch-Dest': 'document','Sec-Fetch-Mode': 'navigate','Sec-Fetch-Site': 'none','Sec-Fetch-User': '?1','Upgrade-Insecure-Requests': '1','User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/123.0.0.0 Safari/537.36 Edg/123.0.0.0','sec-ch-ua': '"Microsoft Edge";v="123", "Not:A-Brand";v="8", "Chromium";v="123"','sec-ch-ua-mobile': '?0','sec-ch-ua-platform': '"Windows"',
}COOKIES = {'FromsAuthByDbCookie_zytd_Edwin.PrvGuest': '1c1uuuuuuuuuuaI98Rb8c9916R6R18a8U1da851Rd59Ud4S49c40o5qqnc78ca99o698qac9nadmoll5moad015','Hm_lvt_ba57c22d7489f31017e84ef9304f89ec': '1713054805,1713141612','Hm_lpvt_ba57c22d7489f31017e84ef9304f89ec': '1713143695',
}

spider.py:

if __name__ == '__main__':for i in range(1, 31):url = f'https://www.zyctd.com/jiage/1-0-341699-{i}.html'print(f'开始爬取第 {i} 页!')get_market_price(url)if i < 30:print('休息两秒然后继续')else:print('爬取完毕,再见!')time.sleep(2)# 分别对应了白术,麦冬,川芎, 白芍的历史价格请求参数items = [{'name': '白术', 'MBID': 34, 'MAreaID': 341699},{'name': '麦冬', 'MBID': 396, 'MAreaID': 341699},{'name': '川芎', 'MBID': 102, 'MAreaID': 341699},{'name': '白芍', 'MBID': 32, 'MAreaID': 341699}]get_historical_price(items)

        篇幅有限,spider.py我只在此展示了部分源码,可以通过文章底部个人名片联系我获取完整代码! 

5.测试

        运行spider.py:

 

这篇关于Python爬虫爬取中药材价格数据的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/923222

相关文章

Python将博客内容html导出为Markdown格式

《Python将博客内容html导出为Markdown格式》Python将博客内容html导出为Markdown格式,通过博客url地址抓取文章,分析并提取出文章标题和内容,将内容构建成html,再转... 目录一、为什么要搞?二、准备如何搞?三、说搞咱就搞!抓取文章提取内容构建html转存markdown

Python获取中国节假日数据记录入JSON文件

《Python获取中国节假日数据记录入JSON文件》项目系统内置的日历应用为了提升用户体验,特别设置了在调休日期显示“休”的UI图标功能,那么问题是这些调休数据从哪里来呢?我尝试一种更为智能的方法:P... 目录节假日数据获取存入jsON文件节假日数据读取封装完整代码项目系统内置的日历应用为了提升用户体验,

Python FastAPI+Celery+RabbitMQ实现分布式图片水印处理系统

《PythonFastAPI+Celery+RabbitMQ实现分布式图片水印处理系统》这篇文章主要为大家详细介绍了PythonFastAPI如何结合Celery以及RabbitMQ实现简单的分布式... 实现思路FastAPI 服务器Celery 任务队列RabbitMQ 作为消息代理定时任务处理完整

Python Websockets库的使用指南

《PythonWebsockets库的使用指南》pythonwebsockets库是一个用于创建WebSocket服务器和客户端的Python库,它提供了一种简单的方式来实现实时通信,支持异步和同步... 目录一、WebSocket 简介二、python 的 websockets 库安装三、完整代码示例1.

揭秘Python Socket网络编程的7种硬核用法

《揭秘PythonSocket网络编程的7种硬核用法》Socket不仅能做聊天室,还能干一大堆硬核操作,这篇文章就带大家看看Python网络编程的7种超实用玩法,感兴趣的小伙伴可以跟随小编一起... 目录1.端口扫描器:探测开放端口2.简易 HTTP 服务器:10 秒搭个网页3.局域网游戏:多人联机对战4.

使用Python实现快速搭建本地HTTP服务器

《使用Python实现快速搭建本地HTTP服务器》:本文主要介绍如何使用Python快速搭建本地HTTP服务器,轻松实现一键HTTP文件共享,同时结合二维码技术,让访问更简单,感兴趣的小伙伴可以了... 目录1. 概述2. 快速搭建 HTTP 文件共享服务2.1 核心思路2.2 代码实现2.3 代码解读3.

Python使用自带的base64库进行base64编码和解码

《Python使用自带的base64库进行base64编码和解码》在Python中,处理数据的编码和解码是数据传输和存储中非常普遍的需求,其中,Base64是一种常用的编码方案,本文我将详细介绍如何使... 目录引言使用python的base64库进行编码和解码编码函数解码函数Base64编码的应用场景注意

Python基于wxPython和FFmpeg开发一个视频标签工具

《Python基于wxPython和FFmpeg开发一个视频标签工具》在当今数字媒体时代,视频内容的管理和标记变得越来越重要,无论是研究人员需要对实验视频进行时间点标记,还是个人用户希望对家庭视频进行... 目录引言1. 应用概述2. 技术栈分析2.1 核心库和模块2.2 wxpython作为GUI选择的优

Java利用JSONPath操作JSON数据的技术指南

《Java利用JSONPath操作JSON数据的技术指南》JSONPath是一种强大的工具,用于查询和操作JSON数据,类似于SQL的语法,它为处理复杂的JSON数据结构提供了简单且高效... 目录1、简述2、什么是 jsONPath?3、Java 示例3.1 基本查询3.2 过滤查询3.3 递归搜索3.4

Python如何使用__slots__实现节省内存和性能优化

《Python如何使用__slots__实现节省内存和性能优化》你有想过,一个小小的__slots__能让你的Python类内存消耗直接减半吗,没错,今天咱们要聊的就是这个让人眼前一亮的技巧,感兴趣的... 目录背景:内存吃得满满的类__slots__:你的内存管理小助手举个大概的例子:看看效果如何?1.