Python实战 | “端午节” 送亲戚,送长辈,粽子可视化大屏来帮忙!

2024-03-15 23:30

本文主要是介绍Python实战 | “端午节” 送亲戚,送长辈,粽子可视化大屏来帮忙!,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

公众号:「杰哥的IT之旅」,后台回复:「粽子」即可获取本文完整数据

本文简介

今年,我用 Python 爬取了京东上面的 “粽子数据” 进行分析,看看有啥发现吧!

本文就从数据爬取数据清洗数据可视化,这三个方面入手,但你简单完成一个小型的数据分析项目,让你对知识能够有一个综合的运用。

整个思路如下:
  • 爬取网页: https://www.jd.com/
  • 爬取说明: 基于京东网站,我们搜索网站“粽子”数据,大概有100页。我们爬取的字段,既有一级页面的相关信息,还有二级页面的部分信息;
  • 爬取思路: 先针对某一页数据的一级页面做一个解析,然后再进行二级页面做一个解析,最后再进行翻页操作;
  • 爬取字段: 分别是粽子的名称(标题)、价格、品牌(店铺)、类别(口味);
  • 使用工具: requests+lxml+pandas+time+re+pyecharts
  • 网站解析方式: xpath
最终的效果如下:

图片

数据爬取

京东网站,一般是动态加载的,也就是说,采用一般方式只能爬取到某个页面的前30个数据(一个页面一共60个数据)。

基于本文,我仅用最基本的方法,爬取了每个页面的前30条数据(如果大家有兴趣,可以自行下去爬取所有的数据)。

那么,本文究竟爬取了哪些字段呢?我给大家做一个展示,大家有兴趣,可以爬取更多的字段,做更为详细的分析。

图片

下面为大家展示爬虫代码:

import pandas as pd
import requests
from lxml import etree
import chardet
import time
import redef get_CI(url):headers = {'User-Agent':'Mozilla/5.0 (Windows NT 6.1; Win64; X64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/71.0.3578.80 Safari/537.36'}rqg = requests.get(url,headers=headers)rqg.encoding = chardet.detect(rqg.content)['encoding']html = etree.HTML(rqg.text)# 价格p_price = html.xpath('//div/div[@class="p-price"]/strong/i/text()')# 名称p_name = html.xpath('//div/div[@class="p-name p-name-type-2"]/a/em')p_name = [str(p_name[i].xpath('string(.)')) for i in range(len(p_name))]# 深层urldeep_ur1 = html.xpath('//div/div[@class="p-name p-name-type-2"]/a/@href')deep_url = ["http:" + i for i in deep_ur1]# 从这里开始,我们获取“二级页面”的信息           brands_list = []kinds_list = []for i in deep_url:rqg = requests.get(i,headers=headers)rqg.encoding = chardet.detect(rqg.content)['encoding']html = etree.HTML(rqg.text)# 品牌brands = html.xpath('//div/div[@class="ETab"]//ul[@id="parameter-brand"]/li/@title')brands_list.append(brands)# 类别kinds = re.findall('>类别:(.*?)</li>',rqg.text)kinds_list.append(kinds)data = pd.DataFrame({'名称':p_name,'价格':p_price,'品牌':brands_list,'类别':kinds_list})return(data)x = "https://search.jd.com/Search?keyword=%E7%B2%BD%E5%AD%90&qrst=1&wq=%E7%B2%BD%E5%AD%90&stock=1&page="
url_list = [x + str(i) for i in range(1,200,2)] 
res = pd.DataFrame(columns=['名称','价格','品牌','类别'])# 这里进行“翻页”操作
for url in url_list:res0 = get_CI(url)res = pd.concat([res,res0])time.sleep(3)# 保存数据
res.to_csv('aliang.csv',encoding='utf_8_sig')
最终爬取到的数据:

图片

数据清洗

从上图可以看到,整个数据算是很整齐的,不是特别乱,我们只做一些简单的操作即可。

先使用pandas库,来读取数据。

import pandas as pddf = pd.read_excel("粽子.xlsx",index_col=False)
df.head()

结果如下:

图片

我们分别针对 “品牌”“类别”**** 两个字段,去掉中括号。

df["品牌"] = df["品牌"].apply(lambda x: x[1:-1])
df["类别"] = df["类别"].apply(lambda x: x[1:-1])
df.head()

结果如下:

图片

粽子品牌排名前10的店铺
df["品牌"].value_counts()[:10]

结果如下:

图片

粽子口味排名前5的味道
def func1(x):if x.find("甜") > 0:return "甜粽子"else:return x
df["类别"] = df["类别"].apply(func1)
df["类别"].value_counts()[1:6] 

结果如下:

图片

粽子售卖价格区间划分
def price_range(x): # 按照我的购物习惯,划分价格if x <= 50:return '<50元'elif x <= 100:return '50-100元'elif x <= 300:return '100-300元'elif x <= 500:return '300-500元'elif x <= 1000:return '500-1000元'else:return '>1000元'df["价格区间"] = df["价格"].apply(price_range)
df["价格区间"].value_counts()

结果如下:

图片

由于数据不是很多,没有很多字段,也就没有很多乱数据。因此,这里也没有做数据去重、缺失值填充等操作。所以,大家可以下去获取更多字段,更多数据,用于数据分析。

数据可视化

俗话说:字不如表,表不如图。通过可视化分析,我们可以将数据背后 “隐藏” 的信息,给展现出来。

拓展: 当然,这里只是 “抛砖引玉”,我并没有获取太多的数据,也没有获取太多的字段。这里给学习的朋友当一个作业题,自己下去用更多的数据、更多的字段,做更透彻的分析。

在这里,我们基于以下几个问题,做一个可视化展示,分别是:

  • 粽子销售店铺Top10柱形图;
  • 粽子口味排名Top5柱形图;
  • 粽子销售价格区间划分饼图;
  • 粽子商品名称词云图;

鉴于整个文章排版,本文可视化部分的代码均可在本文末尾获取。

粽子销售店铺Top10柱形图

图片

结论分析: 去年,我们分析了一些月饼的数据,“五芳斋”“北京稻香村” 这几个牌子记忆犹新,可谓是做月饼、粽子的老店。像 “三全”“思念”,在我印象中一直以为它们只做水饺和汤圆,粽子是否值得一试呢?当然,这里还有一些新的牌子,像 “诸老大”“稻香私房” 等一些牌子,大家都可以下去搜索一下。买东西,就是要精挑细选,品牌也重要。

粽子口味排名Top5柱形图

图片

结论分析: 在我印象中,小时候一直吃的最多的就是 “甜粽子”,直到我上了初中才知道,粽子还可以有肉?当然,从图中可以看出,卖 “鲜肉粽” 的店铺还是居多,毕竟这个送人,还是显得高端、大气一些。这里还有一些口味,像 “蜜枣粽”“豆沙粽”,我基本没吃过。如果你送人,你会送什么口味的呢?

粽子销售价格区间划分饼图

图片

结论分析: 这里,我故意把价格区间细分。这个饼图也很符合实际,毕竟每年就过一次端午节,还是以薄利多销为主,接近80%的粽子,售价都在100元以下。当然,还有一些中档的粽子,价格在100-300元。大于300元,我觉得也没有吃的必要,反正我是不会花这么多钱去买粽子。

粽子商品名称词云图

图片

结论分析: 从图中,可以大致看出商家的卖点了。毕竟是节日,“送礼”“礼品” 体现了节日氛围。“猪肉”“豆沙” 体现了粽子口味。当然,它是否是 “早餐” 好选择呢?购买的话,还支持 “团购” 哦。这些字眼,多多少少都会各自吸引一部分人的眼球。

图形组合为大屏

图片

本文的可视化采用的pyecharts库,进行绘制。我们先单独做好每一张图,然后进行图形整合,即可做出一张漂亮的可视化大屏。关于如何制作,可以文末获取我的源代码文件!【粽子.ipynb】

图片

推荐阅读

我去,原来 520 情人节大家都在买这款口红!

利用 Python 爬取了 13966 条运维招聘信息,我得出了哪些结论?

利用 Python 爬取了 37483 条上海二手房信息,我得出的结论是?

利用 Python 分析了某化妆品企业的销售情况,我得出的结论是?

我用 Python 分析了一波热卖年货,原来大家都在买这些东西?

原文链接:Python实战 | “端午节” 送亲戚,送长辈,粽子可视化大屏来帮忙!


原创不易,码字不易。 觉得这篇文章对你有点用的话,麻烦你为本文点个赞,留言或转发一下,因为这将是我输出更多优质文章的动力,感谢!

⬇⬇⬇⬇⬇⬇⬇⬇

这篇关于Python实战 | “端午节” 送亲戚,送长辈,粽子可视化大屏来帮忙!的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/813606

相关文章

使用Python绘制蛇年春节祝福艺术图

《使用Python绘制蛇年春节祝福艺术图》:本文主要介绍如何使用Python的Matplotlib库绘制一幅富有创意的“蛇年有福”艺术图,这幅图结合了数字,蛇形,花朵等装饰,需要的可以参考下... 目录1. 绘图的基本概念2. 准备工作3. 实现代码解析3.1 设置绘图画布3.2 绘制数字“2025”3.3

python使用watchdog实现文件资源监控

《python使用watchdog实现文件资源监控》watchdog支持跨平台文件资源监控,可以检测指定文件夹下文件及文件夹变动,下面我们来看看Python如何使用watchdog实现文件资源监控吧... python文件监控库watchdogs简介随着Python在各种应用领域中的广泛使用,其生态环境也

Python中构建终端应用界面利器Blessed模块的使用

《Python中构建终端应用界面利器Blessed模块的使用》Blessed库作为一个轻量级且功能强大的解决方案,开始在开发者中赢得口碑,今天,我们就一起来探索一下它是如何让终端UI开发变得轻松而高... 目录一、安装与配置:简单、快速、无障碍二、基本功能:从彩色文本到动态交互1. 显示基本内容2. 创建链

Java调用Python代码的几种方法小结

《Java调用Python代码的几种方法小结》Python语言有丰富的系统管理、数据处理、统计类软件包,因此从java应用中调用Python代码的需求很常见、实用,本文介绍几种方法从java调用Pyt... 目录引言Java core使用ProcessBuilder使用Java脚本引擎总结引言python

python 字典d[k]中key不存在的解决方案

《python字典d[k]中key不存在的解决方案》本文主要介绍了在Python中处理字典键不存在时获取默认值的两种方法,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,... 目录defaultdict:处理找不到的键的一个选择特殊方法__missing__有时候为了方便起见,

Golang使用minio替代文件系统的实战教程

《Golang使用minio替代文件系统的实战教程》本文讨论项目开发中直接文件系统的限制或不足,接着介绍Minio对象存储的优势,同时给出Golang的实际示例代码,包括初始化客户端、读取minio对... 目录文件系统 vs Minio文件系统不足:对象存储:miniogolang连接Minio配置Min

使用Python绘制可爱的招财猫

《使用Python绘制可爱的招财猫》招财猫,也被称为“幸运猫”,是一种象征财富和好运的吉祥物,经常出现在亚洲文化的商店、餐厅和家庭中,今天,我将带你用Python和matplotlib库从零开始绘制一... 目录1. 为什么选择用 python 绘制?2. 绘图的基本概念3. 实现代码解析3.1 设置绘图画

Python pyinstaller实现图形化打包工具

《Pythonpyinstaller实现图形化打包工具》:本文主要介绍一个使用PythonPYQT5制作的关于pyinstaller打包工具,代替传统的cmd黑窗口模式打包页面,实现更快捷方便的... 目录1.简介2.运行效果3.相关源码1.简介一个使用python PYQT5制作的关于pyinstall

使用Python实现大文件切片上传及断点续传的方法

《使用Python实现大文件切片上传及断点续传的方法》本文介绍了使用Python实现大文件切片上传及断点续传的方法,包括功能模块划分(获取上传文件接口状态、临时文件夹状态信息、切片上传、切片合并)、整... 目录概要整体架构流程技术细节获取上传文件状态接口获取临时文件夹状态信息接口切片上传功能文件合并功能小

python实现自动登录12306自动抢票功能

《python实现自动登录12306自动抢票功能》随着互联网技术的发展,越来越多的人选择通过网络平台购票,特别是在中国,12306作为官方火车票预订平台,承担了巨大的访问量,对于热门线路或者节假日出行... 目录一、遇到的问题?二、改进三、进阶–展望总结一、遇到的问题?1.url-正确的表头:就是首先ur