本文主要是介绍Python实战:情人节不会送口红 !Python数据分析教你来搞定 !!,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!
前言
1、案例背景
520情人节,不懂送女朋友什么牌子的口红?没关系!Python 数据分析告诉你。
我们爬取了京东商城口红近 4000 条口红商品信息,并对这些口红数据进行分析,让大家买口红给女朋友时有个选择的参考,从如下几个方面去分析:
1、哪些价格区间的口红卖的最好?
2、口红销量分布情况。
3、销量前10的口红有哪些?
4、销量前10的店铺。
5、商品价格和销量的关系。
文末领取全套最新Python学习资源!
2、任务说明
通过 Python 爬虫爬取了京东上所有口红铺的数据集 jd_data.csv。
我们希望通过该数据集,针对不同的口红品牌和店铺进行统计与分析,从而能够解开我们上述疑问。
3、数据字段的说明
字段含义图:
4、数据分析的流程
二、数据预处理
数据清洗
1、首先从csv文件中导入数据
python复制代码import pandas as pd
import matplotlib.pyplot as plt #读取数据
dataframe = pd.read_csv('jd_data.csv',encoding = 'gb18030')#这里不能使用utf-8
print(dataframe.shape)
查看下有多少行、列数据:
(3816, 6)
共有3816行,6列(上面有这六个字段说明)
2、缺失值处理
kotlin复制代码data = dataframe.dropna(how='any')
data.head()
print(data.shape)
(3610, 6)
从这里可以看出还是有些缺失值的
对于缺失值的处理主要有两种方法:
删除
填充:分为均值、中位数、众数、附近值进行填充,还有牛顿差值法等等。
这里偷一下懒,使用比较简便的删除的方式处理缺失值,毕竟缺失的不是很多。
ini复制代码# inplace=True表示原地修改数据集
data.dropna(axis=0, inplace=True) # 对删除后缺失值后的数据集,再次进行缺失值统计
data.isnull().sum(axis=1)
数据转换
1、将评论的+和万字修改
scss复制代码def dealComment(comm_colum):num = str(comm_colum).split('+')[0]if '万' in num:if '.' in num :num = num.replace('.','').replace('万','000')else:num = num.replace('.','').replace('万','0000')return num
dataframe['comment'] = dataframe['comment'].apply(lambda x: dealComment_num(x))
#转换成int类型
dataframe['comment'] = dataframe.comment.astype('int')
data = dataframe.drop('comment',axis = 1)
print(data.head(10))
经过处理完后的数据:
数据预处理是数据分析的一项重要任务,能否得到准确的数据分析结果离不开数据预处理,下面我们开始对口红数据进行分析吧!
文末领取全套最新Python学习资源!
三、数据分析
京东上面商品没有销量这一信息,我们姑且将评论数当成是销量。
本次项目中取用了 name、price、comment、shop_name 、shop_type 这几个字段的信息。
分别是商品标题名称、价格、评论数、店铺名、店铺类型来进行分析。
1、口红价格分布区间
ini复制代码import pandas as pd
import matplotlib.pyplot as plt#读取数据
data = pd.read_csv('jd_data.csv',encoding = 'gb18030')plt.rcParams['font.sans-serif']=['SimHei'] #用来正常显示中文标签
plt.figure(figsize=(10,8))
price = data[data['price'] < 1000]
plt.hist(price['price'], bins=10, color='brown')
plt.xlabel('价格')
plt.ylabel('商品数量')
plt.title('价格商品分布')
plt.show()
结果如下:
通过上图,可以很清楚看到:
- 口红的价格绝大多数在0-500元的区间之内,但是也有口红的售价达到了1000元,哈哈努力挣钱吧。
- 其中200-300元价位的数量非常的高,超过了1200,而且价格超过300元的有明显的减少趋势,哈哈价格才是王道。
2、销量分布情况
由于没有爬取到销量信息,所以将评论数当成销量
ini复制代码#销量分析
sale_num = data[data['comment'] > 100]
plt.figure(figsize=(10,8))
#print(len(sale_num)/len(data)) #查看下大致的区间分布
plt.hist(sale_num['comment'], bins=20, color='blue')
plt.xlabel('销量')
plt.ylabel('数量')
plt.title('销量情况')
plt.show()
结果如下:
通过直方图我们可以看到:
- 销售量基本是在20万以内。
- 销售量在10万以内的占了绝大多数
- 还有极个别的店铺销量竟然超过了100万
3、销售前10的口红
scss复制代码#销售前10的口红
#抽取商品标题的简略信息
def get_title(item):title = item.split(' ')[0]return titledata['small_name'] = data['name'].apply(lambda x: get_title(x))
data1 = data.drop('name',axis = 1)
top10Lipstick = data1.sort_values('comment',ascending=False)
print(top10Lipstick.head(10))
title = top10Lipstick['small_name'][:10]
sale_num = top10Lipstick['comment'][:10]
plt.figure(figsize=(10,8),dpi = 80)
plt.bar(range(10),sale_num,width=0.6,color='red')
plt.xticks(range(10),title,rotation=45)
#plt.ylim((9,9.7)) #设置y轴坐标
plt.ylabel('数量')
plt.xlabel('标题')
plt.title('销量前10的糖果')
for x,y in enumerate(list(sale_num)): plt.text(x,float(y)+0.01,y,ha='center')
结果如下:
可以发现,排名前三位的是:
- 京东国际魅可(MAC)经典唇膏 子弹头口红3g Chili 小辣椒色
商品图片
- 【520礼物】中国风口红套装礼盒女颐和园同款唇膏唇釉学生非小样彩妆 口红套装(6支)
商品图片
- 【520礼物】迪奥(Dior)烈艳蓝金唇膏-哑光999# 3.5g 传奇红(口红 正红色 传奇红 赠精美礼盒)
商品图片
4、销量前10的店铺
分析完销量前10的商品后,我们再来看下销量前10的店铺:
代码如下:
scss复制代码#销量前10的店铺
top_shop = data.groupby('shop_name')['comment'].sum().sort_values(ascending=False)[:10]
print(top_shop.head(10))plt.figure(figsize=(10,8),dpi = 80)
top_shop.plot(kind = 'bar',color='red',width= 0.6)
plt.ylabel('数量')
plt.xlabel('店铺名')
plt.title('销量前10的店铺')
plt.xticks(rotation=45)
for x,y in enumerate(list(top_shop)): plt.text(x,float(y)+0.1,y,ha='center')
plt.show()
结果如下:
文末领取全套最新Python学习资源!
由上图可以看到:
- MAC魅可海外自营专区 占据第一名,达 1365308 的销售量,而且基本前10的店铺销量都在5万以上。
- 前三名都基本达到了130多万
- 前10名中有5个是京东自营
5、商品价格和销量的关系
我们采用散点图的方式,看看价格和销量的分布关系
kotlin复制代码plt.figure(figsize=(10,8))
plt.scatter(data['price'],data['comment'], color='blue')
plt.xlabel('价格')
plt.ylabel('销量')
plt.title('价格、销量的散点分布')
plt.show()
结果如下:
可以看出:
随着价格的升高销量会减小,而且价格在400内,对销量的影响不大,证明绝大多数人的口红消费区间在0-400元之间,但是最贵的竟然达到了近1700元,哈哈,贫穷限制了我的想象。
四、总结
经过这次小小的数据分析,还是学到了许多的。作为一名小白,还有许多要学习:
- 数据清洗,它是能分析出正确结果的保证;
- 如何挖掘数据不同维度间的联系等;
不足:本次数据分析还有许多需要完善的地方:
- 比如分析不同类型的店铺占比店铺;
- 不同类型的店铺之间的销量对比;
- 由于本次没有爬取评论数据,没有做情感分析;
数据分析之路还很漫长,加油!
以上就是今天的全部内容分享,觉得有用的话欢迎点赞收藏哦!
Python经验分享
学好 Python 不论是用于就业还是做副业赚钱都不错,而且学好Python还能契合未来发展趋势——人工智能、机器学习、深度学习等。
小编是一名Python开发工程师,自己整理了一套最新的Python系统学习教程,包括从基础的python脚本到web开发、爬虫、数据分析、数据可视化、机器学习等。如果你也喜欢编程,想通过学习Python转行、做副业或者提升工作效率,这份【最新全套Python学习资料】 一定对你有用!
小编为对Python感兴趣的小伙伴准备了以下籽料 !
对于0基础小白入门:
如果你是零基础小白,想快速入门Python是可以考虑培训的!
- 学习时间相对较短,学习内容更全面更集中
- 可以找到适合自己的学习方案
包括:Python激活码+安装包、Python web开发,Python爬虫,Python数据分析,人工智能、机器学习、Python量化交易等学习教程。带你从零基础系统性的学好Python!
一、Python所有方向的学习路线
Python所有方向路线就是把Python常用的技术点做整理,形成各个领域的知识点汇总,它的用处就在于,你可以按照上面的知识点去找对应的学习资源,保证自己学得较为全面。
二、学习软件
工欲善其事必先利其器。学习Python常用的开发软件都在这里了,给大家节省了很多时间。
三、入门学习视频
我们在看视频学习的时候,不能光动眼动脑不动手,比较科学的学习方法是在理解之后运用它们,这时候练手项目就很适合了。
四、实战案例
光学理论是没用的,要学会跟着一起敲,要动手实操,才能将自己的所学运用到实际当中去,这时候可以搞点实战案例来学习。
五、面试资料
我们学习Python必然是为了找到高薪的工作,下面这些面试题是来自阿里、腾讯、字节等一线互联网大厂最新的面试资料,并且有阿里大佬给出了权威的解答,刷完这一套面试资料相信大家都能找到满意的工作。
最新全套【Python入门到进阶资料 & 实战源码 &安装工具】(安全链接,放心点击)
我已经上传至CSDN官方,如果需要可以扫描下方官方二维码免费获取【保证100%免费】
*今天的分享就到这里,喜欢且对你有所帮助的话,记得点赞关注哦~下回见 !
这篇关于Python实战:情人节不会送口红 !Python数据分析教你来搞定 !!的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!