520情人节,不懂送女朋友什么牌子的口红?没关系!Python 数据分析告诉你

本文主要是介绍520情人节,不懂送女朋友什么牌子的口红?没关系!Python 数据分析告诉你,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

一、案例说明

1、案例背景

520情人节,不懂送女朋友什么牌子的口红?没关系!Python 数据分析告诉你。

我们爬取了京东商城口红近 4000 条口红商品信息,并对这些口红数据进行分析,让大家买口红给女朋友时有个选择的参考,从如下几个方面去分析:

1、哪些价格区间的口红卖的最好?
2、口红销量分布情况。
3、销量前10的口红有哪些?
4、销量前10的店铺。
5、商品价格和销量的关系。

文末领取全套最新Python学习资源!

2、任务说明

通过 Python 爬虫爬取了京东上所有口红铺的数据集 jd_data.csv。

我们希望通过该数据集,针对不同的口红品牌和店铺进行统计与分析,从而能够解开我们上述疑问。

3、数据字段的说明

字段含义图:

图片

4、数据分析的流程
在这里插入图片描述

二、数据预处理

数据清洗

1、首先从csv文件中导入数据

python复制代码import pandas as pd 
import matplotlib.pyplot as plt #读取数据
dataframe = pd.read_csv('jd_data.csv',encoding = 'gb18030')#这里不能使用utf-8
print(dataframe.shape)

查看下有多少行、列数据:
(3816, 6)
共有3816行,6列(上面有这六个字段说明)

2、缺失值处理

kotlin复制代码data = dataframe.dropna(how='any')
data.head()
print(data.shape)

(3610, 6)
从这里可以看出还是有些缺失值的

对于缺失值的处理主要有两种方法:

删除

填充:分为均值、中位数、众数、附近值进行填充,还有牛顿差值法等等。
这里偷一下懒,使用比较简便的删除的方式处理缺失值,毕竟缺失的不是很多。

ini复制代码# inplace=True表示原地修改数据集  
data.dropna(axis=0, inplace=True)   # 对删除后缺失值后的数据集,再次进行缺失值统计  
data.isnull().sum(axis=1)   

数据转换

1、将评论的+和万字修改

scss复制代码def dealComment(comm_colum):num = str(comm_colum).split('+')[0]if '万' in num:if '.' in num :num = num.replace('.','').replace('万','000')else:num = num.replace('.','').replace('万','0000')return num
dataframe['comment'] = dataframe['comment'].apply(lambda x: dealComment_num(x))
#转换成int类型
dataframe['comment'] = dataframe.comment.astype('int') 
data = dataframe.drop('comment',axis = 1)
print(data.head(10))

经过处理完后的数据:

图片

数据预处理是数据分析的一项重要任务,能否得到准确的数据分析结果离不开数据预处理,下面我们开始对口红数据进行分析吧!

文末领取全套最新Python学习资源!

三、数据分析

京东上面商品没有销量这一信息,我们姑且将评论数当成是销量。

本次项目中取用了 name、price、comment、shop_name 、shop_type 这几个字段的信息。

分别是商品标题名称、价格、评论数、店铺名、店铺类型来进行分析。

1、口红价格分布区间

ini复制代码import pandas as pd 
import matplotlib.pyplot as plt#读取数据
data = pd.read_csv('jd_data.csv',encoding = 'gb18030')plt.rcParams['font.sans-serif']=['SimHei'] #用来正常显示中文标签
plt.figure(figsize=(10,8))
price = data[data['price'] < 1000]
plt.hist(price['price'], bins=10, color='brown')
plt.xlabel('价格')
plt.ylabel('商品数量')
plt.title('价格商品分布')
plt.show()

结果如下:

图片

通过上图,可以很清楚看到:

  • 口红的价格绝大多数在0-500元的区间之内,但是也有口红的售价达到了1000元,哈哈努力挣钱吧。
  • 其中200-300元价位的数量非常的高,超过了1200,而且价格超过300元的有明显的减少趋势,哈哈价格才是王道。

2、销量分布情况

由于没有爬取到销量信息,所以将评论数当成销量

ini复制代码#销量分析
sale_num = data[data['comment'] > 100]
plt.figure(figsize=(10,8))
#print(len(sale_num)/len(data))  #查看下大致的区间分布
plt.hist(sale_num['comment'], bins=20, color='blue')
plt.xlabel('销量')
plt.ylabel('数量')
plt.title('销量情况')
plt.show()

结果如下:

图片

通过直方图我们可以看到:

  • 销售量基本是在20万以内。
  • 销售量在10万以内的占了绝大多数
  • 还有极个别的店铺销量竟然超过了100万

3、销售前10的口红

scss复制代码#销售前10的口红
#抽取商品标题的简略信息
def get_title(item):title = item.split(' ')[0]return titledata['small_name'] = data['name'].apply(lambda x: get_title(x)) 
data1 = data.drop('name',axis = 1)
top10Lipstick = data1.sort_values('comment',ascending=False)
print(top10Lipstick.head(10))
title = top10Lipstick['small_name'][:10]
sale_num = top10Lipstick['comment'][:10]
plt.figure(figsize=(10,8),dpi = 80) 
plt.bar(range(10),sale_num,width=0.6,color='red')
plt.xticks(range(10),title,rotation=45)
#plt.ylim((9,9.7))   #设置y轴坐标
plt.ylabel('数量') 
plt.xlabel('标题')  
plt.title('销量前10的糖果')
for x,y in enumerate(list(sale_num)):   plt.text(x,float(y)+0.01,y,ha='center')

结果如下:

文末领取全套最新Python学习资源!

图片

图片

可以发现,排名前三位的是:

  • 京东国际魅可(MAC)经典唇膏 子弹头口红3g Chili 小辣椒色

商品图片

图片

  • 【520礼物】中国风口红套装礼盒女颐和园同款唇膏唇釉学生非小样彩妆 口红套装(6支)

商品图片

图片

  • 【520礼物】迪奥(Dior)烈艳蓝金唇膏-哑光999# 3.5g 传奇红(口红 正红色 传奇红 赠精美礼盒)

商品图片

图片

4、销量前10的店铺

分析完销量前10的商品后,我们再来看下销量前10的店铺:

代码如下:

scss复制代码#销量前10的店铺
top_shop = data.groupby('shop_name')['comment'].sum().sort_values(ascending=False)[:10]
print(top_shop.head(10))plt.figure(figsize=(10,8),dpi = 80)
top_shop.plot(kind = 'bar',color='red',width= 0.6)
plt.ylabel('数量')
plt.xlabel('店铺名')  
plt.title('销量前10的店铺') 
plt.xticks(rotation=45)
for x,y in enumerate(list(top_shop)): plt.text(x,float(y)+0.1,y,ha='center')
plt.show()

结果如下:

图片

由上图可以看到:

  • MAC魅可海外自营专区 占据第一名,达 1365308 的销售量,而且基本前10的店铺销量都在5万以上。
  • 前三名都基本达到了130多万
  • 前10名中有5个是京东自营

5、商品价格和销量的关系

我们采用散点图的方式,看看价格和销量的分布关系

kotlin复制代码plt.figure(figsize=(10,8))
plt.scatter(data['price'],data['comment'], color='blue')
plt.xlabel('价格')
plt.ylabel('销量')
plt.title('价格、销量的散点分布')
plt.show()

结果如下:

图片

可以看出:

随着价格的升高销量会减小,而且价格在400内,对销量的影响不大,证明绝大多数人的口红消费区间在0-400元之间,但是最贵的竟然达到了近1700元,哈哈,贫穷限制了我的想象。

四、总结

经过这次小小的数据分析,还是学到了许多的。作为一名小白,还有许多要学习:

  • 数据清洗,它是能分析出正确结果的保证;
  • 如何挖掘数据不同维度间的联系等;

不足:本次数据分析还有许多需要完善的地方:

  • 比如分析不同类型的店铺占比店铺;
  • 不同类型的店铺之间的销量对比;
  • 由于本次没有爬取评论数据,没有做情感分析;

数据分析之路还很漫长,加油!


如果大家对Python感兴趣,那么这套python学习资料一定对你有用

对于0基础小白入门:

这如果你是零基础小白,想快速入门Python是可以考虑的。
一方面是学习时间相对较短,学习内容更全面更集中。
二方面是可以根据这些资料规划好学习计划和方向。

包括:Python激活码+安装包、Python web开发,Python爬虫,Python数据分析,人工智能、机器学习、Python量化交易等习教程。带你从零基础系统性的学好Python!

在这里插入图片描述
我已经上传至CSDN官方,如果需要可以扫描下方二维码都可以免费获取【保证100%免费】

零基础Python学习资源介绍

  1. Python所有方向的学习路线图,清楚各个方向要学什么东西

  2. 600多节Python课程视频,涵盖必备基础、爬虫和数据分析

  3. 100多个Python实战案例,含50个超大型项目详解,学习不再是只会理论

  4. 爬虫与反爬虫攻防教程包,含15个大型网站迫解

  5. 超300本Python电子好书,从入门到高阶应有尽有

  6. 华为出品独家Python漫画教程,手机也能学习

  7. 历年互联网企业Python面试真题,复习时非常方便

👉Python学习路线汇总👈

Python所有方向的技术点做的整理,形成各个领域的知识点汇总,它的用处就在于,你可以按照上面的知识点去找对应的学习资源,保证自己学得较为全面。(全套教程文末领取哈)
在这里插入图片描述

👉Python必备开发工具👈

在这里插入图片描述

👉Python学习视频与电子书籍👈

观看零基础学习视频,结合电子书籍最快捷也是最有效果的方式,跟着视频中老师的思路,从基础到深入,还是很容易入门的。

在这里插入图片描述
在这里插入图片描述

👉实战案例👈

光学理论是没用的,要学会跟着一起敲,要动手实操,才能将自己的所学运用到实际当中去,这时候可以搞点实战案例来学习。
在这里插入图片描述

👉100道Python练习题👈

检查学习结果,巩固所学知识。
在这里插入图片描述

👉面试刷题👈

在这里插入图片描述

在这里插入图片描述
在这里插入图片描述

最新全套【Python入门到进阶资料 & 实战源码 &安装工具】(安全链接,放心点击)

上面这份完整版的Python全套学习资料已经上传至CSDN官方,朋友如果需要可以直接微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】。

本期内容就分享到这里,下回再见啊 !喜欢并且对你有用的话,记得点赞支持一下 !!

这篇关于520情人节,不懂送女朋友什么牌子的口红?没关系!Python 数据分析告诉你的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/810535

相关文章

豆包 MarsCode 不允许你还没有女朋友

在这个喧嚣的世界里,爱意需要被温柔地唤醒。为心爱的她制作每日一句小工具,就像是一场永不落幕的浪漫仪式,每天都在她的心田播撒爱的种子,让她的每一天都充满甜蜜与期待。 背景 在这个瞬息万变的时代,我们都在寻找那些能让我们慢下来,感受生活美好的瞬间。为了让这份浪漫持久而深刻,我们决定为女朋友定制一个每日一句小工具。这个工具会在她意想不到的时刻,为她呈现一句充满爱意的话语,让她的每一天都充满惊喜和感动

python: 多模块(.py)中全局变量的导入

文章目录 global关键字可变类型和不可变类型数据的内存地址单模块(单个py文件)的全局变量示例总结 多模块(多个py文件)的全局变量from x import x导入全局变量示例 import x导入全局变量示例 总结 global关键字 global 的作用范围是模块(.py)级别: 当你在一个模块(文件)中使用 global 声明变量时,这个变量只在该模块的全局命名空

【Python编程】Linux创建虚拟环境并配置与notebook相连接

1.创建 使用 venv 创建虚拟环境。例如,在当前目录下创建一个名为 myenv 的虚拟环境: python3 -m venv myenv 2.激活 激活虚拟环境使其成为当前终端会话的活动环境。运行: source myenv/bin/activate 3.与notebook连接 在虚拟环境中,使用 pip 安装 Jupyter 和 ipykernel: pip instal

【机器学习】高斯过程的基本概念和应用领域以及在python中的实例

引言 高斯过程(Gaussian Process,简称GP)是一种概率模型,用于描述一组随机变量的联合概率分布,其中任何一个有限维度的子集都具有高斯分布 文章目录 引言一、高斯过程1.1 基本定义1.1.1 随机过程1.1.2 高斯分布 1.2 高斯过程的特性1.2.1 联合高斯性1.2.2 均值函数1.2.3 协方差函数(或核函数) 1.3 核函数1.4 高斯过程回归(Gauss

【学习笔记】 陈强-机器学习-Python-Ch15 人工神经网络(1)sklearn

系列文章目录 监督学习:参数方法 【学习笔记】 陈强-机器学习-Python-Ch4 线性回归 【学习笔记】 陈强-机器学习-Python-Ch5 逻辑回归 【课后题练习】 陈强-机器学习-Python-Ch5 逻辑回归(SAheart.csv) 【学习笔记】 陈强-机器学习-Python-Ch6 多项逻辑回归 【学习笔记 及 课后题练习】 陈强-机器学习-Python-Ch7 判别分析 【学

防近视护眼台灯什么牌子好?五款防近视效果好的护眼台灯推荐

在家里,灯具是属于离不开的家具,每个大大小小的地方都需要的照亮,所以一盏好灯是必不可少的,每个发挥着作用。而护眼台灯就起了一个保护眼睛,预防近视的作用。可以保护我们在学习,阅读的时候提供一个合适的光线环境,保护我们的眼睛。防近视护眼台灯什么牌子好?那我们怎么选择一个优秀的护眼台灯也是很重要,才能起到最大的护眼效果。下面五款防近视效果好的护眼台灯推荐: 一:六个推荐防近视效果好的护眼台灯的

无线领夹麦克风什么牌子好用?揭秘领夹麦克风哪个牌子音质好!

随着短视频行业的星期,围绕着直播和视频拍摄的电子数码类产品也迎来了热销不减的高增长,其中除了数码相机外,最为重要的麦克风也得到了日益增长的高需求,尤其是无线领夹麦克风,近几年可谓是异常火爆。别看小小的一对无线麦克风,它对于视频拍摄的音质起到了极为关键的作用。 不过目前市面上的麦克风品牌种类多到让人眼花缭乱,盲目挑选的话容易踩雷,那么无线领夹麦克风什么牌子好用?今天就给大家推荐几款音质好的

nudepy,一个有趣的 Python 库!

更多资料获取 📚 个人网站:ipengtao.com 大家好,今天为大家分享一个有趣的 Python 库 - nudepy。 Github地址:https://github.com/hhatto/nude.py 在图像处理和计算机视觉应用中,检测图像中的不适当内容(例如裸露图像)是一个重要的任务。nudepy 是一个基于 Python 的库,专门用于检测图像中的不适当内容。该

pip-tools:打造可重复、可控的 Python 开发环境,解决依赖关系,让代码更稳定

在 Python 开发中,管理依赖关系是一项繁琐且容易出错的任务。手动更新依赖版本、处理冲突、确保一致性等等,都可能让开发者感到头疼。而 pip-tools 为开发者提供了一套稳定可靠的解决方案。 什么是 pip-tools? pip-tools 是一组命令行工具,旨在简化 Python 依赖关系的管理,确保项目环境的稳定性和可重复性。它主要包含两个核心工具:pip-compile 和 pip

HTML提交表单给python

python 代码 from flask import Flask, request, render_template, redirect, url_forapp = Flask(__name__)@app.route('/')def form():# 渲染表单页面return render_template('./index.html')@app.route('/submit_form',