Python——基于共享单车使用量数据的可视化分析(1)

2024-05-24 20:36

本文主要是介绍Python——基于共享单车使用量数据的可视化分析(1),希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

目录

🧾 1、数据集(部分数据)

✏️ 2、导入数据集与必要模块

1️⃣ 2.1 导入库以及字体包

2️⃣ 2.2 读取数据集

3️⃣ 2.3 查看数据集基本信息

⌨️ 3、数据预处理

1️⃣ 3.1删除无关字段

2️⃣ 3.2对各字段进行中文标识

3️⃣ 3.3 用条形图展示字段类型个数

📍 df.rename(index=None,columns=None,axis=None,inplace=False)

📍 value_counts(sort,ascending,normalize,bins,dropna)

📍 绘制图形xxx.plot(kind,x,y,ax,subplots,sharex, sharey,layout,figsize,title,xlabel, ylabel,legend,style,logx, logy,xticks, yticks,grid,use_index,colormap,colorbar)

📊 4、使用量影响因素可视化分析 

1️⃣ 4.1 利用直方图、箱线图观察单车使用量的分布

📍 直方图 

📍 箱线图 

 2️⃣ 4.2 利用条形图、饼图对比两年的单车使用量

📍 分组聚合dataframe.groupby(by=None,axis=0,level=None,as_index=True,sort=True,group_keys=True,squeeze=NoDefault.no_default,observed=False,dropna=True)

📍 条形图

📍 饼图


🧾 1、数据集(部分数据)

  • day数据集

字段名称含义说明

instant

行数编码
dteday日期变量
season季节变量,编码1-4分别表示1-3月、4-6月、6-9月,10-12月
yr年份变量,编码0代表2011年,1代表2012年
mnth月份编码,范围为1-12,代表1-12月
holiday是否为节假日,0代表不是,1代表是
weekday一周的第几天,范围为0-6
workingday是否为工作日,0代表不是,1代表是
weathersit天气类型,1代表晴朗少云,2代表多云雾,3代表小雨/小雪/雷电
temp以摄氏度表示的标准化温度,值被除以41(最大值)
atemp以摄氏度表示的标准化感觉温度,值被除以50(最大值)
hum标准化湿度,值被除以100(最大值)
windspeed标准化风速,值被除以67(最大值)
casual未注册用户单车使用量
registered注册用户单车使用量
cnt所有用户单车使用量,包括未注册用户和注册用户
  •  tree数据集

✏️ 2、导入数据集与必要模块

1️⃣ 2.1 导入库以及字体包

# 导入pandas模块和numpy模块
import pandas as pd  
import numpy as np  # 3.# 导入matplotlib.pyolot模块
import matplotlib.pyplot as plt  
from plotnine import *
%matplotlib inline# 3.设置绘图时的中文字体
from matplotlib.font_manager import FontProperties
plt.rcParams['font.sans-serif'] = ['SimHei']
plt.rcParams['axes.unicode_minus']=False# 4.字体包的存放路劲、设置字体的大小为15
myfont = FontProperties(fname = 'C:/XXX/xxx/Desktop/实验五——共享单车可视化/FangSong_GB2312.ttf', size = 15)  

2️⃣ 2.2 读取数据集

# 1.读取数据
data_old = pd.read_csv('C:/XXX/xxx/Desktop/实验五——共享单车可视化/day.csv')# 2.查看数据的前5行
data_old.head()

3️⃣ 2.3 查看数据集基本信息

# 1.查看数据集基本信息
data_old.info()

  • 从结果中可以看出,数据集中共包含731条数据,没有缺失数据 。

⌨️ 3、数据预处理

1️⃣ 3.1删除无关字段

  • 有些字段与数据分析无关,例如:字段instant表示行数编码,可以直接删除。

  • 有些字段的含义较为接近,保留其一即可,例如:字段atemp和temp都表示温度,留下一个就可以。

# 1.使用drop方法来删除字段
data = data_old.drop(['instant', 'atemp', 'casual', 'registered'], axis=1)  

2️⃣ 3.2对各字段进行中文标识

# 1.字段名称
chs_name = {'dteday': '日期',    # {'新列名':'旧列名'}'season': '季节','yr': '年份','mnth': '月份','holiday': '节假日','weekday': '星期','workingday': '工作日','weathersit': '天气类型','temp': '温度','hum': '湿度', 'windspeed': '风速', 'cnt': '使用量'}# 2.使用rename方法对列明进行修改,是直接在元数据进行修改
data.rename(columns=chs_name, inplace=True) # 3.标识后的结果
data.head()

3️⃣ 3.3 用条形图展示字段类型个数

📍 df.rename(index=None,columns=None,axis=None,inplace=False)
字段数据类型含义
indexlist 或 dict 或 series用于重命名行索引的标签或映射的字典,如{ 0 : “第一行”}
columnslist 或 dict 或 series用于重命名列名的标签或映射的字典,如{ A : “第一列”}
axisint 或 str要重命名的轴
inplacebool是否在原地修改 DataFrame,如果为True,则直接在原 DataFrame 上进行修改,不返回新的 DataFrame,如果为False(默认值),则返回一个新的 DataFrame,原 DataFrame 保持不变
📍 value_counts(sort,ascending,normalize,bins,dropna)
字段数据类型含义
sortbool

默认为True,如果为True,则对结果进行降序排序(从最常见的值到最不常见的值),如果为False,则不会进行排序

ascendingbool

默认值为 False,如果为False,则结果按降序排序(最常见的值在最前面),如果为True,则结果按升序排序(最不常见的值在最前面)

normalizebool默认值为False如果为True,则返回每个值出现的频率(即每个值出现的次数除以总数),如果为False,则返回每个值出现的次数
binsint 或 array可以用来对数据进行分箱,并将结果作为类别计数返回,如果指定了bins,则normalize 必须为False
dropnabool默认值为True如果为True,则不在结果中包含缺失值(NaN),如果为False,则会在结果中包含缺失值,并计算它们的出现次数

🔷 data_type_df = pd.DataFrame(data.dtypes.value_counts()).rename(columns={0: 'count'})

  • data.dtypes:这个操作会返回一个Series,其中包含data DataFrame中每列的数据类型
  • data.dtypes.value_counts():使用value_counts()方法,我们计算data DataFrame中每种数据  类型的出现次数。这将返回一个Series,其中索引是数据类型,值是相应的计数 
  • pd.DataFrame(data.dtypes.value_counts()):我们将上一步得到的Series转换为一个新的  DataFrame。默认情况下,Series的索引将成为新DataFrame的索引,而Series的值将成为新  DataFrame的唯一一列,列名为0
  • .rename(columns={0: 'count'}):使用rename()方法,我们将新DataFrame中列名0更改为count。这里,columns={0: 'count'}是一个字典,指定了列名的映射关系

📍 绘制图形​​​​​​​xxx.plot(kind,x,y,ax,subplots,sharex, sharey,layout,figsize,title,xlabel, ylabel,legend,style,logx, logy,xticks, yticks,grid,use_index,colormap,colorbar)

字段数据类型含义
kindstr

定义了图形的类型,如 'line', 'bar', 'barh', 'hist', 'box', 'kde', 'density', 'area', 'pie', 

'scatter', 'hexbin' 等

x,y

str 或 

array-like

定义了用于绘图的数据列。x 是 x 轴的数据,y 是 y 轴的数据。如果是 str 类型,则代表 DataFrame 中的列名;如果是 array-like 类型,则代表具体的数值

ax

matplotlib.axes.Axes 

     或 None

一个 matplotlib axes 对象,绘图将在这个对象上进行。如果为 None,则会创建一个新的 axes 对象

subplotsbool

如果为 True,则创建子图进行绘图

sharex,shareybool

如果创建子图(subplots=True),这些参数决定了 x 轴或 y 轴是否共享

layout

tuple

用于子图的布局,格式为 (rows, columns)

figsizetuple

定义图形的尺寸,格式为 (width, height)

titlestr图形的标题
xlabel, ylabelstrx 轴和 y 轴的标签
legendbool 或 ‘reverse’是否显示图例,或者是否反转图例的顺序
style

list 或 array

用于线条的样式列表或数组
logx, logybool是否对 x 轴或 y 轴使用对数刻度
xticks, yticks

list 或 array

x 轴或 y 轴的刻度位置
gridbool是否显示网格线
use_indexbool是否将 DataFrame 的索引用作 x 轴的值
colormap

str 或 matplotlib.colors.Colorma

用于绘制图形的颜色映射
colorbarbool是否显示颜色条
# 1.统计数据以及对字段进行重命名
data_type_df = pd.DataFrame(data.dtypes.value_counts()).rename(columns={0: 'count'})  # 2.绘制条形图
data_type_df.plot(kind='bar',                   # 绘制图的类型title='字段类型个数条形图',    # 设置标题legend=False,                # 子图的图例rot=360,                      # 设置轴标签的旋转度数figsize=(8, 6))               # 图片的尺寸大小

📊 4、使用量影响因素可视化分析 

1️⃣ 4.1 利用直方图、箱线图观察单车使用量的分布

📍 直方图 

​​​​​​​plt.hist( x, bins=10, range=None, normed=False, weights=None, cumulative=False, bottom=None, histtype=u'bar', align=u'mid', orientation=u'vertical', rwidth=None, log=False, color=None, label=None, stacked=False, hold=None, **kwargs)

字段数据类型含义
x

array

输入数组或序列的数组,用于计算直方图。它应该是一维的,或者如果是一个序列,序列中的每个数组都应该是一维的

bins

int or sequence or str

指定直方图的箱子数量或箱子边界。如果是一个整数,则它定义了等宽的箱子的数量。如果是一个序列,则它定义了箱子边界,包括右边界但不包括左边界,串 'auto'、'sturges'、'fd'、'doane'、'rice'、'sturges'、'sqrt' 可以自动选择箱子数量

range

float

直方图的范围 (xmin, xmax),即 x 轴的最小值和最大值。如果 None,则使用 x 的范围

normed

bool

如果为 True,则返回的直方图值将显示为密度,即每个箱子的计数将除以所有箱子的计数之和(从而总和为 1)。注意:normed 参数在较新的 Matplotlib 版本中已被重命名为 density

weights

array

与 x 形状相同的权重数组,用于对直方图中的每个元素进行加权

cumulative

bool

如果为 True,则绘制累积直方图

histtypestr

{'bar', 'barstacked', 'step', 'stepfilled'}, optional直方图的类型

alignstr

{'left', 'mid', 'right'}控制直方图条形的对齐方式

orientationstr

{'horizontal', 'vertical'}设置直方图的方向

rwidth

scalar or array

条形宽度(以箱子宽度的百分比表示)

log

bool

如果为 True,则对直方图使用对数刻度

color

array

直方图的颜色

label

str

直方图的标签,用于图例

stacked

bool

如果为 True,则绘制堆叠的直方图

📍 箱线图 

plt.boxplot(x, notch=None,sym=None, vert=None, whis=None, positions=None, widths=None, patch_artist=None, bootstrap=None, usermedians=None, conf_intervals=None, meanline=None, showmeans=None, showcaps=None, showbox=None, showfliers=None, boxprops=None, labels=None, flierprops=None, medianprops=None, meanprops=None, capprops=None, whiskerprops=None, manage_xticks=True, autorange=False, zorder=None, hold=None, data=None)

字段数据类型含义
x

array or list of arrays

输入数据。如果 x 是一个一维数组或列表,则绘制一个箱线图。如果 x 是一个二维数组或列表的列表,则每一列都将绘制为一个独立的箱线图,并可以通过 positions 参数来指定它们在 x 轴上的位置

notch

bool or None

是否创建一个缩进的表示中位数的记号。如果为 None,则默认由 bootstrap 参数决定

sym

str

用于超出上下四分位距的点的符号。默认为 '+'

vert

bool

如果为 True(默认值),则创建垂直箱线图。如果为 False,则创建水平箱线图

whis

float sequence 

or string

定义上下四分位距之外异常值的范围。可以是 0 到 1 之间的浮点数,表示相对于四分位距的倍数;也可以是一个包含两个浮点数的序列,分别定义下限和上限;或者是一个包含字符串 'range' 的序列,用来指定一个固定的范围

positions

array of floats

用于绘制箱线图的 x 轴位置。当 x 是一个二维数组时,positions 定义了每一列箱线图在 x 轴上的位置

widths

scalar sequence

箱体的宽度。可以是单个数值,用于所有箱体;也可以是一个序列,用于指定每个箱体的宽度

patch_artist

bool

是否填充箱体的颜色

bootstrap

int

指定用于计算置信区间的自举样本的数量。如果为 0,则不进行自举,并且箱体的记号不会缩进

labels

array of strings

箱线图的标签

boxprops

dict

用于设置箱体属性的字典,例如颜色、线宽

flierprops

dict

用于设置超出范围的点(flyers)属性的字典

medianprops

dict

用于设置中位数线属性的字典

capprops

dict

用于设置箱线图顶部和底部“帽子”线属性的字典

whiskerprops

dict

用于设置箱线图“胡须”线(即连接中位数和四分位数的线)属性的字典

manage_xticks

bool

如果为 True,则调整 x 轴刻度位置以适合箱线图的位置

autorange

bool

是否自动调整箱线图的范围以包含所有数据点

zorder

float

控制绘图元素的堆叠顺序

# 1.绘制直方图
plt.figure(figsize = (14,6))       # 图片的尺寸大小              
plt.subplot(1, 2, 1)               # 生成一行两列两个子图,现在将画在第一个位置plt.hist(data['使用量'],          # 选取data中'使用量'这一列的数据画图      bins=8,                  # 直方图的柱数,默认值为10facecolor='green',       # 直方图的颜色   alpha=0.5,               # 透明度edgecolor='black')       # 直方图的边框颜色# 2.设置标题、x轴、y轴的标题,以及字体的大小
plt.title('使用量直方图', fontsize=15)  
plt.xlabel('使用量', fontsize=15)
plt.ylabel('频数', fontsize=15)# 3.绘制箱线图
plt.subplot(1, 2, 2)                 # 生成一行两列两个子图,现在将画在第二个位置
plt.boxplot(data['使用量'],          # 选取data中'使用量'这一列的数据画图 labels=['使用量'],       # 添加标签patch_artist = True,    # 表示填充箱体颜色boxprops = {'color':'black','facecolor':'yellow'},   # 设置箱子外框的颜色和箱子内部填充的颜色flierprops = {'markerfacecolor':'red','color':'black'})  # 设置异常值的颜色为黑色,中位数为红色# 4.设置标题
plt.title('使用量箱线图', fontsize=15)# 5.设置x轴的标签的字体大小
plt.xticks(fontsize=12)   

 2️⃣ 4.2 利用条形图、饼图对比两年的单车使用量

📍 分组聚合​​​​​​​dataframe.groupby(by=None,axis=0,level=None,as_index=True,sort=True,group_keys=True,squeeze=NoDefault.no_default,observed=False,dropna=True)

字段数据类型含义

by

str dict series

用于确定分组依据的列名、列名列表、字典、Series 或函数。如果传递的是函数,它将应用于每一列,并返回用于分组的值

axis

int

分组的轴。0 或 'index' 表示按行分组(这是默认的),1 或 'columns' 表示按列分组。

level

int

如果轴是一个 MultiIndex(多级索引),则用于分组的级别或级别序列

as_index

bool

对于聚合操作,返回对象是否应有其分组作为索引。设置为 False 会将分组标签作为普通列返回在结果 DataFrame 中

sort

bool

是否对分组键进行排序。设置为 False 将加快操作速度,尤其是在已经排序的数据上

group_keys

bool

当调用 apply 时,是否将分组键添加到索引中。如果为 False,则不会添加

squeeze

bool

如果可能的话,返回标量、Series 或 DataFrame。这在分组只产生一个唯一值时特别有用

🔹 groupby函数通常涉及1-3个操作步骤

(1) Splitting 分割:根据一些准则,将数据框分割为多个子集;

(2) Applying 应用:

(1)对某个子集应用某个函数,比如计算每个组的汇总信息(总和、均值、计数);

(2)转换;

(3)筛选。

(3) Combing 组合:将应用函数后的结果,组合起来形成新的数据框。

注意:(1) 分组函数返回的是一个 DataFrameGroupBy对象(比如 gp = df.groupby(‘col1’, ‘col2’), gp是groupby函数返回的对象),可以通过 gp.get_group(‘col1val1’, ‘col2val2’) 检索对象中的子集。

(2) 在分组、应用函数(比如计数、求均值)之后,返回的是一个DataFrame,很方便做表、画图等进一步处理,比如gp.count()是一个DataFrame,然后接着画图:gp.count().plot.bar(‘col3’)

📍 条形图

​​​​​​​plt.bar(x, height, width=0.8, bottom=None, align='center', data=None, **kwargs)

字段数据类型含义
x

float or array

x坐标的位置。可以是单个数字、长度为N的数组或标量序列。对于水平条形图,它表示条形的y坐标位置

height

float or array

条形的高度。对于水平条形图,这个参数表示条形的宽度

width

scalar or array

条形的宽度。默认值为0.8,表示每个条形宽度的相对大小。如果指定为数组,则数组长度应与x或height的长度相同

bottom

float or array

y坐标的基线位置,即条形图底部的y坐标。如果指定为数组,则数组长度应与x或height的长度相同。默认为None,表示基线位置为0

alignstr

条形对齐方式。'center'表示条形以x位置为中心,'edge'表示条形左边缘位于x位置。默认为'center'

data

indexable object

可选参数,用于传递包含变量的对象。通常用于pandas DataFrame或Series

kwarg-

其他关键字参数。例如,color 参数用于设置条形的颜色,edgecolor 参数用于设置条形边缘的颜色,label 参数用于设置图例标签等

📍 饼图

plt.pie(x ,labels,autopct = '%3.2f%%',shadow = True ,labeldistance = 1.1,startangle = 90,pctdistance = 0.7)

字段数据类型含义

x

array or list

包含每个扇区的数值大小

labels

array or list

与 x 参数的长度相同,用于每个扇区的标签。labels 是一个包含字符串的序列,每个字符串是饼图中对应扇区的标签

autopct

str

用于控制每个扇区百分比标签的显示格式。'%3.2f%%' 表示每个百分比标签将显示为固定点格式,保留两位小数

shadow

bool

控制饼图是否应该有阴影效果。设置为 True 将添加阴影效果

labeldistance

float

控制标签距离圆心的距离,单位是半径的比例。1.1 表示标签距离圆心的距离是饼图半径的 1.1 倍

startangle

float

控制饼图的起始角度,以度为单位。90 表示饼图从水平方向开始

pctdistanc

float

控制百分比标签距离圆心的距离,单位是半径的比例。0.7 表示百分比标签距离圆心的距离是饼图半径的 0.7 倍

# 1.绘制条形图
### 分组聚合
count_grouped = data['使用量'].groupby(data['年份']).sum()  # 选取data数据中'使用量'这列的数据,根据'年份'进行分组,并统计总数count_grouped_df = count_grouped.reset_index()   # reset_index()主要用于重置索引,在获得新的index,原来的index会变成数据列,保存在数据框中count_grouped_df['年份'] = count_grouped_df['年份'].map({0:'2011', 1:'2012'})  # 使用map()方法,将值为0映射成2011,值为1映射成2012# 2.绘图
plt.figure(figsize = (14,6))                     
plt.subplot(1, 2, 1)plt.bar(count_grouped_df['年份'],count_grouped_df['使用量'],width=0.5,                     # 设置柱状图的宽度,正常值在0-1之间,默认值是0.8color=['blue', 'orange'])      # 设置柱状图内部填充的颜色plt.title('两年使用总量对比条形图', fontsize=15)
plt.xlabel('年份', fontsize=15)
plt.ylabel('使用量', fontsize=15)# 3.绘制饼状图
### 计算百分比
count_grouped_df['百分比'] = count_grouped_df['使用量']/count_grouped_df['使用量'].sum()### 绘图                    
plt.subplot(1, 2, 2)plt.pie(count_grouped_df['百分比'],  labels=['2011', '2012'],   # 设置饼图内各部分的标签autopct = '%1.1f')         # 设置饼图内的文本plt.title('两年使用总量对比饼状图', fontsize=15)
plt.legend(loc='upper right', fontsize=10)

注意:本文中数据以及内容若有侵权,请第一时间联系删除。

           本文未经作者授权,禁止转载,谢谢配合。

这篇关于Python——基于共享单车使用量数据的可视化分析(1)的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/999463

相关文章

使用Python绘制蛇年春节祝福艺术图

《使用Python绘制蛇年春节祝福艺术图》:本文主要介绍如何使用Python的Matplotlib库绘制一幅富有创意的“蛇年有福”艺术图,这幅图结合了数字,蛇形,花朵等装饰,需要的可以参考下... 目录1. 绘图的基本概念2. 准备工作3. 实现代码解析3.1 设置绘图画布3.2 绘制数字“2025”3.3

详谈redis跟数据库的数据同步问题

《详谈redis跟数据库的数据同步问题》文章讨论了在Redis和数据库数据一致性问题上的解决方案,主要比较了先更新Redis缓存再更新数据库和先更新数据库再更新Redis缓存两种方案,文章指出,删除R... 目录一、Redis 数据库数据一致性的解决方案1.1、更新Redis缓存、删除Redis缓存的区别二

Redis事务与数据持久化方式

《Redis事务与数据持久化方式》该文档主要介绍了Redis事务和持久化机制,事务通过将多个命令打包执行,而持久化则通过快照(RDB)和追加式文件(AOF)两种方式将内存数据保存到磁盘,以防止数据丢失... 目录一、Redis 事务1.1 事务本质1.2 数据库事务与redis事务1.2.1 数据库事务1.

python使用watchdog实现文件资源监控

《python使用watchdog实现文件资源监控》watchdog支持跨平台文件资源监控,可以检测指定文件夹下文件及文件夹变动,下面我们来看看Python如何使用watchdog实现文件资源监控吧... python文件监控库watchdogs简介随着Python在各种应用领域中的广泛使用,其生态环境也

Python中构建终端应用界面利器Blessed模块的使用

《Python中构建终端应用界面利器Blessed模块的使用》Blessed库作为一个轻量级且功能强大的解决方案,开始在开发者中赢得口碑,今天,我们就一起来探索一下它是如何让终端UI开发变得轻松而高... 目录一、安装与配置:简单、快速、无障碍二、基本功能:从彩色文本到动态交互1. 显示基本内容2. 创建链

Java调用Python代码的几种方法小结

《Java调用Python代码的几种方法小结》Python语言有丰富的系统管理、数据处理、统计类软件包,因此从java应用中调用Python代码的需求很常见、实用,本文介绍几种方法从java调用Pyt... 目录引言Java core使用ProcessBuilder使用Java脚本引擎总结引言python

python 字典d[k]中key不存在的解决方案

《python字典d[k]中key不存在的解决方案》本文主要介绍了在Python中处理字典键不存在时获取默认值的两种方法,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,... 目录defaultdict:处理找不到的键的一个选择特殊方法__missing__有时候为了方便起见,

使用Nginx来共享文件的详细教程

《使用Nginx来共享文件的详细教程》有时我们想共享电脑上的某些文件,一个比较方便的做法是,开一个HTTP服务,指向文件所在的目录,这次我们用nginx来实现这个需求,本文将通过代码示例一步步教你使用... 在本教程中,我们将向您展示如何使用开源 Web 服务器 Nginx 设置文件共享服务器步骤 0 —

使用Python绘制可爱的招财猫

《使用Python绘制可爱的招财猫》招财猫,也被称为“幸运猫”,是一种象征财富和好运的吉祥物,经常出现在亚洲文化的商店、餐厅和家庭中,今天,我将带你用Python和matplotlib库从零开始绘制一... 目录1. 为什么选择用 python 绘制?2. 绘图的基本概念3. 实现代码解析3.1 设置绘图画

Python pyinstaller实现图形化打包工具

《Pythonpyinstaller实现图形化打包工具》:本文主要介绍一个使用PythonPYQT5制作的关于pyinstaller打包工具,代替传统的cmd黑窗口模式打包页面,实现更快捷方便的... 目录1.简介2.运行效果3.相关源码1.简介一个使用python PYQT5制作的关于pyinstall