共享单车数据分析与需求预测项目

2024-04-25 02:28

本文主要是介绍共享单车数据分析与需求预测项目,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

注意:本文引用自专业人工智能社区Venus AI

更多AI知识请参考原站 ([www.aideeplearning.cn])

项目背景

自动自行车共享系统是传统自行车租赁的新一代,整个会员、租赁和归还过程都变得自动化。通过这些系统,用户可以轻松地在一个位置租赁自行车,然后在另一个位置归还。目前,全球有超过500个自行车共享计划,涵盖了超过50万辆自行车。由于这些系统在交通、环境和健康问题中的重要作用,它们引起了极大的关注。

除了自行车共享系统的有趣的实际应用之外,这些系统生成的数据特征使它们成为研究的有吸引力的对象。与其他交通服务(如公交或地铁)不同,这些系统明确记录了旅行的持续时间、出发地点和到达地点。这一特性将自行车共享系统转变成了一个可以用于城市移动性监测的虚拟传感器网络。因此,通过监测这些数据,预计可以检测到城市中的大多数重要事件。

项目目标

我们的项目旨在利用自动自行车共享系统的数据来实现城市移动性监测。具体目标包括:

  1. 分析城市中不同时间段的自行车共享模式,以了解城市的移动性趋势。
  2. 预测未来自行车共享需求,帮助共享系统优化自行车的分布和维护。
  3. 监测城市中的重要事件,如假期、天气和交通状况,以改进城市规划和交通管理。

项目应用

我们的项目有广泛的应用潜力,包括但不限于以下方面:

  1. 城市交通规划:通过了解自行车共享模式和需求,城市规划者可以更好地规划自行车道和交通设施。
  2. 环境保护:鼓励更多人使用自行车共享系统可以减少汽车尾气排放,有助于改善城市空气质量。
  3. 交通管理:监测特殊天气条件下的共享自行车使用情况可以帮助交通管理部门采取相应措施,以确保道路安全。

数据集描述

  • instant:记录索引
  • dteday:日期
  • season:季节(1:冬季,2:春季,3:夏季,4:秋季)
  • yr:年份(0: 2011, 1:2012)
  • mnth:月份(1到12)
  • hr:小时(0到23)
  • holiday:天气是否为假日
  • weekday:星期几
  • workingday:是否是工作日
  • weathersit:天气状况(1:晴天,2:多云,3:雨雪,4:暴雨)
  • temp:标准化温度(摄氏度)
  • atemp:标准化体感温度(摄氏度)
  • hum:标准化湿度
  • windspeed:标准化风速
  • casual:非注册用户租赁数量
  • registered:注册用户租赁数量
  • cnt:总租赁自行车数量(包括非注册和注册用户)

模型选择与依赖库

为了实现项目目标,我们计划使用以下机器学习模型:

  • 线性回归(LinearRegression)
  • 岭回归(Ridge)
  • Huber回归(HuberRegressor)
  • 弹性网络回归(ElasticNetCV)
  • 决策树回归(DecisionTreeRegressor)
  • 随机森林回归(RandomForestRegressor)
  • 极端随机树回归(ExtraTreesRegressor)
  • 梯度提升回归(GradientBoostingRegressor)

我们将使用Python编程语言,并依赖于以下库来处理数据、构建模型和可视化结果:

  • Pandas:用于数据清洗和预处理。
  • NumPy:用于数值计算。
  • Matplotlib和Seaborn:用于数据可视化。
  • Scikit-learn:用于构建和评估机器学习模型。

代码实现

导入模块

import pandas as pd
import numpy as np
import seaborn as sns
import matplotlib.pyplot as plt
import warnings
%matplotlib inline
warnings.filterwarnings('ignore')
pd.options.display.max_columns = 999

加载数据集

df = pd.read_csv('hour.csv')
df.head()
instantdtedayseasonyrmnthhrholidayweekdayworkingdayweathersittempatemphumwindspeedcasualregisteredcnt
012011-01-01101006010.240.28790.810.031316
122011-01-01101106010.220.27270.800.083240
232011-01-01101206010.220.27270.800.052732
342011-01-01101306010.240.28790.750.031013
452011-01-01101406010.240.28790.750.0011
# 统计信息
df.describe()
instantseasonyrmnthhrholidayweekdayworkingdayweathersittempatemphumwindspeedcasualregisteredcnt
count17379.000017379.00000017379.00000017379.00000017379.00000017379.00000017379.00000017379.00000017379.00000017379.00000017379.00000017379.00000017379.00000017379.00000017379.00000017379.000000
mean8690.00002.5016400.5025616.53777511.5467520.0287703.0036830.6827211.4252830.4969870.4757750.6272290.19009835.676218153.786869189.463088
std5017.02951.1069180.5000083.4387766.9144050.1671652.0057710.4654310.6393570.1925560.1718500.1929300.12234049.305030151.357286181.387599
min1.00001.0000000.0000001.0000000.0000000.0000000.0000000.0000001.0000000.0200000.0000000.0000000.0000000.0000000.0000001.000000
25%4345.50002.0000000.0000004.0000006.0000000.0000001.0000000.0000001.0000000.3400000.3333000.4800000.1045004.00000034.00000040.000000
50%8690.00003.0000001.0000007.00000012.0000000.0000003.0000001.0000001.0000000.5000000.4848000.6300000.19400017.000000115.000000142.000000
75%13034.50003.0000001.00000010.00000018.0000000.0000005.0000001.0000002.0000000.6600000.6212000.7800000.25370048.000000220.000000281.000000
max17379.00004.0000001.00000012.00000023.0000001.0000006.0000001.0000004.0000001.0000001.0000001.0000000.850700367.000000886.000000977.000000
# 数据类型信息
df.info()
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 17379 entries, 0 to 17378
Data columns (total 17 columns):#   Column      Non-Null Count  Dtype  
---  ------      --------------  -----  0   instant     17379 non-null  int64  1   dteday      17379 non-null  object 2   season      17379 non-null  int64  3   yr          17379 non-null  int64  4   mnth        17379 non-null  int64  5   hr          17379 non-null  int64  6   holiday     17379 non-null  int64  7   weekday     17379 non-null  int64  8   workingday  17379 non-null  int64  9   weathersit  17379 non-null  int64  10  temp        17379 non-null  float6411  atemp       17379 non-null  float6412  hum         17379 non-null  float6413  windspeed   17379 non-null  float6414  casual      17379 non-null  int64  15  registered  17379 non-null  int64  16  cnt         17379 non-null  int64  
dtypes: float64(4), int64(12), object(1)
memory usage: 2.3+ MB
# 每个特征中不重复的值
df.apply(lambda x: len(x.unique()))
instant       17379
dteday          731
season            4
yr                2
mnth             12
hr               24
holiday           2
weekday           7
workingday        2
weathersit        4
temp             50
atemp            65
hum              89
windspeed        30
casual          322
registered      776
cnt             869
dtype: int64

预处理数据集

# 检查是否有空值
df.isnull().sum()
instant       0
dteday        0
season        0
yr            0
mnth          0
hr            0
holiday       0
weekday       0
workingday    0
weathersit    0
temp          0
atemp         0
hum           0
windspeed     0
casual        0
registered    0
cnt           0
dtype: int64
df = df.rename(columns={'weathersit':'weather','yr':'year','mnth':'month','hr':'hour','hum':'humidity','cnt':'count'})
df.head()
instantdtedayseasonyearmonthhourholidayweekdayworkingdayweathertempatemphumiditywindspeedcasualregisteredcount
012011-01-01101006010.240.28790.810.031316
122011-01-01101106010.220.27270.800.083240
232011-01-01101206010.220.27270.800.052732
342011-01-01101306010.240.28790.750.031013
452011-01-01101406010.240.28790.750.0011
df = df.drop(columns=['instant', 'dteday', 'year'])
# 将 int 列更改为类别
cols = ['season','month','hour','holiday','weekday','workingday','weather']for col in cols:df[col] = df[col].astype('category')
df.info()
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 17379 entries, 0 to 17378
Data columns (total 14 columns):#   Column      Non-Null Count  Dtype   
---  ------      --------------  -----   0   season      17379 non-null  category1   month       17379 non-null  category2   hour        17379 non-null  category3   holiday     17379 non-null  category4   weekday     17379 non-null  category5   workingday  17379 non-null  category6   weather     17379 non-null  category7   temp        17379 non-null  float64 8   atemp       17379 non-null  float64 9   humidity    17379 non-null  float64 10  windspeed   17379 non-null  float64 11  casual      17379 non-null  int64   12  registered  17379 non-null  int64   13  count       17379 non-null  int64   
dtypes: category(7), float64(4), int64(3)
memory usage: 1.0 MB

探索性数据分析

fig, ax = plt.subplots(figsize=(20,10))
sns.pointplot(data=df, x='hour', y='count', hue='weekday', ax=ax)
ax.set(title='工作日和周末的自行车数量')
[Text(0.5, 1.0, '工作日和周末的自行车数量')]

fig, ax = plt.subplots(figsize=(20,10))
sns.pointplot(data=df, x='hour', y='casual', hue='weekday', ax=ax)
ax.set(title='工作日和周末的自行车数量:未注册用户')
[Text(0.5, 1.0, '工作日和周末的自行车数量:未注册用户')]

fig, ax = plt.subplots(figsize=(20,10))
sns.pointplot(data=df, x='hour', y='registered', hue='weekday', ax=ax)
ax.set(title='工作日和周末的自行车数量:注册用户')
[Text(0.5, 1.0, '工作日和周末的自行车数量:注册用户')]

fig, ax = plt.subplots(figsize=(20,10))
sns.pointplot(data=df, x='hour', y='count', hue='weather', ax=ax)
ax.set(title='不同天气下的自行车数量')
[Text(0.5, 1.0, '不同天气下的自行车数量')]

fig, ax = plt.subplots(figsize=(20,10))
sns.pointplot(data=df, x='hour', y='count', hue='season', ax=ax)
ax.set(title='不同季节下的自行车数量')
[Text(0.5, 1.0, '不同季节下的自行车数量')]

fig, ax = plt.subplots(figsize=(20,10))
sns.barplot(data=df, x='month', y='count', ax=ax)
ax.set(title='不同月份下的自行车数量')
[Text(0.5, 1.0, '不同月份下的自行车数量')]

fig, ax = plt.subplots(figsize=(20,10))
sns.barplot(data=df, x='weekday', y='count', ax=ax)
ax.set(title='不同天的自行车数量')
[Text(0.5, 1.0, '不同天的自行车数量')]

fig, (ax1,ax2) = plt.subplots(ncols=2, figsize=(20,6))
sns.regplot(x=df['temp'], y=df['count'], ax=ax1)
ax1.set(title="气温与用户数量的关系")
sns.regplot(x=df['humidity'], y=df['count'], ax=ax2)
ax2.set(title="湿度与用户数量的关系")
[Text(0.5, 1.0, '湿度与用户数量的关系')]

from statsmodels.graphics.gofplots import qqplot
fig, (ax1,ax2) = plt.subplots(ncols=2, figsize=(20,6))
sns.distplot(df['count'], ax=ax1)
ax1.set(title='用户数量分布')
qqplot(df['count'], ax=ax2, line='s')
ax2.set(title='理论分位数与样本分位数的比较(QQ图)')

[Text(0.5, 1.0, '理论分位数与样本分位数的比较(QQ图)')]

df['count'] = np.log(df['count'])

应用对数变换(如np.log(df['count'])),然后重新绘制分布和 QQ(分位数-分位数)图可能很有用,原因如下:

数据的正态性:许多统计技术假设数据服从正态分布。对数变换有助于标准化严重倾斜的变量分布。

稳定方差:对数变换可以稳定数据集的方差。在方差随平均值增加的情况下,应用对数变换可以产生更加同方差的数据集。

线性化关系:转换可以线性化关系,使数据中的模式更易于解释并适合线性建模。

减少异常值的影响:它还可以减少异常值的影响,因为对数转换显着缩小了数据的范围。

fig, (ax1,ax2) = plt.subplots(ncols=2, figsize=(20,6))
sns.distplot(df['count'], ax=ax1)
ax1.set(title='Distribution of the users')
qqplot(df['count'], ax=ax2, line='s')
ax2.set(title='Theoritical quantiles')
[Text(0.5, 1.0, 'Theoritical quantiles')]

相关矩阵

corr = df.corr()
plt.figure(figsize=(15,10))
sns.heatmap(corr, annot=True, annot_kws={'size':15})
<Axes: >

独热编码

pd.get_dummies(df['season'], prefix='season', drop_first=True)
season_2season_3season_4
0000
1000
2000
3000
4000
............
17374000
17375000
17376000
17377000
17378000

17379 rows × 3 columns

df_oh = dfdef one_hot_encoding(data, column):data = pd.concat([data, pd.get_dummies(data[column], prefix=column, drop_first=True)], axis=1)data = data.drop([column], axis=1)return datacols = ['season','month','hour','holiday','weekday','workingday','weather']for col in cols:df_oh = one_hot_encoding(df_oh, col)
df_oh.head()
tempatemphumiditywindspeedcasualregisteredcountseason_2season_3season_4month_2month_3month_4month_5month_6month_7month_8month_9month_10month_11month_12hour_1hour_2hour_3hour_4hour_5hour_6hour_7hour_8hour_9hour_10hour_11hour_12hour_13hour_14hour_15hour_16hour_17hour_18hour_19hour_20hour_21hour_22hour_23holiday_1weekday_1weekday_2weekday_3weekday_4weekday_5weekday_6workingday_1weather_2weather_3weather_4
00.240.28790.810.03132.772589000000000000000000000000000000000000000000010000
10.220.27270.800.08323.688879000000000000001000000000000000000000000000010000
20.220.27270.800.05273.465736000000000000000100000000000000000000000000010000
30.240.28790.750.03102.564949000000000000000010000000000000000000000000010000
40.240.28790.750.0010.000000000000000000000001000000000000000000000000010000
X = df_oh.drop(columns=['atemp', 'windspeed', 'casual', 'registered', 'count'], axis=1)
y = df_oh['count']

模型训练

from sklearn.linear_model import LinearRegression, Ridge, HuberRegressor, ElasticNetCV
from sklearn.tree import DecisionTreeRegressor
from sklearn.ensemble import RandomForestRegressor, GradientBoostingRegressor, ExtraTreesRegressormodels = [LinearRegression(),Ridge(),HuberRegressor(),ElasticNetCV(),DecisionTreeRegressor(),RandomForestRegressor(),ExtraTreesRegressor(),GradientBoostingRegressor()]

from sklearn import model_selection
def train(model):kfold = model_selection.KFold(n_splits=5, shuffle=True, random_state=42) pred = model_selection.cross_val_score(model, X, y, cv=kfold, scoring='neg_mean_squared_error')cv_score = pred.mean()print('Model:',model)print('CV score:', abs(cv_score))

代码中的内容cv_score就像您正在使用的机器学习模型的成绩单。它告诉您模型的表现如何。它的工作原理如下:

交叉验证 (CV):将您的数据视为一个大馅饼。代码将这个馅饼切成 5 片(因为n_splits=5)。然后,它使用 4 个切片来训练模型,并使用 1 个切片来测试模型。这样做 5 次,每次使用不同的切片进行测试。

评分:每次测试后,模型根据其错误(均方误差)获得分数。但在代码中,这些分数是负数。

平均分数 ( cv_score):这cv_score是这些测试分数的平均值。我们将负分改为正分(使用abs(cv_score))以使它们更容易理解。较低的分数意味着模型犯的错误较少,这很好!

因此,cv_score平均分数表明您的模型的预测效果如何。它的值越低越好。

for model in models:train(model)
Model: LinearRegression()
CV score: 0.44849511159541205
Model: Ridge()
CV score: 0.4484090089563206
Model: HuberRegressor()
CV score: 0.46596807512124105
Model: ElasticNetCV()
CV score: 0.45614918135359145
Model: DecisionTreeRegressor()
CV score: 0.44255199359646225
Model: RandomForestRegressor()
CV score: 0.23279282002190094
Model: ExtraTreesRegressor()
CV score: 0.23485168754583902
Model: GradientBoostingRegressor()
CV score: 0.35702811006978274

线性回归:基本回归模型,CV分数为0.4485,表示平均误差。

岭回归:与线性回归类似,但经过正则化,误差稍低,为 0.4484。

Huber 回归器:一个对异常值具有鲁棒性的模型,CV 得分为 0.4660,表明它对此数据集可能不那么有效。

ElasticNetCV:结合L1和L2正则化,CV得分为0.4561。

决策树回归器:非线性模型,CV 得分为 0.4426。

随机森林回归器:决策树的集合,显示出明显更好的 CV 分数 0.2328。

Extra Trees Regressor:与随机森林类似,但 CV 分数稍好,为 0.2349。

Gradient Boosting Regressor:一个专注于纠正其上一个子模型错误的集成模型,CV 得分为 0.3570。

CV 分数越低表明模型性能越好。RandomForest 和 ExtraTrees 回归器显示了这些模型中的最佳结果。

from sklearn.model_selection import train_test_split
x_train, x_test, y_train, y_test = train_test_split(X, y, test_size=0.25, random_state=42)
model = RandomForestRegressor()
model.fit(x_train, y_train)
y_pred = model.predict(x_test)
# 绘制误差差
error = y_test - y_pred
fig, ax = plt.subplots()
ax.scatter(y_test, error)
ax.axhline(lw=3, color='black')
ax.set_xlabel('Observed')
ax.set_ylabel('Error')
plt.show()

from sklearn.metrics import mean_squared_error
np.sqrt(mean_squared_error(y_test, y_pred))
0.48527134611361483

代码与数据集下载

详情请见共享单车数据分析与需求预测项目-VenusAI (aideeplearning.cn)

这篇关于共享单车数据分析与需求预测项目的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/933481

相关文章

这15个Vue指令,让你的项目开发爽到爆

1. V-Hotkey 仓库地址: github.com/Dafrok/v-ho… Demo: 戳这里 https://dafrok.github.io/v-hotkey 安装: npm install --save v-hotkey 这个指令可以给组件绑定一个或多个快捷键。你想要通过按下 Escape 键后隐藏某个组件,按住 Control 和回车键再显示它吗?小菜一碟: <template

如何用Docker运行Django项目

本章教程,介绍如何用Docker创建一个Django,并运行能够访问。 一、拉取镜像 这里我们使用python3.11版本的docker镜像 docker pull python:3.11 二、运行容器 这里我们将容器内部的8080端口,映射到宿主机的80端口上。 docker run -itd --name python311 -p

在cscode中通过maven创建java项目

在cscode中创建java项目 可以通过博客完成maven的导入 建立maven项目 使用快捷键 Ctrl + Shift + P 建立一个 Maven 项目 1 Ctrl + Shift + P 打开输入框2 输入 "> java create"3 选择 maven4 选择 No Archetype5 输入 域名6 输入项目名称7 建立一个文件目录存放项目,文件名一般为项目名8 确定

怎么让1台电脑共享给7人同时流畅设计

在当今的创意设计与数字内容生产领域,图形工作站以其强大的计算能力、专业的图形处理能力和稳定的系统性能,成为了众多设计师、动画师、视频编辑师等创意工作者的必备工具。 设计团队面临资源有限,比如只有一台高性能电脑时,如何高效地让七人同时流畅地进行设计工作,便成为了一个亟待解决的问题。 一、硬件升级与配置 1.高性能处理器(CPU):选择多核、高线程的处理器,例如Intel的至强系列或AMD的Ry

Vue3项目开发——新闻发布管理系统(六)

文章目录 八、首页设计开发1、页面设计2、登录访问拦截实现3、用户基本信息显示①封装用户基本信息获取接口②用户基本信息存储③用户基本信息调用④用户基本信息动态渲染 4、退出功能实现①注册点击事件②添加退出功能③数据清理 5、代码下载 八、首页设计开发 登录成功后,系统就进入了首页。接下来,也就进行首页的开发了。 1、页面设计 系统页面主要分为三部分,左侧为系统的菜单栏,右侧

SpringBoot项目是如何启动

启动步骤 概念 运行main方法,初始化SpringApplication 从spring.factories读取listener ApplicationContentInitializer运行run方法读取环境变量,配置信息创建SpringApplication上下文预初始化上下文,将启动类作为配置类进行读取调用 refresh 加载 IOC容器,加载所有的自动配置类,创建容器在这个过程

Maven创建项目中的groupId, artifactId, 和 version的意思

文章目录 groupIdartifactIdversionname groupId 定义:groupId 是 Maven 项目坐标的第一个部分,它通常表示项目的组织或公司的域名反转写法。例如,如果你为公司 example.com 开发软件,groupId 可能是 com.example。作用:groupId 被用来组织和分组相关的 Maven artifacts,这样可以避免

2. 下载rknn-toolkit2项目

官网链接: https://github.com/airockchip/rknn-toolkit2 安装好git:[[1. Git的安装]] 下载项目: git clone https://github.com/airockchip/rknn-toolkit2.git 或者直接去github下载压缩文件,解压即可。

9.8javaweb项目总结

1.主界面用户信息显示 登录成功后,将用户信息存储在记录在 localStorage中,然后进入界面之前通过js来渲染主界面 存储用户信息 将用户信息渲染在主界面上,并且头像设置跳转,到个人资料界面 这里数据库中还没有设置相关信息 2.模糊查找 检测输入框是否有变更,有的话调用方法,进行查找 发送检测请求,然后接收的时候设置最多显示四个类似的搜索结果

maven发布项目到私服-snapshot快照库和release发布库的区别和作用及maven常用命令

maven发布项目到私服-snapshot快照库和release发布库的区别和作用及maven常用命令 在日常的工作中由于各种原因,会出现这样一种情况,某些项目并没有打包至mvnrepository。如果采用原始直接打包放到lib目录的方式进行处理,便对项目的管理带来一些不必要的麻烦。例如版本升级后需要重新打包并,替换原有jar包等等一些额外的工作量和麻烦。为了避免这些不必要的麻烦,通常我们