去年火热的共享单车为何有的爆火,有的直接倒闭呢?Python挖掘一下他们的数据。

本文主要是介绍去年火热的共享单车为何有的爆火,有的直接倒闭呢?Python挖掘一下他们的数据。,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

前言

     去年还是前年吧,那时候共享单车首先出来的好像是红色的吧,是摩拜吧,如果我没记错的话,自从摩拜火了之后,后续又出现了很多颜色的共享单车,简直密密麻麻的,我还记得不知道是哪个公司的,我的99押金都没退出来,那家公司就没了,押金也就没了。但是发展到现在的话好像就一个小溜共享电动车和支付宝的哈罗还存在吧,其他的基本没见过了。今天咱们来好好的分析一下!

                          

对了,还有一件尤为重要的事情,在这里和大家讲一下,恭喜EDG痛失亚军,喜提冠军,又为咱们LPL拿下一个冠军,到现在也是咱们中国的第三个冠军吧,EDG牛*

     ​​​

数据集简介

关于共享单车数据集

自行车共享系统是传统自行车租赁的新一代,从注册会员、租赁到归还的整个过程都是自动化的。通过这些系统,用户可以很容易地从一个特定的位置租用自行车,并在另一个位置归还。目前,全球大约有500多个共享单车项目,这些项目由50多万辆自行车组成。今天,由于它们在交通、环境和健康问题上的重要作用,人们对这些系统产生了极大的兴趣。

除了自行车共享系统在现实世界的有趣应用之外,众多研究者们对这些系统所产生的数据产生浓厚的兴趣。与其他运输服务(如公共汽车或地铁)不同,共享自行车使用的持续时间、出发时间和到达位置都明确地记录在系统中。这一功能将自行车共享系统变成了一个虚拟传感器网络,可用于感知城市中的流动性。因此,通过监测这些数据,预计可以检测到城市中的大多数重要事件。

今天我们就运用这些数据集,挖掘出蕴含在其中的有效的信息。接下来从探索数据属性,清洗数据,到模型开发,一起来学习,共同进步。

注意,该数据集是国外共享单车数据集,并非国内的共享单车数据集。但不影响我们学习数据挖掘相关知识和技术。数据集获取可以关注公众号:Python源码   回复EDG牛逼  获取

属性信息

hour.csv和 day.csv都有以下字段,day.csv中没有 hr 字段

  • instant:记录索引

  • dteday :日期

  • season :季节 (1:春天, 2:夏天, 3:秋天, 4:冬天)

  • yr :年份 (0:2011, 1:2012)

  • mnth:月份 ( 1 to 12)

  • hr:小时 (0 to 23)

  • holiday :是否是假期

  • weekday :星期几

  • workingday :工作日,如果日既不是周末也不是假日,则为1,否则为0。

  • weathersit

    • 1:晴,少云,部分云,无云

    • 2:薄雾+多云,薄雾+碎云,薄雾+少量云,薄雾

    • 3:小雪,小雨+雷暴+散云,小雨+散云

    • 4:大雨+冰板+雷暴+雾,雪+雾

  • temp:标准化温度数据,单位为摄氏度。这些值是通过(t-t_min)/(t_max-t_min, t_min=-8, t_max=+39(仅在小时范围内)得到的

  • atemp:以摄氏度为单位的正常体感温度。这些值是通过(t-t_min)/(t_max-t_min), t_min=-16, t_max=+50(仅在小时范围内)得到的

  • hum:标准化湿度。这些值被分割到100(最大值)

  • windspeed:归一化的风速数据。这些值被分割到 67 (最大值)

  • casual:注销用户数量

  • registered:已注册用户数量

  • cnt:出租自行车总数,包括注销和注册自行车

前期准备

导入模块

import seaborn as sns
import matplotlib.pyplot as plt
from prettytable import PrettyTable
import numpy as np  
import pandas as pd  
from sklearn.model_selection import RandomizedSearchCV
from sklearn.metrics import mean_squared_error, mean_absolute_error, mean_squared_log_error
from sklearn.linear_model import Lasso, ElasticNet, Ridge, SGDRegressor
from sklearn.svm import SVR, NuSVR
from sklearn.ensemble import BaggingRegressor, RandomForestRegressor
from sklearn.neighbors import KNeighborsClassifier
from sklearn.cluster import KMeans
from sklearn.ensemble import RandomForestClassifier
from sklearn.ensemble import GradientBoostingClassifier
from sklearn.linear_model import LinearRegression
import random
%matplotlib inlinerandom.seed(100)

定义数据获取函数

class Dataloader():'''自行车共享数据集数据加载器。'''def __init__(self, csv_path):''' 初始化自行车共享数据集数据加载器。param: csv_path {str} -- 自行车共享数据集CSV文件的路径。'''self.csv_path = csv_pathself.data = pd.read_csv(self.csv_path)# Shuffleself.data.sample(frac=1.0, replace=True, random_state=1)def getHeader(self):''' 获取共享单车CSV文件的列名。return: [list of str]--CSV文件的列名'''return list(self.data.columns.values)def getData(self):'''   划分训练、验证和测试集返回: pandas DataFrames-- 划分后的不同数据集pandas DataFrames'''# 将数据按60:20:20的比例划分为训练、验证和测试集split_train = int(60 / 100 * len(self.data)) split_val = int(80 / 100 * len(self.data)) train = self.data[:split_train]val = self.data[split_train:split_val]test = self.data[split_val:]return train, val,  testdef getFullData(self):''' 在一个DataFrames中获取所有数据。return: pandas DataFrames-- 完整的共享数据集数据'''return self.data

描述性分析

划分训练、验证和测试数据集

dataloader = Dataloader('../data/bike/hour.csv')
train, val, test = dataloader.getData()
fullData = dataloader.getFullData()category_features = ['season', 'holiday', 'mnth', 'hr',   'weekday', 'workingday', 'weathersit']
number_features = ['temp', 'atemp', 'hum', 'windspeed']features= category_features + number_features
target = ['cnt']

features
['season', 'holiday', 'mnth', 'hr', 'weekday', 'workingday', 'weathersit', 'temp', 'atemp', 'hum', 'windspeed']

获取DataFrame的列名:

print(list(fullData.columns))
['instant', 'dteday', 'season', 'yr', 'mnth','hr', 'holiday', 'weekday', 'workingday', 'weathersit', 'temp', 'atemp', 'hum', 'windspeed', 'casual', 'registered', 'cnt']

打印数据集的前五个示例来探索数据:

fullData.head(5)

​​获取每列的数据统计信息:

fullData[number_features].describe()

​​

for col in category_features:fullData[col] = fullData[col].astype('category')
fullData[category_features].describe()

​​

缺失值分析

检查数据中的NULL值:

print(fullData.isnull().any())

instant       False
dteday        False
season        False
yr            False
mnth          False
hr            False
holiday       False
weekday       False
workingday    False
weathersit    False
temp          False
atemp         False
hum           False
windspeed     False
casual        False
registered    False
cnt           False
dtype:bool

异常值分析

箱形图

sns.set(font_scale=1.0)
fig, axes = plt.subplots(nrows=3,ncols=2)
fig.set_size_inches(15, 15)
sns.boxplot(data=train,y="cnt",orient="v",ax=axes[0][0])
sns.boxplot(data=train,y="cnt",x="mnth",orient="v",ax=axes[0][1])
sns.boxplot(data=train,y="cnt",x="weathersit",orient="v",ax=axes[1][0])
sns.boxplot(data=train,y="cnt",x="workingday",orient="v",ax=axes[1][1])
sns.boxplot(data=train,y="cnt",x="hr",orient="v",ax=axes[2][0])
sns.boxplot(data=train,y="cnt",x="temp",orient="v",ax=axes[2][1])axes[0][0].set(ylabel='Count',title="Box Plot On Count")
axes[0][1].set(xlabel='Month', ylabel='Count',title="Box Plot On Count Across Months")
axes[1][0].set(xlabel='Weather Situation', ylabel='Count',title="Box Plot On Count Across Weather Situations")
axes[1][1].set(xlabel='Working Day', ylabel='Count',title="Box Plot On Count Across Working Day")
axes[2][0].set(xlabel='Hour Of The Day', ylabel='Count',title="Box Plot On Count Across Hour Of The Day")
axes[2][1].set(xlabel='Temperature', ylabel='Count',title="Box Plot On Count Across Temperature")for tick in axes[2][1].get_xticklabels():tick.set_rotation(90)

​​

解析: 工作日和节假日箱形图表明,正常工作日出租的自行车比周末或节假日多。每小时的箱形图显示当地早上8点最大,下午5点最大,这表明大多数自行车租赁服务的用户使用自行车上班或上学。另一个重要因素似乎是温度:较高的温度导致自行车租赁数量增加,而较低的温度不仅降低了平均租赁数量,而且在数据中显示出更多的异常值。

从数据中去除异常值

sns.distplot(train[target[-1]]);

​​

计数值的分布图显示,计数值不符合正态分布。我们将使用中位数和四分位区间(IQR)来识别和去除数据中的异常值。(另一种方法是将目标值转换为正态分布,并使用平均值和标准偏差。)

print("带有异常值的列车集合中的样本: {}".format(len(train)))
q1 = train.cnt.quantile(0.25)
q3 = train.cnt.quantile(0.75)
iqr = q3 - q1
lower_bound = q1 -(1.5 * iqr) 
upper_bound = q3 +(1.5 * iqr) 
train_preprocessed = train.loc[(train.cnt >= lower_bound) & (train.cnt <= upper_bound)]
print("没有异常值的训练样本集: {}".format(len(train_preprocessed)))
sns.distplot(train_preprocessed.cnt);

带有异常值的列车集合中的样本:10427
没有异常值的训练样本集:10151​​​

相关分析

matrix = train[number_features + target].corr()
heat = np.array(matrix)
heat[np.tril_indices_from(heat)] = False
fig,ax= plt.subplots()
fig.set_size_inches(15,8)
sns.set(font_scale=1.0)
sns.heatmap(matrix, mask=heat,vmax=1.0, vmin=0.0, square=True,annot=True, cmap="Reds")

​​

结论: 在描述性分析总结如下几点:

  • 变量"Casual"和"registered"包含关于共享自行车计数直接信息,而如果将这些信息用于预测(数据泄漏)。因此,它们不在特征集中考虑。

  • 变量"temp"和"atemp"是高度相关的。为了降低预测模型的维数,可以删除特征"atemp"。

  • 变量"hr"和"temp"似乎是预测自行车共享数量的贡献较大的特征。

features.remove('atemp')

评价指标概述

Mean Squared Error (MSE)

​​

Root Mean Squared Logarithmic Error (RMSLE)

​​

R^2 Score

​​

模型选择

所呈现的问题的特点是:

  • 回归:目标变量是一个连续型数值。

  • 数据集小:小于100K的样本量。

  • 少数特征应该是重要的:相关矩阵表明少数特征包含预测目标变量的信息。

这些特点给予了岭回归、支持向量回归、集成回归、随机森林回归等方法大展身手的好机会。记住,关注公众号:Python源码   回复EDG牛逼  领取完整代码和数据集哦!

这篇关于去年火热的共享单车为何有的爆火,有的直接倒闭呢?Python挖掘一下他们的数据。的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/423633

相关文章

Pandas统计每行数据中的空值的方法示例

《Pandas统计每行数据中的空值的方法示例》处理缺失数据(NaN值)是一个非常常见的问题,本文主要介绍了Pandas统计每行数据中的空值的方法示例,具有一定的参考价值,感兴趣的可以了解一下... 目录什么是空值?为什么要统计空值?准备工作创建示例数据统计每行空值数量进一步分析www.chinasem.cn处

如何使用 Python 读取 Excel 数据

《如何使用Python读取Excel数据》:本文主要介绍使用Python读取Excel数据的详细教程,通过pandas和openpyxl,你可以轻松读取Excel文件,并进行各种数据处理操... 目录使用 python 读取 Excel 数据的详细教程1. 安装必要的依赖2. 读取 Excel 文件3. 读

Python的time模块一些常用功能(各种与时间相关的函数)

《Python的time模块一些常用功能(各种与时间相关的函数)》Python的time模块提供了各种与时间相关的函数,包括获取当前时间、处理时间间隔、执行时间测量等,:本文主要介绍Python的... 目录1. 获取当前时间2. 时间格式化3. 延时执行4. 时间戳运算5. 计算代码执行时间6. 转换为指

利用Python调试串口的示例代码

《利用Python调试串口的示例代码》在嵌入式开发、物联网设备调试过程中,串口通信是最基础的调试手段本文将带你用Python+ttkbootstrap打造一款高颜值、多功能的串口调试助手,需要的可以了... 目录概述:为什么需要专业的串口调试工具项目架构设计1.1 技术栈选型1.2 关键类说明1.3 线程模

Python ZIP文件操作技巧详解

《PythonZIP文件操作技巧详解》在数据处理和系统开发中,ZIP文件操作是开发者必须掌握的核心技能,Python标准库提供的zipfile模块以简洁的API和跨平台特性,成为处理ZIP文件的首选... 目录一、ZIP文件操作基础三板斧1.1 创建压缩包1.2 解压操作1.3 文件遍历与信息获取二、进阶技

Python Transformers库(NLP处理库)案例代码讲解

《PythonTransformers库(NLP处理库)案例代码讲解》本文介绍transformers库的全面讲解,包含基础知识、高级用法、案例代码及学习路径,内容经过组织,适合不同阶段的学习者,对... 目录一、基础知识1. Transformers 库简介2. 安装与环境配置3. 快速上手示例二、核心模

Spring 请求之传递 JSON 数据的操作方法

《Spring请求之传递JSON数据的操作方法》JSON就是一种数据格式,有自己的格式和语法,使用文本表示一个对象或数组的信息,因此JSON本质是字符串,主要负责在不同的语言中数据传递和交换,这... 目录jsON 概念JSON 语法JSON 的语法JSON 的两种结构JSON 字符串和 Java 对象互转

Python正则表达式语法及re模块中的常用函数详解

《Python正则表达式语法及re模块中的常用函数详解》这篇文章主要给大家介绍了关于Python正则表达式语法及re模块中常用函数的相关资料,正则表达式是一种强大的字符串处理工具,可以用于匹配、切分、... 目录概念、作用和步骤语法re模块中的常用函数总结 概念、作用和步骤概念: 本身也是一个字符串,其中

Python使用getopt处理命令行参数示例解析(最佳实践)

《Python使用getopt处理命令行参数示例解析(最佳实践)》getopt模块是Python标准库中一个简单但强大的命令行参数处理工具,它特别适合那些需要快速实现基本命令行参数解析的场景,或者需要... 目录为什么需要处理命令行参数?getopt模块基础实际应用示例与其他参数处理方式的比较常见问http

python实现svg图片转换为png和gif

《python实现svg图片转换为png和gif》这篇文章主要为大家详细介绍了python如何实现将svg图片格式转换为png和gif,文中的示例代码讲解详细,感兴趣的小伙伴可以跟随小编一起学习一下... 目录python实现svg图片转换为png和gifpython实现图片格式之间的相互转换延展:基于Py