【机器学习实战】二、随机森林算法预测出租车车费案例

本文主要是介绍【机器学习实战】二、随机森林算法预测出租车车费案例,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

随机森林算法预测出租车车费案例

一、导入第三方库
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
import sklearn
二、加载数据集
train = pd.read_csv('train.csv',nrows=1000000) # 加载前1000000条数据
test = pd.read_csv('test.csv')
三、数据分析、清洗
train.shape # 训练集的形状
# 输出:(1000000,8)
test.shape # 测试集的形状
# 输出:(9914, 7)
train.head() # 显示训练集的前五行数据

在这里插入图片描述

test.head() # 显示前5行测试集数据

在这里插入图片描述

train.describe() # 描述训练集

在这里插入图片描述

test.describe() # 描述测试集

在这里插入图片描述
(1)检查数据中是否有空值

train.isnull().sum().sort_values(ascending=True) # 统计空值的数量,根据数量大小排序

在这里插入图片描述

test.isnull().sum().sort_values(ascending=True) #  统计空值数量

在这里插入图片描述

# 删除train中的空值
train.drop(train[train.isnull().any(1)].index, axis=0,inplace=True)
train.shape # 比原始数据减少10行
# 输出 (999990,8)

(2)检查fare_amount列是否有不合法值

train['fare_amount'].describe() # 描述fare_amount

在这里插入图片描述

# 将fare_amount的值小于0的进行统计
from collections import Counter
Counter(train['fare_amount'] < 0 ) # 共计38行车费小于0的数据
# 输出:Counter({False: 999952, True: 38})
# 将这38行数据删除
train.drop(train[train['fare_amount']<0].index,axis=0,inplace=True)
train['fare_amount'].describe()# 查看车费数据

在这里插入图片描述

# 可视化(直方图):0<票价<100   bins=100 划分为100份 
train[train.fare_amount<100].fare_amount.hist(bins=100,figsize=(14,3)) 
plt.xlabel('fare $')
plt.title('Histogram')

在这里插入图片描述
(3) 检查乘客passenger_count这一列

train['passenger_count'].describe() # 描述passenger_count这一列

在这里插入图片描述

# 查看乘客人数大于6的数据
train[train['passenger_count']>6]

在这里插入图片描述

# 删除离异值
train.drop(train[train['passenger_count']>6].index,axis=0,inplace=True)

(4)检查上车点的经度和纬度
1.纬度范围:-90 ~ 90
2.经度范围:-180 ~ 180

train['pickup_latitude'].describe() # 查看上车点纬度数据(min和max的离异值)

在这里插入图片描述

# 查看纬度小于 -90 的数据
train[train['pickup_latitude']< -90]

在这里插入图片描述

# 查看纬度大于 90 的数据
train[train['pickup_latitude'] > 90]

在这里插入图片描述

# 删除离异值
train.drop(train[(train['pickup_latitude'] > 90) | (train['pickup_latitude'] < -90 )].index, axis= 0 , inplace = True)
train.shape
# 输出:(999939, 8)
train['pickup_longitude'].describe() # 查看上车点的经度数据

在这里插入图片描述

train[train['pickup_longitude'] < - 180]

在这里插入图片描述

# 删除这些数据
train.drop(train[train['pickup_longitude'] < -180 ].index , axis=0 , inplace =True)
train.shape
# 输出:(999928, 8)

(5)检查下车点的经度和纬度

train.drop(train[(train['dropoff_latitude'] < -90 ) | (train['dropoff_latitude'] > 90 )].index, axis=0,inplace=True)
train.drop(train[(train['dropoff_longitude'] < -180 )| (train['dropoff_longitude'] > 180 )].index, axis=0 ,inplace= True)
train.shape
# 输出:(999911, 8)

(6)可视化地图,清理一些离异值

# 在测试集上确定一个区域,删除掉train数据集中不在区域框内的奇异点
# (1)纬度最小值,纬度最大值
min(test.pickup_latitude.min(),test.dropoff_latitude.min()), \
max(test.pickup_latitude.max(),test.dropoff_latitude.max())
# 输出: (40.568973, 41.709555)
# (2)经度最小值,经度最大值
min(test.pickup_longitude.min(), test.dropoff_longitude.min()), \
max(test.pickup_longitude.max(), test.dropoff_longitude.max())
# 输出:(-74.263242, -72.986532)
# (3)根据指定的区域框,删除掉奇异点
def select_within_boundingbox(df,BB):return (df.pickup_longitude >= BB[0]) & (df.pickup_longitude <= BB[1]) & \(df.pickup_latitude >= BB[2]) & (df.pickup_latitude <= BB[3]) & \(df.dropoff_longitude >= BB[0]) & (df.dropoff_longitude <= BB[1]) & \(df.dropoff_latitude >= BB[2]) & (df.dropoff_latitude <= BB[3])
BB = (-74.5,-72.8,40.5,41.8)
# 截图
nyc_map = plt.imread('./nyc_-74.5_-72.8_40.5_41.8.png')
BB_zoom = (-74.3, -73.7, 40.5, 40.9) # 放大后的地图
# 截图(放大)
nyc_map_zoom = plt.imread('./nyc_-74.3_-73.7_40.5_40.9.png')
train = train[select_within_boundingbox(train, BB)]# 删除区域框之外的点
train.shape
# 输出:(979018, 8)
# (4)在地图显示这些点def plot_on_map(df, BB, nyc_map, s=10, alpha=0.2):fig, axs = plt.subplots(1, 2, figsize=(16,10))# 第一个子图axs[0].scatter(df.pickup_longitude, df.pickup_latitude, alpha=alpha, c='r', s=s)axs[0].set_xlim(BB[0], BB[1])axs[0].set_ylim(BB[2], BB[3])axs[0].set_title('PickUp Locations')axs[0].imshow(nyc_map, extent=BB)# 第二个子图axs[1].scatter(df.dropoff_longitude, df.dropoff_latitude, alpha=alpha, c='r', s=s)axs[1].set_xlim((BB[0], BB[1]))axs[1].set_ylim((BB[2], BB[3]))axs[1].set_title('Dropoff locations')axs[1].imshow(nyc_map, extent=BB)
plot_on_map(train, BB, nyc_map, s=1, alpha=0.3)

在这里插入图片描述

plot_on_map(train, BB_zoom, nyc_map_zoom, s=1, alpha=0.3)

在这里插入图片描述
(7) 检查数据类型

train.dtypes

在这里插入图片描述

# 日期类型转换:key, pickup_datetimefor dataset in [train, test]:dataset['key'] = pd.to_datetime(dataset['key'])dataset['pickup_datetime'] = pd.to_datetime(dataset['pickup_datetime'])

(8)日期数据进行分析
将日期分隔为: 1.year 2.month 3.day 4.hour 5.day of week

# 增加5列,分别是:year, month, day, hour, day of weekfor dataset in [train, test]:dataset['year'] = dataset['pickup_datetime'].dt.yeardataset['month'] = dataset['pickup_datetime'].dt.monthdataset['day'] = dataset['pickup_datetime'].dt.daydataset['hour'] = dataset['pickup_datetime'].dt.hourdataset['day of week'] = dataset['pickup_datetime'].dt.dayofweek
train.head()

在这里插入图片描述

test.head()

在这里插入图片描述
(9)根据经纬度计算距离

# 计算公式def distance(lat1, long1, lat2, long2):data = [train, test]for i in data:R = 6371  # 地球半径(单位:千米)phi1 = np.radians(i[lat1])phi2 = np.radians(i[lat2])delta_phi = np.radians(i[lat2]-i[lat1])delta_lambda = np.radians(i[long2]-i[long1])#a = sin²((φB - φA)/2) + cos φA . cos φB . sin²((λB - λA)/2)a = np.sin(delta_phi / 2.0) ** 2 + np.cos(phi1) * np.cos(phi2) * np.sin(delta_lambda / 2.0) ** 2#c = 2 * atan2( √a, √(1−a) )c = 2 * np.arctan2(np.sqrt(a), np.sqrt(1-a))#d = R*cd = (R * c) # 单位:千米i['H_Distance'] = dreturn d
distance('pickup_latitude','pickup_longitude','dropoff_latitude','dropoff_longitude')

在这里插入图片描述

# 统计距离为0,票价为0的数据train[(train['H_Distance']==0) & (train['fare_amount']==0)]

在这里插入图片描述

# 删除
train.drop(train[(train['H_Distance']==0) & (train['fare_amount']==0)].index, axis=0, inplace=True)
# 统计距离为0,票价不为0的数据# 原因1:司机等待乘客很长时间,乘客最终取消了订单,乘客依然支付了等待的费用;
# 原因2:车辆的经纬度没有被准确录入或缺失;len(train[(train['H_Distance']==0) & (train['fare_amount']!=0)])
# 输出:10478
# 删除
train.drop(train[(train['H_Distance']==0) & (train['fare_amount']!=0)].index, axis=0, inplace=True)

(10)新的字段:每公里车费:根据距离、车费,计算每公里的车费

train['fare_per_mile'] = train.fare_amount / train.H_Distancetrain.fare_per_mile.describe()

在这里插入图片描述

train.head()

在这里插入图片描述

# 统计每一年的不同时间段的每小时车费train.pivot_table('fare_per_mile', index='hour', columns='year').plot(figsize=(14, 6))
plt.ylabel('Fare $/mile')

在这里插入图片描述

四、模型训练和数据预测
train.columns

在这里插入图片描述

test.columns

在这里插入图片描述

X_train = train.iloc[:,[3,4,5,6,7,8,9,10,11,12,13]]
y_train = train.iloc[:,[1]] # fare_amount 车费
X_train.shape
# 输出:(968537, 11)
y_train.shape
# 输出:(968537, 1)
五、随机森林算法实现
from sklearn.ensemble import RandomForestRegressor
rf = RandomForestRegressor()
rf.fit(X_train,y_train)

在这里插入图片描述

test.columns

在这里插入图片描述

rf_predict = rf.predict(test.iloc[:, [2,3,4,5,6,7,8,9,10,11,12]])
submission = pd.read_csv("sample_submission.csv")submission.head()

在这里插入图片描述

# 提交submission = pd.read_csv("sample_submission.csv")submission['fare_amount'] = rf_predictsubmission.to_csv("submission_1.csv", index=False)submission.head()

在这里插入图片描述

这篇关于【机器学习实战】二、随机森林算法预测出租车车费案例的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/307286

相关文章

MySQL 多列 IN 查询之语法、性能与实战技巧(最新整理)

《MySQL多列IN查询之语法、性能与实战技巧(最新整理)》本文详解MySQL多列IN查询,对比传统OR写法,强调其简洁高效,适合批量匹配复合键,通过联合索引、分批次优化提升性能,兼容多种数据库... 目录一、基础语法:多列 IN 的两种写法1. 直接值列表2. 子查询二、对比传统 OR 的写法三、性能分析

Python通用唯一标识符模块uuid使用案例详解

《Python通用唯一标识符模块uuid使用案例详解》Pythonuuid模块用于生成128位全局唯一标识符,支持UUID1-5版本,适用于分布式系统、数据库主键等场景,需注意隐私、碰撞概率及存储优... 目录简介核心功能1. UUID版本2. UUID属性3. 命名空间使用场景1. 生成唯一标识符2. 数

Python办公自动化实战之打造智能邮件发送工具

《Python办公自动化实战之打造智能邮件发送工具》在数字化办公场景中,邮件自动化是提升工作效率的关键技能,本文将演示如何使用Python的smtplib和email库构建一个支持图文混排,多附件,多... 目录前言一、基础配置:搭建邮件发送框架1.1 邮箱服务准备1.2 核心库导入1.3 基础发送函数二、

PowerShell中15个提升运维效率关键命令实战指南

《PowerShell中15个提升运维效率关键命令实战指南》作为网络安全专业人员的必备技能,PowerShell在系统管理、日志分析、威胁检测和自动化响应方面展现出强大能力,下面我们就来看看15个提升... 目录一、PowerShell在网络安全中的战略价值二、网络安全关键场景命令实战1. 系统安全基线核查

PostgreSQL的扩展dict_int应用案例解析

《PostgreSQL的扩展dict_int应用案例解析》dict_int扩展为PostgreSQL提供了专业的整数文本处理能力,特别适合需要精确处理数字内容的搜索场景,本文给大家介绍PostgreS... 目录PostgreSQL的扩展dict_int一、扩展概述二、核心功能三、安装与启用四、字典配置方法

从原理到实战深入理解Java 断言assert

《从原理到实战深入理解Java断言assert》本文深入解析Java断言机制,涵盖语法、工作原理、启用方式及与异常的区别,推荐用于开发阶段的条件检查与状态验证,并强调生产环境应使用参数验证工具类替代... 目录深入理解 Java 断言(assert):从原理到实战引言:为什么需要断言?一、断言基础1.1 语

Java中的雪花算法Snowflake解析与实践技巧

《Java中的雪花算法Snowflake解析与实践技巧》本文解析了雪花算法的原理、Java实现及生产实践,涵盖ID结构、位运算技巧、时钟回拨处理、WorkerId分配等关键点,并探讨了百度UidGen... 目录一、雪花算法核心原理1.1 算法起源1.2 ID结构详解1.3 核心特性二、Java实现解析2.

Python中re模块结合正则表达式的实际应用案例

《Python中re模块结合正则表达式的实际应用案例》Python中的re模块是用于处理正则表达式的强大工具,正则表达式是一种用来匹配字符串的模式,它可以在文本中搜索和匹配特定的字符串模式,这篇文章主... 目录前言re模块常用函数一、查看文本中是否包含 A 或 B 字符串二、替换多个关键词为统一格式三、提

Java MQTT实战应用

《JavaMQTT实战应用》本文详解MQTT协议,涵盖其发布/订阅机制、低功耗高效特性、三种服务质量等级(QoS0/1/2),以及客户端、代理、主题的核心概念,最后提供Linux部署教程、Sprin... 目录一、MQTT协议二、MQTT优点三、三种服务质量等级四、客户端、代理、主题1. 客户端(Clien

在Spring Boot中集成RabbitMQ的实战记录

《在SpringBoot中集成RabbitMQ的实战记录》本文介绍SpringBoot集成RabbitMQ的步骤,涵盖配置连接、消息发送与接收,并对比两种定义Exchange与队列的方式:手动声明(... 目录前言准备工作1. 安装 RabbitMQ2. 消息发送者(Producer)配置1. 创建 Spr