机器学习笔记七-----------------使用Prophet(时间序列模型)预测家用电量的数据的笔记一------数据集解析

本文主要是介绍机器学习笔记七-----------------使用Prophet(时间序列模型)预测家用电量的数据的笔记一------数据集解析,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

一,数据集的下载

其实家庭用电量预测仅仅是个“引子”,如果有电网数据的话,可以开发适合业务需求的模型,比如通过预测各时段各区域的用电量来协助电网更好地实现电能调度;除此之外,还可以用于发电量预测,比如光伏电站、风力发电站、水电站发电量预测…等等。模型一般不是问题,关键在数据和数据处理。

    数据集名称为:Individual household electric power consumption Data Set,(下载地址UCI Machine Learning Repository: Individual household electric power consumption Data Set)该数据集是一个多变量时间序列数据集,采集了法国巴黎一个家庭近四年(2006年12月至2010年11月)的用电量,采样周期为1分钟。数据集的属性信息如下:

date:格式dd/mm/yyyy;
time:格式hh:mm:ss;
global_active_power:每分钟的有功功率(千瓦);
global_reactive_power:每分钟的无功功率(千瓦);
voltage:每分钟的平均电压(伏特);
global_intensity:每分钟的平均电流强度(安培);
sub_metering_1:厨房有功电能(瓦时),主要包含洗碗机,烤箱和微波炉;
sub_metering_2:于洗衣房有功电能(瓦时),包含洗衣机,滚筒式烘干机,冰箱和电灯;
sub_metering_3:电热水器和空调有功电能(瓦时)。

     以上九个属性中,可以作为特征的有七个,去掉的两个是日期和时间,因为序列化数据已经包含先后顺序了,所以不需要时间和日期数据,因此可以使用的数据为一个由七个变量(特征)组成的多元序列。

     最后三个属性统计的电能消耗并不是家里所有的电路电能消耗。其它的电能消耗可以通过下式计算:

 

      这里注意:有功功率单位为 KW,有功电能的单位为瓦时(w a t t − h o u r ),以上数据都是间隔一分钟测得的,因此公式的前半部分就是通过有功率乘以时间(1/60小时,也就是一分钟)计算得到总的有功电能消耗,单位是瓦时。减去公式的后半部分(后三个属性的加和),得到了家庭中其他电路的电能消耗。

     该数据集已成为评估时间序列预测和多步预测(特别是预测有功功率)的机器学习方法的标准,接下来我们来探究该数据集。
 

二,数据处理

下载后的数据是txt格式的文件。数据的展现形式如下图所示

2.1 读入数据

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
dataset = pd.read_csv('household_power_consumption.txt', sep=';', header=0, low_memory=False, infer_datetime_format=True, engine='c'parse_dates={'datetime':[0,1]}, index_col=['datetime'])

read_csv() 参数说明:

seq 参数:指定列之间的分隔符为 ';',字符串格式,默认为 ‘,’;
header 参数:指定哪一行作为列名,header=0 表示第一行数据作为列名,而不是文件的第一行作为列名;
low_memory:在内部对文件进行分块处理,从而在解析时减少了内存使用,但可能是混合类型推断。默认为 True,设置为 False 确保没有混合类型;
infer_datetime_format:设置该参数为 True 和 parse_dates 参数,pandas会推断列中日期时间字符串的格式,如果可以推断出,则切换到更快方法来解析它们。在某些情况下,这可以使解析速度提高5-10倍;
engine:要使用的解析器引擎。C引擎速度更快,而python引擎当前功能更完善;
parse_dates:{'datetime':[0,1]}将原数据中的第1、2列作为新的列名为 ‘datatime’ 的列,即将原来的日期列、时间列合并为日期时间一列;
index_col:指定’datetime’列为索引列;

2.2 处理异常数据,并加入新的数据

1,读入数据

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt#加载数据
dataset = pd.read_csv('/home/kongxianglan/code/household_power_consumption.txt', sep=';', header=0,low_memory=False, infer_datetime_format=True, engine='c',parse_dates={'datetime':[0,1]}, index_col=['datetime'])dataset.shape

 2,查看前10行的数据

#查看数据前10行:
dataset.head(10)

 3,异常数据的处理

#查看缺失值
dataset.isna().sum()#查看有默认标记的异常值
dataset.iloc[dataset.values == '?'].count()#有默认标记的异常值处理
#为了提高数据处理效率,将所有标记为’?'的异常值用 np.nan 替换,将数据作为一个浮点值数组来处理。
dataset.replace('?', np.nan, inplace=True)#再查看异常值
dataset.iloc[dataset.values == '?'].count()#再查看缺失值:
dataset.isna().sum()

 

 4,新加入一列

#添加新列
values = dataset.values.astype('float32')
dataset['sub_metering_4'] = (values[:,0] * 1000 / 60) - (values[:,4] + values[:,5] + values[:,6])#查看新的数据shape
dataset.shape#查看数据前十行
dataset.head(10)

 5,保存数据成.csv格式

dataset.to_csv('household_power_consumption.csv')

 6,总的代码

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt#加载数据
dataset = pd.read_csv('/home/kongxianglan/code/household_power_consumption.txt', sep=';', header=0,low_memory=False, infer_datetime_format=True, engine='c',parse_dates={'datetime':[0,1]}, index_col=['datetime'])dataset.shape#查看数据前10行:
dataset.head(10)#查看缺失值
dataset.isna().sum()#查看有默认标记的异常值
dataset.iloc[dataset.values == '?'].count()#有默认标记的异常值处理
#为了提高数据处理效率,将所有标记为’?'的异常值用 np.nan 替换,将数据作为一个浮点值数组来处理。
dataset.replace('?', np.nan, inplace=True)#再查看异常值
dataset.iloc[dataset.values == '?'].count()#再查看缺失值:
dataset.isna().sum()#添加新列
values = dataset.values.astype('float32')
dataset['sub_metering_4'] = (values[:,0] * 1000 / 60) - (values[:,4] + values[:,5] + values[:,6])#查看新的数据shape
dataset.shape#查看数据前十行
dataset.head(10)dataset.to_csv('household_power_consumption.csv')

 三,数据可视化

 3.1 查看每一个分量的四年的趋势

def plot_features(dataset):plt.figure(figsize=(16,12), dpi=200)for i in range(len(dataset.columns)):plt.subplot(len(dataset.columns), 1, i+1)feature_name = dataset.columns[i]plt.plot(dataset[feature_name])plt.title(feature_name, y=0)plt.grid(linestyle='--', alpha=0.5)plt.tight_layout()plt.show()plot_features(dataset)

 3.2 查看每年指定分类数据的变化图

      该部分的功能,是看8列中的其中一列的数据的每年的趋势,主要可以分析4年的数据趋势是否相似

     为每一年创建一个有功功率图,观察是否有相同的模式。因为2006年只有不到一个月的数据,所以不绘制该年的子图。完整代码如下:

def plot_year_gap(dataset, years_list):plt.figure(figsize=(16,12), dpi=150)for i in range(len(years_list)):ax = plt.subplot(len(years_list), 1, i+1)ax.set_ylabel(r'$KW$')year = years_list[i]year_data = dataset[str(year)]plt.plot(year_data['Global_active_power'])plt.title(str(year), y=0, loc='left')plt.grid(linestyle='--', alpha=0.5)plt.xticks(rotation=0)plt.tight_layout()plt.show()years = ['2007', '2008', '2009', '2010']
plot_year_gap(dataset, years)

    因为设置了 infer_datetime_format 参数,所以可直接使用年份索引进行截取数据。通过对以上数据进行分析可知,每年2月和8月内的某段时间耗电量有明显下降。我们似乎也看到夏季(6、7、8月)的用电量呈下降趋势,我们还可以在第一、第三和第四个图中有一些缺失的数据。

在这里插入图片描述

 3.3  查看一年每个月的规律

        接下来,进一步查看每个月的用电情况。比如查看2008年每个月的有功功率,可能有助于梳理出12个月的变化规律,如每日和每周用电状况规律。完整代码如下:

 3.4 查看每日的用电量

 就是查看,每天一个月(30天),每天的用电量的分布图

def plot_day_gap(dataset, year, month, days_list):plt.figure(figsize=(20,24), dpi=150)for i in range(len(days_list)):ax = plt.subplot(len(days_list), 1, i+1)ax.set_ylabel(r'$KW$',size=6)day = str(year) + '-0' + str(month) + '-' + str(days_list[i])day_data = dataset[day]gcp_data = day_data['Global_active_power']plt.plot(gcp_data)plt.title(day, y=0, loc='left', size=6)plt.grid(linestyle='--', alpha=0.5)plt.xticks(rotation=0)plt.show()year = 2008
month = 8
days = [i for i in range(1, 32)]
plot_day_gap(dataset, year, month, days)

 在这里插入图片描述

3.5  查看时间序列数据分布

     另一个需要考虑的重要方面是变量的分布。例如,了解观测值的分布是高斯分布还是其他分布。可以通过为每个特征创建一个直方图来研究数据分布。完整代码如下:

def dataset_distribution(dataset):plt.figure(figsize=(16,12), dpi=150)for i in range(len(dataset.columns)):ax = plt.subplot(len(dataset.columns), 1, i+1)ax.set_ylabel(r'$numbers$',size=10)feature_name = dataset.columns[i]dataset[feature_name].hist(bins=100)plt.title(feature_name, y=0, loc='right', size=20)plt.grid(linestyle='--', alpha=0.5)plt.xticks(rotation=0)plt.tight_layout()plt.show()dataset_distribution(dataset)

 在这里插入图片描述

       可以看到有功和无功功率、强度以及分表功率都是向瓦时或千瓦倾斜的分布,电压数据呈高斯分布。有功功率的分布似乎是双峰的,这意味着它看起来有两组观测值。可以通过查看四年来的数据的有功功率分布来验证,完整代码如下:

def plot_year_dist(dataset, years_list):plt.figure(figsize=(16,12), dpi=150)for i in range(len(years_list)):ax = plt.subplot(len(years_list), 1, i+1)ax.set_ylabel(r'$numbers$')ax.set_xlim(0, 5) # 设置x轴显示限制,保证每个子图x刻度相同year = years_list[i]year_data = dataset[str(year)]year_data['Global_active_power'].hist(bins=100, histtype='bar')plt.title(str(year), y=0, loc='right', size=10)plt.grid(linestyle='--', alpha=0.5)plt.xticks(rotation=0)plt.tight_layout()plt.show()years = ['2007', '2008', '2009', '2010']
plot_year_dist(dataset, years)

在这里插入图片描述

 可以看到,有功功率分布看起来非常相似。这种分布确实是双峰的,一个峰值约为0.3kw,另一个峰值约为1.3kw。随着有功功率(x轴)的增加,高功率用电时间点的数量越来越少。

3.7 查看 一年中每个月的有功功率分布

所确定的群体可能在一年中的不同季节有所不同。可以通过查看一年中每个月的有功功率分布来对此进行调查。完整代码如下:

def plot_month_dist(dataset, year, months_list):plt.figure(figsize=(16,12), dpi=150)for i in range(len(months_list)):ax = plt.subplot(len(months_list), 1, i+1)ax.set_ylabel(r'$KW$')ax.set_xlim(0, 5)month = str(year) + '-' + str(months_list[i])month_data = dataset[month]month_data['Global_active_power'].hist(bins=100, histtype='bar')plt.title(month, y=0, loc='right', size=10)plt.grid(linestyle='--', alpha=0.5)plt.xticks(rotation=0)plt.tight_layout()plt.show()year = 2008
months = [i for i in range(1, 13)]
plot_month_dist(dataset, year, months)

在这里插入图片描述

4,数据满足的业务需求 

对于我们使用的家庭用电量数据集来说,可以提出很多建模问题,比如:

预测一天内每小时的耗电量;
预测一周内每天的耗电量;
预测一月内每天的耗电量;
预测一年内每天的耗电量。

    以上四类预测问题称为多步预测。利用所有特征进行预测的模型称为多变量多步预测模型。每个模型都不局限于日期的大小,还可以根据需求对更细粒度的问题进行建模,比如一天内某各时段每分钟的耗电量预测问题。这有助于电力公司进行电能调度,是一个广泛研究的重要问题。

参考博文:

时间序列预测11:用电量预测 01 数据分析与建模_Constant dripping wears the stone-CSDN博客_用电量预测模型

这篇关于机器学习笔记七-----------------使用Prophet(时间序列模型)预测家用电量的数据的笔记一------数据集解析的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/233791

相关文章

如何使用Docker部署FTP和Nginx并通过HTTP访问FTP里的文件

《如何使用Docker部署FTP和Nginx并通过HTTP访问FTP里的文件》本文介绍了如何使用Docker部署FTP服务器和Nginx,并通过HTTP访问FTP中的文件,通过将FTP数据目录挂载到N... 目录docker部署FTP和Nginx并通过HTTP访问FTP里的文件1. 部署 FTP 服务器 (

MySQL 日期时间格式化函数 DATE_FORMAT() 的使用示例详解

《MySQL日期时间格式化函数DATE_FORMAT()的使用示例详解》`DATE_FORMAT()`是MySQL中用于格式化日期时间的函数,本文详细介绍了其语法、格式化字符串的含义以及常见日期... 目录一、DATE_FORMAT()语法二、格式化字符串详解三、常见日期时间格式组合四、业务场景五、总结一、

C#集成DeepSeek模型实现AI私有化的流程步骤(本地部署与API调用教程)

《C#集成DeepSeek模型实现AI私有化的流程步骤(本地部署与API调用教程)》本文主要介绍了C#集成DeepSeek模型实现AI私有化的方法,包括搭建基础环境,如安装Ollama和下载DeepS... 目录前言搭建基础环境1、安装 Ollama2、下载 DeepSeek R1 模型客户端 ChatBo

Python中配置文件的全面解析与使用

《Python中配置文件的全面解析与使用》在Python开发中,配置文件扮演着举足轻重的角色,它们允许开发者在不修改代码的情况下调整应用程序的行为,下面我们就来看看常见Python配置文件格式的使用吧... 目录一、INI配置文件二、YAML配置文件三、jsON配置文件四、TOML配置文件五、XML配置文件

Go使用pprof进行CPU,内存和阻塞情况分析

《Go使用pprof进行CPU,内存和阻塞情况分析》Go语言提供了强大的pprof工具,用于分析CPU、内存、Goroutine阻塞等性能问题,帮助开发者优化程序,提高运行效率,下面我们就来深入了解下... 目录1. pprof 介绍2. 快速上手:启用 pprof3. CPU Profiling:分析 C

MySQL InnoDB引擎ibdata文件损坏/删除后使用frm和ibd文件恢复数据

《MySQLInnoDB引擎ibdata文件损坏/删除后使用frm和ibd文件恢复数据》mysql的ibdata文件被误删、被恶意修改,没有从库和备份数据的情况下的数据恢复,不能保证数据库所有表数据... 参考:mysql Innodb表空间卸载、迁移、装载的使用方法注意!此方法只适用于innodb_fi

mysql通过frm和ibd文件恢复表_mysql5.7根据.frm和.ibd文件恢复表结构和数据

《mysql通过frm和ibd文件恢复表_mysql5.7根据.frm和.ibd文件恢复表结构和数据》文章主要介绍了如何从.frm和.ibd文件恢复MySQLInnoDB表结构和数据,需要的朋友可以参... 目录一、恢复表结构二、恢复表数据补充方法一、恢复表结构(从 .frm 文件)方法 1:使用 mysq

mysql8.0无备份通过idb文件恢复数据的方法、idb文件修复和tablespace id不一致处理

《mysql8.0无备份通过idb文件恢复数据的方法、idb文件修复和tablespaceid不一致处理》文章描述了公司服务器断电后数据库故障的过程,作者通过查看错误日志、重新初始化数据目录、恢复备... 周末突然接到一位一年多没联系的妹妹打来电话,“刘哥,快来救救我”,我脑海瞬间冒出妙瓦底,电信火苲马扁.

golang获取prometheus数据(prometheus/client_golang包)

《golang获取prometheus数据(prometheus/client_golang包)》本文主要介绍了使用Go语言的prometheus/client_golang包来获取Prometheu... 目录1. 创建链接1.1 语法1.2 完整示例2. 简单查询2.1 语法2.2 完整示例3. 范围值

Python中conda虚拟环境创建及使用小结

《Python中conda虚拟环境创建及使用小结》本文主要介绍了Python中conda虚拟环境创建及使用小结,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们... 目录0.前言1.Miniconda安装2.conda本地基本操作3.创建conda虚拟环境4.激活c