终于知道如何简化时间序列的特征工程了!

2024-09-04 13:36

本文主要是介绍终于知道如何简化时间序列的特征工程了!,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

在处理时间序列数据时,时间特征往往是最基础且独特的要素,我们的目标通常是预测某种未来的响应或结果。

不过在很多情况下,除了时间特征之外,我们还能获取到一系列其他相关的特征或变量。

时间序列数据中的特征工程涉及从原始时间序列数据中创建信息丰富的特征,以提升机器学习模型的性能。

以下是时间序列数据中一些常见的特征类型:

日期时间相关特征: 这些特征是从日期时间列中提取的,如月份、日期、星期几、小时等。在时间序列中,这些特征可能包含有助于机器学习算法学习的某种影响或模式。

滞后特征: 滞后特征涉及使用时间序列的过去值作为特征。例如,你可以通过包括时间序列在先前时间步长的值作为预测因子来创建滞后特征。这允许模型捕捉时间依赖性。

窗口特征: 时间序列中的基于窗口的特征工程涉及在固定大小的窗口或间隔内聚合数据以创建特征。这种技术捕捉时间序列中的局部行为和时间模式。一些例子包括3天平均值、2天中位数等。

周期性特征: 时间序列中的周期性特征指的是捕获在特定间隔内重复出现的模式或周期的变量。这些特征对于建模时间序列数据中的季节性和其他周期性模式至关重要。例如,与同年6月相比,12月更接近下一年的1月。但在机器学习中,当我们输入月份列时,12月会被标记为12,1月会被标记为1,6月则是6。

为了让机器学习算法理解这一点,我们需要引入周期性特征来捕捉这些关系。

接下来,是编码阶段,本文的核心是简化这些特征的提取过程。

现在,让我们通过一个例子来深入探索:

数据集和时间序列、大语言模型LLM学习资料一起打包好了

**在这里插入图片描述
在这里插入图片描述

# Importing the Data and Cleaning themimport pandas as pd
import matplotlib.pyplot as pltfilename = 'AirQualityUCI.csv'# load the datadata = pd.read_csv(filename, sep=';', parse_dates=[['Date', 'Time']]
).iloc[:, :-2]  # drops last 2 columns, not real variables# drop missing values
data.dropna(inplace=True)new_var_names = ['Date_Time','CO_true','CO_sensor','NMHC_true','C6H6_true','NMHC_sensor','NOX_true','NOX_sensor','NO2_true','NO2_sensor','O3_sensor','T','RH','AH',    
]data.columns = new_var_names
predictors = data.columns[1:]for var in predictors:if data[var].dtype =='O':data[var] = data[var].str.replace(',', '.')data[var] = pd.to_numeric(data[var])data['Date_Time'] = data['Date_Time'].str.replace('.', ':', regex=False)
data['Date_Time'] = pd.to_datetime(data['Date_Time'],dayfirst=True)data.sort_index(inplace=True)
data.to_csv('AirQualityUCI_Cleaned.csv', index=False)

上述代码将清理数据。接下来,我们需要通过pip安装feature-engine库,它是一个为时间序列数据特征工程提供大量便捷功能的库。

pip install feature-engine

然后,导入创建特征所需的库,

import numpy as np
import pandas as pd
from feature_engine.creation import CyclicalFeatures
from feature_engine.datetime import DatetimeFeatures
from feature_engine.imputation import DropMissingData
from feature_engine.selection import DropFeatures
from feature_engine.timeseries.forecasting import LagFeatures, WindowFeatures

包括来自Sklearn的Pipeline,它有助于我们执行特征工程。

# In this function we load a dataset from UCI website, we parse the columns, and sort the time, filter and remove the outliersdef load_data():# Data lives here.filename = "AirQualityUCI_Cleaned.csv"# Load data: only the time variable and CO.data = pd.read_csv(filename,usecols=["Date_Time", "CO_sensor", "RH"],parse_dates=["Date_Time"],index_col=["Date_Time"],)# Sanity: sort index.data.sort_index(inplace=True)# Reduce data span.data = data.loc["2004-04-01":"2005-04-30"]# Remove outliersdata = data.loc[(data["CO_sensor"] >= 0) & (data["RH"] >= 0)]return data
# Load data.
data = load_data()

提取日期时间特征

第一步是从日期时间字段中提取日期时间特征。

datetime_features= DatetimeFeatures( variables='index',features_to_extract=['month','week','day_of_week','day_of_month','hour','weekend'])
data=datetime_features.fit_transform(data)

在本例中,我们使用索引作为变量,因为时间序列字段已被设置为索引。

提取滞后特征

lag_features= LagFeatures(variables=['CO_sensor','RH'],freq=['1H','24H'],missing_values='ignore')data= lag_features.fit_transform(data)
data.head(26)

在这里,我们创建滞后特征。请注意,在上面的代码中,我们将频率设置为1小时和24小时,因此它会为每个上面定义的变量创建两个单独的特征。

# Seeing all the Lag Features alone
data[[features for features in data.columns if 'lag' in features]]

基于窗口的特征

window_features= WindowFeatures(variables=['CO_sensor','RH'],window='3H',    # This will window the last 3 hoursfreq='1H',      # Do this for every hourmissing_values='ignore')data=window_features.fit_transform(data)

这将创建一个3小时移动平均值的窗口特征。由于该函数在上方未定义,因此默认情况下它会采用平均值作为窗口函数。

# Seeing all the Window Features alone
data[[features for features in data.columns if 'window' in features]]

周期性特征

如上所述,周期性特征将保持月份或其他日期字段的连续性。

cyclic_features= CyclicalFeatures(variables=['month','hour'],drop_original=False)
data= cyclic_features.fit_transform(data)
# Seeing all the Periodic Features alone
data[[features for features in data.columns if 'month' in features or 'hour' in features]]

这里需要注意的是,在创建某些特征时会产生NaN值,我们需要将它们移除。如果需要,我们可以使用相同的feature-engine库来执行此操作。

imputer=DropMissingData()
data=imputer.fit_transform(data)

此外,我们还可以删除不需要的特征,

drop_features=DropFeatures(features_to_drop=['CO_sensor','RH'])
data=drop_features.fit_transform(data)

因为我们已经从原始特征中提取了必要的特征,保留它们会导致数据泄漏,因为模型会重复学习相同的信息,从而导致过拟合。

Create a Pipeline of all Combined

data = load_data()

这将加载已清理的原始数据,且未包含上述任何特征。

pipe= Pipeline([('datetime_features',datetime_features),('lag_features',lag_features),('window_features',window_features),('cyclic_features',cyclic_features),('dropnan',imputer),('drop_dataleak_features',drop_features)
])data=pipe.fit_transform(data)

这将创建所有特征,移除NaN值,并同时删除原始特征。

如何学习AI大模型?

大模型时代,火爆出圈的LLM大模型让程序员们开始重新评估自己的本领。 “AI会取代那些行业?”“谁的饭碗又将不保了?”等问题热议不断。

不如成为「掌握AI工具的技术人」,毕竟AI时代,谁先尝试,谁就能占得先机!

但是LLM相关的内容很多,现在网上的老课程老教材关于LLM又太少。所以现在小白入门就只能靠自学,学习成本和门槛很高

针对所有自学遇到困难的同学们,我帮大家系统梳理大模型学习脉络,将这份 LLM大模型资料 分享出来:包括LLM大模型书籍、640套大模型行业报告、LLM大模型学习视频、LLM大模型学习路线、开源大模型学习教程等, 😝有需要的小伙伴,可以 扫描下方二维码领取🆓↓↓↓

👉[CSDN大礼包🎁:全网最全《LLM大模型入门+进阶学习资源包》免费分享(安全链接,放心点击)]()👈

学习路线

在这里插入图片描述

第一阶段: 从大模型系统设计入手,讲解大模型的主要方法;

第二阶段: 在通过大模型提示词工程从Prompts角度入手更好发挥模型的作用;

第三阶段: 大模型平台应用开发借助阿里云PAI平台构建电商领域虚拟试衣系统;

第四阶段: 大模型知识库应用开发以LangChain框架为例,构建物流行业咨询智能问答系统;

第五阶段: 大模型微调开发借助以大健康、新零售、新媒体领域构建适合当前领域大模型;

第六阶段: 以SD多模态大模型为主,搭建了文生图小程序案例;

第七阶段: 以大模型平台应用与开发为主,通过星火大模型,文心大模型等成熟大模型构建大模型行业应用。

在这里插入图片描述

👉学会后的收获:👈

• 基于大模型全栈工程实现(前端、后端、产品经理、设计、数据分析等),通过这门课可获得不同能力;

• 能够利用大模型解决相关实际项目需求: 大数据时代,越来越多的企业和机构需要处理海量数据,利用大模型技术可以更好地处理这些数据,提高数据分析和决策的准确性。因此,掌握大模型应用开发技能,可以让程序员更好地应对实际项目需求;

• 基于大模型和企业数据AI应用开发,实现大模型理论、掌握GPU算力、硬件、LangChain开发框架和项目实战技能, 学会Fine-tuning垂直训练大模型(数据准备、数据蒸馏、大模型部署)一站式掌握;

• 能够完成时下热门大模型垂直领域模型训练能力,提高程序员的编码能力: 大模型应用开发需要掌握机器学习算法、深度学习框架等技术,这些技术的掌握可以提高程序员的编码能力和分析能力,让程序员更加熟练地编写高质量的代码。

在这里插入图片描述

1.AI大模型学习路线图
2.100套AI大模型商业化落地方案
3.100集大模型视频教程
4.200本大模型PDF书籍
5.LLM面试题合集
6.AI产品经理资源合集

👉获取方式:
😝有需要的小伙伴,可以保存图片到wx扫描二v码免费领取【保证100%免费】🆓

这篇关于终于知道如何简化时间序列的特征工程了!的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1136160

相关文章

Ilya-AI分享的他在OpenAI学习到的15个提示工程技巧

Ilya(不是本人,claude AI)在社交媒体上分享了他在OpenAI学习到的15个Prompt撰写技巧。 以下是详细的内容: 提示精确化:在编写提示时,力求表达清晰准确。清楚地阐述任务需求和概念定义至关重要。例:不用"分析文本",而用"判断这段话的情感倾向:积极、消极还是中性"。 快速迭代:善于快速连续调整提示。熟练的提示工程师能够灵活地进行多轮优化。例:从"总结文章"到"用

服务器集群同步时间手记

1.时间服务器配置(必须root用户) (1)检查ntp是否安装 [root@node1 桌面]# rpm -qa|grep ntpntp-4.2.6p5-10.el6.centos.x86_64fontpackages-filesystem-1.41-1.1.el6.noarchntpdate-4.2.6p5-10.el6.centos.x86_64 (2)修改ntp配置文件 [r

uva 10131 最长子序列

题意: 给大象的体重和智商,求体重按从大到小,智商从高到低的最长子序列,并输出路径。 代码: #include <iostream>#include <cstdio>#include <cstdlib>#include <algorithm>#include <cstring>#include <cmath>#include <stack>#include <vect

POJ1631最长单调递增子序列

最长单调递增子序列 import java.io.BufferedReader;import java.io.InputStream;import java.io.InputStreamReader;import java.io.PrintWriter;import java.math.BigInteger;import java.util.StringTokenizer;publ

MiniGPT-3D, 首个高效的3D点云大语言模型,仅需一张RTX3090显卡,训练一天时间,已开源

项目主页:https://tangyuan96.github.io/minigpt_3d_project_page/ 代码:https://github.com/TangYuan96/MiniGPT-3D 论文:https://arxiv.org/pdf/2405.01413 MiniGPT-3D在多个任务上取得了SoTA,被ACM MM2024接收,只拥有47.8M的可训练参数,在一张RTX

leetcode105 从前序与中序遍历序列构造二叉树

根据一棵树的前序遍历与中序遍历构造二叉树。 注意: 你可以假设树中没有重复的元素。 例如,给出 前序遍历 preorder = [3,9,20,15,7]中序遍历 inorder = [9,3,15,20,7] 返回如下的二叉树: 3/ \9 20/ \15 7   class Solution {public TreeNode buildTree(int[] pr

批处理以当前时间为文件名创建文件

批处理以当前时间为文件名创建文件 批处理创建空文件 有时候,需要创建以当前时间命名的文件,手动输入当然可以,但是有更省心的方法吗? 假设我是 windows 操作系统,打开命令行。 输入以下命令试试: echo %date:~0,4%_%date:~5,2%_%date:~8,2%_%time:~0,2%_%time:~3,2%_%time:~6,2% 输出类似: 2019_06

Jenkins构建Maven聚合工程,指定构建子模块

一、设置单独编译构建子模块 配置: 1、Root POM指向父pom.xml 2、Goals and options指定构建模块的参数: mvn -pl project1/project1-son -am clean package 单独构建project1-son项目以及它所依赖的其它项目。 说明: mvn clean package -pl 父级模块名/子模块名 -am参数

OmniGlue论文详解(特征匹配)

OmniGlue论文详解(特征匹配) 摘要1. 引言2. 相关工作2.1. 广义局部特征匹配2.2. 稀疏可学习匹配2.3. 半稠密可学习匹配2.4. 与其他图像表示匹配 3. OmniGlue3.1. 模型概述3.2. OmniGlue 细节3.2.1. 特征提取3.2.2. 利用DINOv2构建图形。3.2.3. 信息传播与新的指导3.2.4. 匹配层和损失函数3.2.5. 与Super

【MRI基础】TR 和 TE 时间概念

重复时间 (TR) 磁共振成像 (MRI) 中的 TR(重复时间,repetition time)是施加于同一切片的连续脉冲序列之间的时间间隔。具体而言,TR 是施加一个 RF(射频)脉冲与施加下一个 RF 脉冲之间的持续时间。TR 以毫秒 (ms) 为单位,主要控制后续脉冲之前的纵向弛豫程度(T1 弛豫),使其成为显著影响 MRI 中的图像对比度和信号特性的重要参数。 回声时间 (TE)