【机器学习】数据变换---小波变换特征提取及应用案列介绍

2024-04-19 21:20

本文主要是介绍【机器学习】数据变换---小波变换特征提取及应用案列介绍,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

引言

  在机器学习领域,数据变换是一种常见且重要的预处理步骤。通过对原始数据进行变换,我们可以提取出更有意义的特征,提高模型的性能。在众多数据变换方法中,小波变换是一种非常有效的方法,尤其适用于处理非平稳信号和时频分析。本文将详细介绍小波变换的数学原理及其在特征提取中的应用。

一、小波变换的介绍

  小波变换作为一种前沿的数据分析工具,近年来在信号分析领域崭露头角。小波分析的理论和方法凭借其独特优势,在信号处理、图像处理、语音处理、模式识别以及量子物理等多个领域得到了广泛的应用,堪称近年来在工具及方法上的重大突破。小波变换以其多分辨率的特性,在时域和频域均展现出对信号局部特征的强大表征能力。通过伸缩和平移等运算过程,小波变换能够对信号进行多尺度聚焦分析,为非平稳信号的时频分析提供了一种有效手段。它允许我们由粗及细地逐步观察信号,从而精准地提取出有用信息。

  小波变换作为一种信号分析方法,其核心思想在于将信号分解为一系列小波函数的叠加。小波函数是一类具有有限支撑集、在正负之间振荡的波形,其特性使得小波变换能够在时域和频域同时提供局部化信息,从而更加适用于非平稳信号的处理。在实际问题中,特征量往往隐含在信号的某个或某些分量中,小波变换通过分解非平稳信号为表达不同层次、不同频带信息的数据序列,即小波系数,从而实现对信号的特征提取。

  具体而言,小波变换的基本思想涉及信号与小波函数的内积运算。这一运算过程能够生成不同尺度下的小波系数,这些系数反映了信号在不同尺度和位置上的特征。通过精心选择小波函数和尺度参数,我们能够对信号进行多尺度分析,深入揭示信号中隐藏的结构信息。这一特性使得小波变换在信号分析领域具有独特的优势,为信号处理提供了新的视角和工具。

二、基于小波变换的特征提取方法 [ 1 ] ^{[1]} [1]

  基于小波变换的特征提取方法主要有:基于小波变换的多尺度空间能量分布特征提基于小波变换的多尺度空间的模极大值特征提取、基于小波包变换的特征提取、基于适应性小波神经网络的特征提取,详见下表:

基于小波变换的特征提取方法 \bold{基于小波变换的特征提取方法} 基于小波变换的特征提取方法

基于小波变换的特征提取方法方法描述
基于小波变换的多尺度空间能量分布特征提取方法各尺度空间内的平滑信号和细节信号能提供原始信号的时频局域信息,特别是能提供不同频段上信号的构成信息。把不同分解尺度上信号的能量求解出来,就可以将这些能量尺度顺序排列,形成特征向量供识别用
基于小波变换的多尺度空间的模极大值特征提取方法利用小波变换的信号局域化分析能力,求解小波变换的模极大值特性来检测信号的局部奇异性,将小波变换模极大值的尺度参数s、平移参数及其幅值作为目标的特征量
基于小波包变换的特征提取方法利用小波分解,可将时域随机信号序列映射为尺度域各子空间内的随机系数序列,按小波包分解得到的最佳子空间内随机系数序列的不确定性程度最低,将最佳子空间的熵值及最佳子空间在完整二叉树中的位置参数作为特征量,可以用于目标识别
基于适应性小波神经网络的特征提取方法基于适应性小波神经网络的特征提取方法可以把信号通过分析小波拟合表示,进行特征提取

  在机器学习中,特征提取是一个关键步骤。通过特征提取,我们可以从原始数据中提取出有意义的特征,为模型训练提供有力的支持。小波变换作为一种有效的数据变换方法,可以用于特征提取。

  基于小波变换的特征提取通常包括以下步骤:

  • 选择合适的小波函数和尺度参数。不同的小波函数和尺度参数会对特征提取结果产生不同的影响。因此,在实际应用中,我们需要根据具体任务和数据特点选择合适的小波函数和尺度参数。

  • 对原始信号进行小波变换。通过计算信号与小波函数的内积,得到不同尺度下的小波系数。

  • 提取小波系数作为特征。根据任务需求,我们可以选择部分或全部小波系数作为特征。这些特征可以用于后续的机器学习模型训练。

  • 对特征进行进一步处理。为了提高模型的性能,我们可以对提取出的小波系数进行进一步处理,如降维、归一化等。

2.1 小波基函数

  小波基函数是一种具有局部支集的函数,并且平均值为0,小波基函数满足 ψ ( 0 ) = ∫ ψ ( t ) d t \psi(0)= \begin{aligned} \int \psi(t) \mathrm{d} t \end{aligned} ψ(0)=ψ(t)dt常用的小波基有Haar小波基、db系列小波基等。Haar小波函数如下图所示。
在这里插入图片描述

2.2 小波变换

  对小波基函数进行伸缩和平移变换:
ψ a , b ( t ) = 1 ∣ a ∣ ψ ( t − τ a ) \psi_{a,b}(t) = \frac{1}{\sqrt{|a|}} \psi(\frac{t-\tau}{a}) ψa,b(t)=a 1ψ(atτ)
  其中, a a a为伸缩因子, τ \tau τ为平移因子。
  任意函数 f ( t ) f(t) f(t)的连续小波变换(CWT)为:
W f ( a , b ) = ∣ a ∣ − 1 / 2 ∫ f ( t ) ψ ( t − τ a ) d t W_f(a,b)=|a|^{-1/2}\begin{aligned} \int f(t) \psi(\frac{t-\tau}{a}) \mathrm{d} t \end{aligned} Wf(a,b)=a1/2f(t)ψ(atτ)dt
  可知,连续小波变换为 f ( t ) → W f ( a , τ ) f(t) \rightarrow W_f(a,\tau) f(t)Wf(a,τ)的映射,对小波基函数 ψ ( t ) \psi(t) ψ(t)增加约束条件 C ψ = ∫ ∣ ψ ( t ) ^ ∣ 2 t d t < ∞ C_\psi=\begin{aligned} \int \frac{|\hat{\psi(t)}|^{2}}{t} \mathrm{d} t \end{aligned} < \infty Cψ=tψ(t)^2dt<,就可以由 W f ( a , τ ) W_f(a,\tau) Wf(a,τ)逆变换到 f ( t ) f(t) f(t)。其中 ψ ( t ) ^ \hat{\psi(t)} ψ(t)^ ψ ( t ) \psi(t) ψ(t)的傅里叶变换(后续文章中将会继续介绍傅里叶变换)。

f ( t ) = 1 ψ ( t ) ∫ ∫ 1 a 2 W f ( a , τ ) ψ ( t − b a ) d a ⋅ d τ f(t) = \frac{1}{\psi(t)} \int\int{\frac{1}{a^2}W_f(a,\tau)\psi(\frac{t-b}{a}) \mathrm{d} a \cdot \mathrm{d} \tau } f(t)=ψ(t)1∫∫a21Wf(a,τ)ψ(atb)dadτ
  简而言之,小波变换采用了可伸缩和平移的基函数,其实质上是由两个正交基进行分解构成。当基函数被压缩至较窄的形态时,它主要对应于信号中的高频成分;而当基函数展宽时,则更多地与信号的低频成分相对应。在变换过程中,这个基函数会与原始信号进行连续相乘运算。在特定的尺度(即基函数的宽窄程度)下,相乘的结果反映了信号在该尺度下所包含的对应频率成分的量级。在某些尺度下,基函数与信号之间可能存在较大的重叠,从而导致相乘的结果值较大。这种重叠关系实际上揭示了信号中包含该频率成分的程度。因此,通过观察不同尺度下的乘积结果,我们可以准确地了解信号中不同频率成分的分布情况。与传统的傅里叶变换相比,小波变换的一个显著改进在于它采用了有限长度且会衰减的小波基,替代了无限长的三角函数基。这种改变使得小波变换在分析非平稳信号和局部特征时具有更高的精度和灵活性。效果如下图
在这里插入图片描述
从公式可以看出,不同于傅里叶变换,变量只有频率ω,小波变换有两个变量:尺度 a a a(scale)和平移量 τ \tau τ(translation)。尺度 a a a控制小波函数的伸缩,平移量 τ控制小波函数的平移。尺度就对应于频率(反比),平移量 τ \tau τ就对应于时间。如下图
在这里插入图片描述
当伸缩、平移到这么一种重合情况时,也会相乘得到一个大的值。这时候和傅里叶变换不同的是,这不仅可以知道信号有这样频率的成分,而且知道它在时域上存在的具体位置。

三 、 基于小波变换的特征提取案例

  在 Python中,Scipy本身提供了一些信号处理函数,但不够全面,而更好的信号处理库是PyWavelets (pywt)。在本案例中,我们将使用Python语言以及pywt库来展示基于小波变换的特征提取过程。我们将使用一个简单的信号数据集,对其进行小波变换,并提取特征。

  首先,请确保已经安装了pywt库。如果尚未安装,可以使用以下命令进行安装:

pip install PyWavelets

  接下来是Python代码实现:

import numpy as np  
import matplotlib.pyplot as plt  
import pywt  # 创建一个简单的信号数据  
# 这里我们使用一个包含正弦波和噪声的信号作为示例  
t = np.linspace(0, 1, num=500)  
signal = np.sin(2 * np.pi * 5 * t) + 0.5 * np.sin(2 * np.pi * 12 * t) + 0.1 * np.random.randn(500)  # 选择小波函数和分解层级  
wavelet = 'db4'  # 选择Daubechies小波系中的'db1'  
level = 5  # 分解层级  # 执行小波变换  
coeffs = pywt.wavedec(signal, wavelet, level=level)  
cA, cD = coeffs[0], coeffs[1:]  # 分离近似系数和细节系数  #计算小波系数的能量
energy = [np.sum(np.square(i)) for i in coeffs]
#计算小波系数标准差
std = [np.std(i) for i in coeffs]
#计算小波系数的均值
mean = [np.mean(i) for i in coeffs]
#将计算得到的特征值组合成一个特征向量
feature_vector = np.concatenate((energy,std,mean))
# 接下来,可以使用这些特征进行机器学习任务,如分类、回归等  
# 这里仅展示特征提取过程,因此省略了机器学习模型的训练和评估步骤

  在这个案例中,我们首先创建了一个包含正弦波和噪声的信号。然后,我们使用pywt.wavedec函数执行小波变换,并分离出近似系数和细节系数。我们选择db4小波函数和5层分解作为示例。细节系数cD包含了信号在不同尺度上的高频信息,这些信息可以被用作特征。在这个简单的例子中,我们简单地将所有细节系数连接成一个一维数组作为特征。

四、小波变换在机器学习中的应用场景

  小波变换在机器学习领域有着广泛的应用。以下是一些典型的应用场景:

  • 信号处理与分类:在信号处理领域,小波变换可以用于提取信号中的特征,进而实现信号的分类。例如,在语音识别、图像识别等任务中,小波变换可以有效地提取出音频或图像的局部特征,提高分类性能。

  • 故障诊断与健康监测:在工业领域,小波变换可以用于设备故障诊断和健康监测。通过对设备振动信号进行小波变换,我们可以提取出与故障相关的特征,实现故障的早期预警和定位。

  • 金融数据分析:在金融领域,小波变换可以用于分析股票价格、汇率等金融数据的波动特性。通过提取金融数据中的多尺度特征,我们可以更好地预测市场趋势和制定投资策略。

五、小波变换在机器学习中的应用场景——信号处理与分类

  小波变换是一种信号处理技术,它能够在时域和频域中同时提供信号的局部化信息。在机器学习中,小波变换常用于信号预处理,特别是在处理非平稳信号时,如生物医学信号、音频信号等。通过小波变换,我们可以提取信号的特征,进而用于分类、识别等任务。

  下面是一个简单的案例,展示了如何使用小波变换对信号进行预处理,并结合机器学习算法进行分类。

案例:基于小波变换的心电图信号分类

  假设我们有一组心电图(ECG)信号数据,需要将其分类为正常或异常。我们可以使用小波变换提取信号的特征,然后利用这些特征训练一个分类器。这个案例展示了如何使用小波变换对ECG信号进行特征提取,并使用SVM进行分类。在实际应用中,你可能需要根据具体的数据和任务调整小波基函数、分解层数、特征选择以及分类器的参数。此外,还可以考虑使用更复杂的特征提取方法(如基于小波包的变换)和机器学习算法(如深度学习模型)来提高分类性能。

步骤 1:导入必要的库
import numpy as np
import pywt  # 小波变换库
from sklearn.model_selection import train_test_split
from sklearn.svm import SVC  # 支持向量机分类器
from sklearn.metrics import accuracy_scoreimport matplotlib.pyplot as plt
步骤 2:加载和预处理数据

  由于实际的心电图信号和标签通常是通过专业设备采集和标注的,为了演示目的,我会生成一些模拟的ECG信号和对应的标签。请注意,这些信号并不代表现实生活中的真实ECG数据,而仅用于演示代码。这里假设我们已经有了一个包含ECG信号的NumPy数组ecg_signals,以及对应的标签数组labels(0表示正常,1表示异常)

  以下是一组模拟的ECG信号和标签:

import numpy as np
import matplotlib.pyplot as plt# 生成模拟的ECG信号
np.random.seed(42)  # 为了可重复性设置随机种子
fs = 360  # 采样频率(Hz)
t = np.arange(0, 10, 1/fs)  # 时间向量
ecg_signals = []
for _ in range(100):  # 生成100个模拟信号# 使用正弦波模拟ECG信号的基本形状signal = np.sin(2 * np.pi * 5 * t) + 0.5 * np.sin(2 * np.pi * 12 * t)# 添加一些噪声noise = 0.1 * np.random.randn(len(t))signal += noiseecg_signals.append(signal)# 将信号转换为NumPy数组
ecg_signals = np.array(ecg_signals)# 生成对应的标签(这里简单地将前50个标签设为0,后50个设为1)
labels = np.concatenate([np.zeros(50), np.ones(50)])# 可视化一些随机选择的信号(可选)
plt.figure(figsize=(10, 6))
for i in np.random.choice(range(100), 10, replace=False):plt.plot(t, ecg_signals[i], label=f'Signal {i}')
plt.xlabel('Time (s)')
plt.ylabel('Amplitude')
plt.title('Simulated ECG Signals')
plt.legend()
plt.show()

在这里插入图片描述

步骤 3:应用小波变换提取特征

  我们可以选择一种小波基函数(如’db1’),并指定分解的层数。然后,对每个信号应用小波变换,并提取某些层的系数作为特征。

wavelet = 'db1'  # 选择小波基函数
level = 5  # 分解层数# 初始化特征数组
features = []for signal in ecg_signals:coeffs = pywt.wavedec(signal, wavelet, level=level)  # 小波分解# 提取某些层的系数作为特征,这里我们选择最后一层的近似系数和细节系数feature = np.concatenate([coeffs[-1], coeffs[:-1]])features.append(feature)# 将特征数组转换为NumPy数组
features = np.array(features)
步骤 4:划分训练集和测试集
###这里去除一些信号
features = features[:-6]    #这里需要将ndarray嵌套的情况清洗出来,我们这里直接删除处理
X_train, X_test, y_train, y_test = train_test_split(features, labels, test_size=0.2, random_state=42)
步骤 5:训练分类器

  这里我们使用支持向量机(SVM)作为分类器。当然,你也可以尝试其他机器学习算法。

clf = SVC(kernel='linear', C=1.0, random_state=42)
clf.fit(X_train, y_train)
步骤 6:评估分类器性能
y_pred = clf.predict(X_test)
accuracy = accuracy_score(y_test, y_pred)
print(f"Accuracy: {accuracy:.2f}")

  这个案例展示了如何使用小波变换对ECG信号进行特征提取,并使用SVM进行分类。在实际应用中,你可能需要根据具体的数据和任务调整小波基函数、分解层数、特征选择以及分类器的参数。此外,还可以考虑使用更复杂的特征提取方法(如基于小波包的变换)和机器学习算法(如深度学习模型)来提高分类性能。

完整代码

import numpy as np
import pywt  # 小波变换库
from sklearn.model_selection import train_test_split
from sklearn.svm import SVC  # 支持向量机分类器
from sklearn.metrics import accuracy_scoreimport matplotlib.pyplot as plt# 生成模拟的ECG信号
np.random.seed(42)  # 为了可重复性设置随机种子
fs = 360  # 采样频率(Hz)
t = np.arange(0, 10, 1/fs)  # 时间向量
ecg_signals = []
for _ in range(100):  # 生成100个模拟信号# 使用正弦波模拟ECG信号的基本形状signal = np.sin(2 * np.pi * 5 * t) + 0.5 * np.sin(2 * np.pi * 12 * t)# 添加一些噪声noise = 0.1 * np.random.randn(len(t))signal += noiseecg_signals.append(signal)# 将信号转换为NumPy数组
ecg_signals = np.array(ecg_signals)# 生成对应的标签(这里简单地将前50个标签设为0,后50个设为1)
labels = np.concatenate([np.zeros(50), np.ones(50)])# 可视化一些随机选择的信号(可选)
plt.figure(figsize=(10, 6))
for i in np.random.choice(range(100), 10, replace=False):plt.plot(t, ecg_signals[i], label=f'Signal {i}')
plt.xlabel('Time (s)')
plt.ylabel('Amplitude')
plt.title('Simulated ECG Signals')
plt.legend()
plt.show()wavelet = 'db1'  # 选择小波基函数
level = 5  # 分解层数# 初始化特征数组
features = []for signal in ecg_signals:coeffs = pywt.wavedec(signal, wavelet, level=level)  # 小波分解# 提取某些层的系数作为特征,这里我们选择最后一层的近似系数和细节系数feature = np.concatenate([coeffs[-1], coeffs[:-1]])features.append(feature)# 将特征数组转换为NumPy数组
features = np.array(features)#这里需要将ndarray嵌套的情况清洗出来,我们这里直接删除处理
features = features[:,:-6]
X_train, X_test, y_train, y_test = train_test_split(features, labels, test_size=0.2, random_state=42)clf = SVC(kernel='linear', C=1.0, random_state=42)
clf.fit(X_train, y_train)y_pred = clf.predict(X_test)
accuracy = accuracy_score(y_test, y_pred)
print(f"Accuracy: {accuracy:.2f}")

结论

  小波变换作为一种有效的数据变换方法,在机器学习领域具有广泛的应用前景。通过深入了解小波变换的数学原理和特征提取方法,我们可以更好地利用小波变换来处理和分析数据,提高机器学习模型的性能。在实际应用中,我们需要根据具体任务和数据特点选择合适的小波函数和尺度参数,以充分发挥小波变换的优势。

文献

  [1]黄恒秋,张良均,谭立云.Python金融数据分析与挖掘实战[M].人民邮电出版社,2020.

这篇关于【机器学习】数据变换---小波变换特征提取及应用案列介绍的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/918489

相关文章

Python MySQL如何通过Binlog获取变更记录恢复数据

《PythonMySQL如何通过Binlog获取变更记录恢复数据》本文介绍了如何使用Python和pymysqlreplication库通过MySQL的二进制日志(Binlog)获取数据库的变更记录... 目录python mysql通过Binlog获取变更记录恢复数据1.安装pymysqlreplicat

Linux使用dd命令来复制和转换数据的操作方法

《Linux使用dd命令来复制和转换数据的操作方法》Linux中的dd命令是一个功能强大的数据复制和转换实用程序,它以较低级别运行,通常用于创建可启动的USB驱动器、克隆磁盘和生成随机数据等任务,本文... 目录简介功能和能力语法常用选项示例用法基础用法创建可启动www.chinasem.cn的 USB 驱动

java脚本使用不同版本jdk的说明介绍

《java脚本使用不同版本jdk的说明介绍》本文介绍了在Java中执行JavaScript脚本的几种方式,包括使用ScriptEngine、Nashorn和GraalVM,ScriptEngine适用... 目录Java脚本使用不同版本jdk的说明1.使用ScriptEngine执行javascript2.

Oracle数据库使用 listagg去重删除重复数据的方法汇总

《Oracle数据库使用listagg去重删除重复数据的方法汇总》文章介绍了在Oracle数据库中使用LISTAGG和XMLAGG函数进行字符串聚合并去重的方法,包括去重聚合、使用XML解析和CLO... 目录案例表第一种:使用wm_concat() + distinct去重聚合第二种:使用listagg,

Python实现将实体类列表数据导出到Excel文件

《Python实现将实体类列表数据导出到Excel文件》在数据处理和报告生成中,将实体类的列表数据导出到Excel文件是一项常见任务,Python提供了多种库来实现这一目标,下面就来跟随小编一起学习一... 目录一、环境准备二、定义实体类三、创建实体类列表四、将实体类列表转换为DataFrame五、导出Da

Python实现数据清洗的18种方法

《Python实现数据清洗的18种方法》本文主要介绍了Python实现数据清洗的18种方法,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学... 目录1. 去除字符串两边空格2. 转换数据类型3. 大小写转换4. 移除列表中的重复元素5. 快速统

Python数据处理之导入导出Excel数据方式

《Python数据处理之导入导出Excel数据方式》Python是Excel数据处理的绝佳工具,通过Pandas和Openpyxl等库可以实现数据的导入、导出和自动化处理,从基础的数据读取和清洗到复杂... 目录python导入导出Excel数据开启数据之旅:为什么Python是Excel数据处理的最佳拍档

将Python应用部署到生产环境的小技巧分享

《将Python应用部署到生产环境的小技巧分享》文章主要讲述了在将Python应用程序部署到生产环境之前,需要进行的准备工作和最佳实践,包括心态调整、代码审查、测试覆盖率提升、配置文件优化、日志记录完... 目录部署前夜:从开发到生产的心理准备与检查清单环境搭建:打造稳固的应用运行平台自动化流水线:让部署像

Python实现NLP的完整流程介绍

《Python实现NLP的完整流程介绍》这篇文章主要为大家详细介绍了Python实现NLP的完整流程,文中的示例代码讲解详细,具有一定的借鉴价值,感兴趣的小伙伴可以跟随小编一起学习一下... 目录1. 编程安装和导入必要的库2. 文本数据准备3. 文本预处理3.1 小写化3.2 分词(Tokenizatio

在Pandas中进行数据重命名的方法示例

《在Pandas中进行数据重命名的方法示例》Pandas作为Python中最流行的数据处理库,提供了强大的数据操作功能,其中数据重命名是常见且基础的操作之一,本文将通过简洁明了的讲解和丰富的代码示例,... 目录一、引言二、Pandas rename方法简介三、列名重命名3.1 使用字典进行列名重命名3.编