特征选择、特征降维和特征提取到底有什么区别和联系?这篇文章一次性给你讲清楚!

本文主要是介绍特征选择、特征降维和特征提取到底有什么区别和联系?这篇文章一次性给你讲清楚!,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

目录

一、特征选择:

1.最大互信息系数(MIC):

2.互信息(MI):

3.最大相关最小冗余算法(mRMR):

4.支持向量机递归特征消除(SVM_RFE):

二、特征降维:

1.主成分分析(PCA):

2.核主成分分析(KPCA):

3.t-分布随机邻域嵌入(t-SNE):

三、特征提取:

1.信号处理层面

2.深度学习层面

①CNN-LSTM-Attention:

②DBN-SVM:

③CNN-BiGRU-Attention:

④DBN-ELM:

四、总结

以上完整代码获取


不断有小伙伴留言说不了解特征选择、特征降维和特征提取之间的关系,在实际操作中也经常容易搞混。既然用了,就要知其然还要知其所以然,今天这篇文章就用通俗易懂的语言一次性讲清楚三者的区别!

首先,从通俗易懂和标准学术两种角度给大家详细解释!

一、特征选择

通俗易懂版:想象一下,你在拍照时会选择最能代表场景的角度,去除不必要的背景,这样的照片更能吸引人。特征选择也是同样的道理,它的目标是从所有的特征中选出最重要的那些,去除不相关或冗余的特征。这样做的好处是可以让模型更专注于那些有用的信息,提高模型的效率和性能。

学术专业版:特征选择是从原始数据集中选择出最有用的特征子集的过程。比如你现在有50个特征,可以通过模型来选择20个最有用的!目的是去除不相关(噪声)或冗余的特征,从而提高模型的性能,减少计算成本,并提高模型的可解释性。特征选择方法大致可以分为三类:过滤法(Filter Methods)、包裹法(Wrapper Methods)、和嵌入法(Embedded Methods)。

常用方法:

1.最大信息系数(MIC):

属于过滤法,最大互信息系数能够计算各个特征之间的最大互信息系数,进而根据最大互信息系数筛选最优特征。

2.互信息(MI):

属于过滤法,与最大互信息系数类似,计算各个特征之间的最大互信息,进而根据互信息筛选最优特征。

3.最大相关最小冗余算法(mRMR):

属于过滤法,用于在原始特征集合中找到与最终输出结果相关性最大,但是特征彼此之间相关性最小的一组特征

4.支持向量机递归特征消除(SVM_RFE):

属于包裹法,反复构建模型并选择最好或最差的特征(基于模型的权重),放弃选定的特征并在剩余的特征上重复这个过程,直到所有特征都历完毕。

二、特征维:

通俗易懂版:如果说特征选择是从照片中剪掉不需要的部分,那么特征降维就像是用一种技术手段,将照片压缩成更小的文件,同时尽量保留原来的信息。特征降维是通过数学方法减少特征的数量,将很多特征合并成较少的新特征。这不仅减少了数据的复杂度,还有助于避免过拟合,提高模型的泛化能力。常见的特征降维方法有PCA(主成分分析)。

学术专业版:特征降维是减少数据集中特征数量的过程,但它是通过创建新的特征组合或投影,而不是选择原始特征的子集。这些新特征是原始特征的转换或组合,旨在保留数据的大部分重要信息。常见的特征降维方法包括主成分分析(PCA)、线性判别分析(LDA)和t-分布随机邻域嵌入(t-SNE)等。特征降维通常用于数据可视化、降低存储需求、减少计算时间以及有时还可以帮助改善模型性能。

常用方法:

1.主成分分析(PCA)

通过线性变换将原始数据转换到新的坐标系统中,变换后的每个坐标轴(主成分)依次具有最大的方差。

2.核主成分分析(KPCA):

扩展了传统的主成分分析(PCA)方法,使其能够有效处理非线性数据结构。

3.t-分布随机邻域嵌入(t-SNE)

通过优化相似度的概率分布来寻找数据在低维空间的最佳表示,能够在低维空间中保持高维数据点之间的相对距离,非常适合于数据可视化。

三、特征提取:

通俗易懂版:特征提取就像是从一堆杂乱无章的信息中提炼出精华,创造出新的特征。它通过对原始数据进行变换或组合,生成一组“新”的特征,这些新特征能更好地代表数据的核心信息。特征提取在处理图像、文本等复杂数据时特别有用,因为直接处理这些数据往往不易于模型理解和学习。

学术专业版:特征提取是将原始数据转换或映射到新的特征空间的过程。这个过程涉及到从原始数据中提取信息并将其转化为更有效的表示形式(即,特征集)。特征提取旨在减少原始数据集的维度,同时保留关于原始数据集的尽可能多的重要信息。这种方法在图像处理、文本分析和语音识别等领域尤其常见。特征提取可以是手动设计特征,也可以通过自动化的方法(如通过深度学习模型)来实现。

常用的方法有:

1.信号处理层面

一般有基于频域的信号特征提取、基于时域的信号特征提取等等,一般可以用来做故障诊断等研究~

需要代码的小伙伴可留言,我会尽快出~

2.深度学习层面

一般通过CNN提取时间层面特征,大家熟知的CNN-LSTN-Attention就是通过这种方法实现,每个卷积层通过一系列的卷积核滤波器来捕捉数据的局部特征,然后使用池化层(如最大池化)来降低特征的空间维度,增强模型的泛化能力。

另外还有DBN深度置信网络,DBN由多层受限玻尔兹曼机(RBM)堆叠而成。每个RBM层都学数据在给定层的特征表示时的概率分布,能够自动发现复杂的、非线性的特征,这些特征往往是手工特征提取方法难以捕捉的。

以分类预测为例:

①CNN-LSTM-Attention:

CNN用于捕捉数据中的局部模式和特征;LSTM用于处理数据捕捉长期依赖关系;注意力机制提供了对关键信息的聚焦能力,从而提高预测的准确性。

②DBN-SVM:

用DBN进行特征提取,将提取后的特征放入SVM进行分类实现组合预测

以回归预测为例:

③CNN-BiGRU-Attention:

CNN用于捕捉数据中的局部模式和特征;BiGRU用于处理数据捕捉长期依赖关系;注意力机制提供了对关键信息的聚焦能力,从而提高预测的准确性。

④DBN-ELM:

用DBN进行特征提取,将提取后的特征放入SVM进行分类实现组合预测

四、总结

特征选择关注于从原始特征中选择最重要的子集,不改变特征本身。

特征降维通过创建新的特征组合减少特征的数量,以降低问题的维度。

特征提取从数据中提取新的特征,这些特征是原始数据的高效表示。

以上完整代码获取

点击下方小卡片,找到对应文章,后台回复关键字即可~

其他更多需求或想要的代码均可点击下方小卡片后台私信,看到后会秒回~

这篇关于特征选择、特征降维和特征提取到底有什么区别和联系?这篇文章一次性给你讲清楚!的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/729389

相关文章

go 指针接收者和值接收者的区别小结

《go指针接收者和值接收者的区别小结》在Go语言中,值接收者和指针接收者是方法定义中的两种接收者类型,本文主要介绍了go指针接收者和值接收者的区别小结,文中通过示例代码介绍的非常详细,需要的朋友们下... 目录go 指针接收者和值接收者的区别易错点辨析go 指针接收者和值接收者的区别指针接收者和值接收者的

售价599元起! 华为路由器X1/Pro发布 配置与区别一览

《售价599元起!华为路由器X1/Pro发布配置与区别一览》华为路由器X1/Pro发布,有朋友留言问华为路由X1和X1Pro怎么选择,关于这个问题,本期图文将对这二款路由器做了期参数对比,大家看... 华为路由 X1 系列已经正式发布并开启预售,将在 4 月 25 日 10:08 正式开售,两款产品分别为华

kotlin中const 和val的区别及使用场景分析

《kotlin中const和val的区别及使用场景分析》在Kotlin中,const和val都是用来声明常量的,但它们的使用场景和功能有所不同,下面给大家介绍kotlin中const和val的区别,... 目录kotlin中const 和val的区别1. val:2. const:二 代码示例1 Java

CSS Padding 和 Margin 区别全解析

《CSSPadding和Margin区别全解析》CSS中的padding和margin是两个非常基础且重要的属性,它们用于控制元素周围的空白区域,本文将详细介绍padding和... 目录css Padding 和 Margin 全解析1. Padding: 内边距2. Margin: 外边距3. Padd

Springboot @Autowired和@Resource的区别解析

《Springboot@Autowired和@Resource的区别解析》@Resource是JDK提供的注解,只是Spring在实现上提供了这个注解的功能支持,本文给大家介绍Springboot@... 目录【一】定义【1】@Autowired【2】@Resource【二】区别【1】包含的属性不同【2】@

Java中的String.valueOf()和toString()方法区别小结

《Java中的String.valueOf()和toString()方法区别小结》字符串操作是开发者日常编程任务中不可或缺的一部分,转换为字符串是一种常见需求,其中最常见的就是String.value... 目录String.valueOf()方法方法定义方法实现使用示例使用场景toString()方法方法

分辨率三兄弟LPI、DPI 和 PPI有什么区别? 搞清分辨率的那些事儿

《分辨率三兄弟LPI、DPI和PPI有什么区别?搞清分辨率的那些事儿》分辨率这个东西,真的是让人又爱又恨,为了搞清楚它,我可是翻阅了不少资料,最后发现“小7的背包”的解释最让我茅塞顿开,于是,我... 在谈到分辨率时,我们经常会遇到三个相似的缩写:PPI、DPI 和 LPI。虽然它们看起来差不多,但实际应用

GORM中Model和Table的区别及使用

《GORM中Model和Table的区别及使用》Model和Table是两种与数据库表交互的核心方法,但它们的用途和行为存在著差异,本文主要介绍了GORM中Model和Table的区别及使用,具有一... 目录1. Model 的作用与特点1.1 核心用途1.2 行为特点1.3 示例China编程代码2. Tab

Nginx指令add_header和proxy_set_header的区别及说明

《Nginx指令add_header和proxy_set_header的区别及说明》:本文主要介绍Nginx指令add_header和proxy_set_header的区别及说明,具有很好的参考价... 目录Nginx指令add_header和proxy_set_header区别如何理解反向代理?proxy

Java中&和&&以及|和||的区别、应用场景和代码示例

《Java中&和&&以及|和||的区别、应用场景和代码示例》:本文主要介绍Java中的逻辑运算符&、&&、|和||的区别,包括它们在布尔和整数类型上的应用,文中通过代码介绍的非常详细,需要的朋友可... 目录前言1. & 和 &&代码示例2. | 和 ||代码示例3. 为什么要使用 & 和 | 而不是总是使