特征选择、特征降维和特征提取到底有什么区别和联系？这篇文章一次性给你讲清楚！

本文主要是介绍特征选择、特征降维和特征提取到底有什么区别和联系？这篇文章一次性给你讲清楚！，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

一、特征选择：

1.最大互信息系数(MIC)：

2.互信息(MI)：

3.最大相关最小冗余算法(mRMR)：

4.支持向量机递归特征消除(SVM_RFE)：

二、特征降维：

1.主成分分析(PCA)：

2.核主成分分析(KPCA)：

3.t-分布随机邻域嵌入(t-SNE)：

三、特征提取：

1.信号处理层面

2.深度学习层面

①CNN-LSTM-Attention：

②DBN-SVM：

③CNN-BiGRU-Attention：

④DBN-ELM：

四、总结

以上完整代码获取

不断有小伙伴留言说不了解特征选择、特征降维和特征提取之间的关系，在实际操作中也经常容易搞混。既然用了，就要知其然还要知其所以然，今天这篇文章就用通俗易懂的语言一次性讲清楚三者的区别！

首先，从通俗易懂和标准学术两种角度给大家详细解释！

一、特征选择：

通俗易懂版：想象一下，你在拍照时会选择最能代表场景的角度，去除不必要的背景，这样的照片更能吸引人。特征选择也是同样的道理，它的目标是从所有的特征中选出最重要的那些，去除不相关或冗余的特征。这样做的好处是可以让模型更专注于那些有用的信息，提高模型的效率和性能。

学术专业版：特征选择是从原始数据集中选择出最有用的特征子集的过程。比如你现在有50个特征，可以通过模型来选择20个最有用的！目的是去除不相关（噪声）或冗余的特征，从而提高模型的性能，减少计算成本，并提高模型的可解释性。特征选择方法大致可以分为三类：过滤法（Filter Methods）、包裹法（Wrapper Methods）、和嵌入法（Embedded Methods）。

常用方法：

1.最大互信息系数(MIC)：

属于过滤法，最大互信息系数能够计算各个特征之间的最大互信息系数，进而根据最大互信息系数筛选最优特征。

2.互信息(MI)：

属于过滤法，与最大互信息系数类似，计算各个特征之间的最大互信息，进而根据互信息筛选最优特征。

3.最大相关最小冗余算法(mRMR)：

属于过滤法，用于在原始特征集合中找到与最终输出结果相关性最大，但是特征彼此之间相关性最小的一组特征。

4.支持向量机递归特征消除(SVM_RFE)：

属于包裹法，反复构建模型并选择最好或最差的特征（基于模型的权重），放弃选定的特征并在剩余的特征上重复这个过程，直到所有特征都遍历完毕。

二、特征降维：

通俗易懂版：如果说特征选择是从照片中剪掉不需要的部分，那么特征降维就像是用一种技术手段，将照片压缩成更小的文件，同时尽量保留原来的信息。特征降维是通过数学方法减少特征的数量，将很多特征合并成较少的新特征。这不仅减少了数据的复杂度，还有助于避免过拟合，提高模型的泛化能力。常见的特征降维方法有PCA（主成分分析）。

学术专业版：特征降维是减少数据集中特征数量的过程，但它是通过创建新的特征组合或投影，而不是选择原始特征的子集。这些新特征是原始特征的转换或组合，旨在保留数据的大部分重要信息。常见的特征降维方法包括主成分分析（PCA）、线性判别分析（LDA）和t-分布随机邻域嵌入（t-SNE）等。特征降维通常用于数据可视化、降低存储需求、减少计算时间以及有时还可以帮助改善模型性能。

常用方法：

1.主成分分析(PCA)：

通过线性变换将原始数据转换到新的坐标系统中，变换后的每个坐标轴（主成分）依次具有最大的方差。

2.核主成分分析(KPCA)：

扩展了传统的主成分分析（PCA）方法，使其能够有效处理非线性数据结构。

3.t-分布随机邻域嵌入(t-SNE)：

通过优化相似度的概率分布来寻找数据在低维空间的最佳表示，能够在低维空间中保持高维数据点之间的相对距离，非常适合于数据可视化。

三、特征提取：

通俗易懂版：特征提取就像是从一堆杂乱无章的信息中提炼出精华，创造出新的特征。它通过对原始数据进行变换或组合，生成一组“新”的特征，这些新特征能更好地代表数据的核心信息。特征提取在处理图像、文本等复杂数据时特别有用，因为直接处理这些数据往往不易于模型理解和学习。

学术专业版：特征提取是将原始数据转换或映射到新的特征空间的过程。这个过程涉及到从原始数据中提取信息并将其转化为更有效的表示形式（即，特征集）。特征提取旨在减少原始数据集的维度，同时保留关于原始数据集的尽可能多的重要信息。这种方法在图像处理、文本分析和语音识别等领域尤其常见。特征提取可以是手动设计特征，也可以通过自动化的方法（如通过深度学习模型）来实现。

常用的方法有：