机器学习中经常使用的特征选择方式+python实现代码

2024-06-01 16:48

本文主要是介绍机器学习中经常使用的特征选择方式+python实现代码,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

当数据与处理完成后,我们需要选择有意义的特征输入算法和模型进行训练,通常来说,从两个方面来选择特征: 

1、特征是否发散,如果某一个特征的方差为0,即这个属性不能被称之为特征,因为所有的样本在这个特征上并没有什么区别,这种特种需要被剔除;但是如果相反,所有样本在在这个特征上都不一样,比如公民的身份证号码,不能反映出样本的共性的特征的话,特征也必须被剔除。

2、特征与目标之间的相关性,如果特征与目标相关性很高,那么特征应该被优先选择。

2.1、相关性分析 一般都是使用一些距离度量公式来判别特征间的相似度的,用的比较多的主要是皮尔逊相关系数,使用相关性系数来表明特征和标签之间的相关性,如果相关性在0附近,则表示该特征与预测结果无关,但是有些特征表面上看上去与标签值可能无关,但是其组合值有可能和预测值有极大的相关性,所以这个一般只能作为一个参考。

2.2、过滤式选择 过滤式选择一般是借助于特征自身的一些统计值来过滤特征的,比如标准差,方差,设置一个对应的阈值,小于这个阈值的特征就会被过滤掉;最常使用的评价方法有方差选择法 、相关系数法 、卡方检验 、互信息法。

# 过滤式选择,使用的是泰坦尼克号的数据集
test_data = new_data.copy()
from sklearn.feature_selection import VarianceThreshold
train_data = test_data[0].drop(['Survived'],axis = 1).values
test_data = test_data[1].values
#设置属性方差阈值为0.1
selector = VarianceThreshold(0.1)
train_data_1 = selector.fit_transform(train_data)
test_data_1 = test_data.T[selector.get_support()]
test_data_1 = test_data_1.T
test_data_1.shape

2.3、包裹式选择 包裹式选择是需要借助于外部的学习器,一般这种学习器必须有coef_或者feature_importance_这些属性,像是线性模型,树模型都可以学习到特征的权重,或者是特征重要度,基于原始的完整的训练集进行训练,当学习完以后,去除那个权重最小的或者特征重要度最小值对应的特征,重新组织新的训练集,进行特征筛选,知道满足要求为止;

# 包裹式选择,这里使用线性支持向量机来做特征选择
from sklearn.feature_selection import RFE
from sklearn.svm import LinearSVC
x_train = train_data
y_train = new_data[0].Survived.values
estimator = LinearSVC()
selector = RFE(estimator = estimator,n_features_to_select = 18)
train_data_2 = selector.fit_transform(x_train,y_train)
test_data_2 = test_data.T[selector.support_]
test_data_2 = test_data_2.T
test_data_2.shape

2.4、嵌入式选择 和包裹式选择类似,也是需要借助于外部的学习器,但是和包裹式选择不同的是学习器在学习的过程中会不断的进行特征选择,直到满足要求为止。 如果特征的维度过高,一定程度上可以使用降维,比如主成分分析法。

# 嵌入式选择 这里使用随机森林模型
from sklearn.feature_selection import SelectFromModel
from sklearn.ensemble import RandomForestClassifier
estimator = RandomForestClassifier()
selector = SelectFromModel(estimator = estimator,threshold = 'median')
train_data_3 = selector.fit_transform(x_train,y_train)
test_data_3 = test_data.T[selector.get_support()]
test_data_3 = test_data_3.T
test_data_3.shape

这篇关于机器学习中经常使用的特征选择方式+python实现代码的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1021565

相关文章

Debezium 与 Apache Kafka 的集成方式步骤详解

《Debezium与ApacheKafka的集成方式步骤详解》本文详细介绍了如何将Debezium与ApacheKafka集成,包括集成概述、步骤、注意事项等,通过KafkaConnect,D... 目录一、集成概述二、集成步骤1. 准备 Kafka 环境2. 配置 Kafka Connect3. 安装 D

JavaScript中的reduce方法执行过程、使用场景及进阶用法

《JavaScript中的reduce方法执行过程、使用场景及进阶用法》:本文主要介绍JavaScript中的reduce方法执行过程、使用场景及进阶用法的相关资料,reduce是JavaScri... 目录1. 什么是reduce2. reduce语法2.1 语法2.2 参数说明3. reduce执行过程

如何使用Java实现请求deepseek

《如何使用Java实现请求deepseek》这篇文章主要为大家详细介绍了如何使用Java实现请求deepseek功能,文中的示例代码讲解详细,感兴趣的小伙伴可以跟随小编一起学习一下... 目录1.deepseek的api创建2.Java实现请求deepseek2.1 pom文件2.2 json转化文件2.2

Java调用DeepSeek API的最佳实践及详细代码示例

《Java调用DeepSeekAPI的最佳实践及详细代码示例》:本文主要介绍如何使用Java调用DeepSeekAPI,包括获取API密钥、添加HTTP客户端依赖、创建HTTP请求、处理响应、... 目录1. 获取API密钥2. 添加HTTP客户端依赖3. 创建HTTP请求4. 处理响应5. 错误处理6.

python使用fastapi实现多语言国际化的操作指南

《python使用fastapi实现多语言国际化的操作指南》本文介绍了使用Python和FastAPI实现多语言国际化的操作指南,包括多语言架构技术栈、翻译管理、前端本地化、语言切换机制以及常见陷阱和... 目录多语言国际化实现指南项目多语言架构技术栈目录结构翻译工作流1. 翻译数据存储2. 翻译生成脚本

C++ Primer 多维数组的使用

《C++Primer多维数组的使用》本文主要介绍了多维数组在C++语言中的定义、初始化、下标引用以及使用范围for语句处理多维数组的方法,具有一定的参考价值,感兴趣的可以了解一下... 目录多维数组多维数组的初始化多维数组的下标引用使用范围for语句处理多维数组指针和多维数组多维数组严格来说,C++语言没

Springboot中分析SQL性能的两种方式详解

《Springboot中分析SQL性能的两种方式详解》文章介绍了SQL性能分析的两种方式:MyBatis-Plus性能分析插件和p6spy框架,MyBatis-Plus插件配置简单,适用于开发和测试环... 目录SQL性能分析的两种方式:功能介绍实现方式:实现步骤:SQL性能分析的两种方式:功能介绍记录

在 Spring Boot 中使用 @Autowired和 @Bean注解的示例详解

《在SpringBoot中使用@Autowired和@Bean注解的示例详解》本文通过一个示例演示了如何在SpringBoot中使用@Autowired和@Bean注解进行依赖注入和Bean... 目录在 Spring Boot 中使用 @Autowired 和 @Bean 注解示例背景1. 定义 Stud

如何通过Python实现一个消息队列

《如何通过Python实现一个消息队列》这篇文章主要为大家详细介绍了如何通过Python实现一个简单的消息队列,文中的示例代码讲解详细,感兴趣的小伙伴可以跟随小编一起学习一下... 目录如何通过 python 实现消息队列如何把 http 请求放在队列中执行1. 使用 queue.Queue 和 reque

Python如何实现PDF隐私信息检测

《Python如何实现PDF隐私信息检测》随着越来越多的个人信息以电子形式存储和传输,确保这些信息的安全至关重要,本文将介绍如何使用Python检测PDF文件中的隐私信息,需要的可以参考下... 目录项目背景技术栈代码解析功能说明运行结php果在当今,数据隐私保护变得尤为重要。随着越来越多的个人信息以电子形