机器学习中经常使用的特征选择方式+python实现代码

2024-06-01 16:48

本文主要是介绍机器学习中经常使用的特征选择方式+python实现代码,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

当数据与处理完成后,我们需要选择有意义的特征输入算法和模型进行训练,通常来说,从两个方面来选择特征: 

1、特征是否发散,如果某一个特征的方差为0,即这个属性不能被称之为特征,因为所有的样本在这个特征上并没有什么区别,这种特种需要被剔除;但是如果相反,所有样本在在这个特征上都不一样,比如公民的身份证号码,不能反映出样本的共性的特征的话,特征也必须被剔除。

2、特征与目标之间的相关性,如果特征与目标相关性很高,那么特征应该被优先选择。

2.1、相关性分析 一般都是使用一些距离度量公式来判别特征间的相似度的,用的比较多的主要是皮尔逊相关系数,使用相关性系数来表明特征和标签之间的相关性,如果相关性在0附近,则表示该特征与预测结果无关,但是有些特征表面上看上去与标签值可能无关,但是其组合值有可能和预测值有极大的相关性,所以这个一般只能作为一个参考。

2.2、过滤式选择 过滤式选择一般是借助于特征自身的一些统计值来过滤特征的,比如标准差,方差,设置一个对应的阈值,小于这个阈值的特征就会被过滤掉;最常使用的评价方法有方差选择法 、相关系数法 、卡方检验 、互信息法。

# 过滤式选择,使用的是泰坦尼克号的数据集
test_data = new_data.copy()
from sklearn.feature_selection import VarianceThreshold
train_data = test_data[0].drop(['Survived'],axis = 1).values
test_data = test_data[1].values
#设置属性方差阈值为0.1
selector = VarianceThreshold(0.1)
train_data_1 = selector.fit_transform(train_data)
test_data_1 = test_data.T[selector.get_support()]
test_data_1 = test_data_1.T
test_data_1.shape

2.3、包裹式选择 包裹式选择是需要借助于外部的学习器,一般这种学习器必须有coef_或者feature_importance_这些属性,像是线性模型,树模型都可以学习到特征的权重,或者是特征重要度,基于原始的完整的训练集进行训练,当学习完以后,去除那个权重最小的或者特征重要度最小值对应的特征,重新组织新的训练集,进行特征筛选,知道满足要求为止;

# 包裹式选择,这里使用线性支持向量机来做特征选择
from sklearn.feature_selection import RFE
from sklearn.svm import LinearSVC
x_train = train_data
y_train = new_data[0].Survived.values
estimator = LinearSVC()
selector = RFE(estimator = estimator,n_features_to_select = 18)
train_data_2 = selector.fit_transform(x_train,y_train)
test_data_2 = test_data.T[selector.support_]
test_data_2 = test_data_2.T
test_data_2.shape

2.4、嵌入式选择 和包裹式选择类似,也是需要借助于外部的学习器,但是和包裹式选择不同的是学习器在学习的过程中会不断的进行特征选择,直到满足要求为止。 如果特征的维度过高,一定程度上可以使用降维,比如主成分分析法。

# 嵌入式选择 这里使用随机森林模型
from sklearn.feature_selection import SelectFromModel
from sklearn.ensemble import RandomForestClassifier
estimator = RandomForestClassifier()
selector = SelectFromModel(estimator = estimator,threshold = 'median')
train_data_3 = selector.fit_transform(x_train,y_train)
test_data_3 = test_data.T[selector.get_support()]
test_data_3 = test_data_3.T
test_data_3.shape

这篇关于机器学习中经常使用的特征选择方式+python实现代码的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1021565

相关文章

SpringBoot集成redisson实现延时队列教程

《SpringBoot集成redisson实现延时队列教程》文章介绍了使用Redisson实现延迟队列的完整步骤,包括依赖导入、Redis配置、工具类封装、业务枚举定义、执行器实现、Bean创建、消费... 目录1、先给项目导入Redisson依赖2、配置redis3、创建 RedissonConfig 配

SpringBoot中@Value注入静态变量方式

《SpringBoot中@Value注入静态变量方式》SpringBoot中静态变量无法直接用@Value注入,需通过setter方法,@Value(${})从属性文件获取值,@Value(#{})用... 目录项目场景解决方案注解说明1、@Value("${}")使用示例2、@Value("#{}"php

SpringBoot分段处理List集合多线程批量插入数据方式

《SpringBoot分段处理List集合多线程批量插入数据方式》文章介绍如何处理大数据量List批量插入数据库的优化方案:通过拆分List并分配独立线程处理,结合Spring线程池与异步方法提升效率... 目录项目场景解决方案1.实体类2.Mapper3.spring容器注入线程池bejsan对象4.创建

Python的Darts库实现时间序列预测

《Python的Darts库实现时间序列预测》Darts一个集统计、机器学习与深度学习模型于一体的Python时间序列预测库,本文主要介绍了Python的Darts库实现时间序列预测,感兴趣的可以了解... 目录目录一、什么是 Darts?二、安装与基本配置安装 Darts导入基础模块三、时间序列数据结构与

Python正则表达式匹配和替换的操作指南

《Python正则表达式匹配和替换的操作指南》正则表达式是处理文本的强大工具,Python通过re模块提供了完整的正则表达式功能,本文将通过代码示例详细介绍Python中的正则匹配和替换操作,需要的朋... 目录基础语法导入re模块基本元字符常用匹配方法1. re.match() - 从字符串开头匹配2.

Python使用FastAPI实现大文件分片上传与断点续传功能

《Python使用FastAPI实现大文件分片上传与断点续传功能》大文件直传常遇到超时、网络抖动失败、失败后只能重传的问题,分片上传+断点续传可以把大文件拆成若干小块逐个上传,并在中断后从已完成分片继... 目录一、接口设计二、服务端实现(FastAPI)2.1 运行环境2.2 目录结构建议2.3 serv

C#实现千万数据秒级导入的代码

《C#实现千万数据秒级导入的代码》在实际开发中excel导入很常见,现代社会中很容易遇到大数据处理业务,所以本文我就给大家分享一下千万数据秒级导入怎么实现,文中有详细的代码示例供大家参考,需要的朋友可... 目录前言一、数据存储二、处理逻辑优化前代码处理逻辑优化后的代码总结前言在实际开发中excel导入很

通过Docker容器部署Python环境的全流程

《通过Docker容器部署Python环境的全流程》在现代化开发流程中,Docker因其轻量化、环境隔离和跨平台一致性的特性,已成为部署Python应用的标准工具,本文将详细演示如何通过Docker容... 目录引言一、docker与python的协同优势二、核心步骤详解三、进阶配置技巧四、生产环境最佳实践

Python一次性将指定版本所有包上传PyPI镜像解决方案

《Python一次性将指定版本所有包上传PyPI镜像解决方案》本文主要介绍了一个安全、完整、可离线部署的解决方案,用于一次性准备指定Python版本的所有包,然后导出到内网环境,感兴趣的小伙伴可以跟随... 目录为什么需要这个方案完整解决方案1. 项目目录结构2. 创建智能下载脚本3. 创建包清单生成脚本4

Spring Security简介、使用与最佳实践

《SpringSecurity简介、使用与最佳实践》SpringSecurity是一个能够为基于Spring的企业应用系统提供声明式的安全访问控制解决方案的安全框架,本文给大家介绍SpringSec... 目录一、如何理解 Spring Security?—— 核心思想二、如何在 Java 项目中使用?——