机器学习中经常使用的特征选择方式+python实现代码

2024-06-01 16:48

本文主要是介绍机器学习中经常使用的特征选择方式+python实现代码,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

当数据与处理完成后,我们需要选择有意义的特征输入算法和模型进行训练,通常来说,从两个方面来选择特征: 

1、特征是否发散,如果某一个特征的方差为0,即这个属性不能被称之为特征,因为所有的样本在这个特征上并没有什么区别,这种特种需要被剔除;但是如果相反,所有样本在在这个特征上都不一样,比如公民的身份证号码,不能反映出样本的共性的特征的话,特征也必须被剔除。

2、特征与目标之间的相关性,如果特征与目标相关性很高,那么特征应该被优先选择。

2.1、相关性分析 一般都是使用一些距离度量公式来判别特征间的相似度的,用的比较多的主要是皮尔逊相关系数,使用相关性系数来表明特征和标签之间的相关性,如果相关性在0附近,则表示该特征与预测结果无关,但是有些特征表面上看上去与标签值可能无关,但是其组合值有可能和预测值有极大的相关性,所以这个一般只能作为一个参考。

2.2、过滤式选择 过滤式选择一般是借助于特征自身的一些统计值来过滤特征的,比如标准差,方差,设置一个对应的阈值,小于这个阈值的特征就会被过滤掉;最常使用的评价方法有方差选择法 、相关系数法 、卡方检验 、互信息法。

# 过滤式选择,使用的是泰坦尼克号的数据集
test_data = new_data.copy()
from sklearn.feature_selection import VarianceThreshold
train_data = test_data[0].drop(['Survived'],axis = 1).values
test_data = test_data[1].values
#设置属性方差阈值为0.1
selector = VarianceThreshold(0.1)
train_data_1 = selector.fit_transform(train_data)
test_data_1 = test_data.T[selector.get_support()]
test_data_1 = test_data_1.T
test_data_1.shape

2.3、包裹式选择 包裹式选择是需要借助于外部的学习器,一般这种学习器必须有coef_或者feature_importance_这些属性,像是线性模型,树模型都可以学习到特征的权重,或者是特征重要度,基于原始的完整的训练集进行训练,当学习完以后,去除那个权重最小的或者特征重要度最小值对应的特征,重新组织新的训练集,进行特征筛选,知道满足要求为止;

# 包裹式选择,这里使用线性支持向量机来做特征选择
from sklearn.feature_selection import RFE
from sklearn.svm import LinearSVC
x_train = train_data
y_train = new_data[0].Survived.values
estimator = LinearSVC()
selector = RFE(estimator = estimator,n_features_to_select = 18)
train_data_2 = selector.fit_transform(x_train,y_train)
test_data_2 = test_data.T[selector.support_]
test_data_2 = test_data_2.T
test_data_2.shape

2.4、嵌入式选择 和包裹式选择类似,也是需要借助于外部的学习器,但是和包裹式选择不同的是学习器在学习的过程中会不断的进行特征选择,直到满足要求为止。 如果特征的维度过高,一定程度上可以使用降维,比如主成分分析法。

# 嵌入式选择 这里使用随机森林模型
from sklearn.feature_selection import SelectFromModel
from sklearn.ensemble import RandomForestClassifier
estimator = RandomForestClassifier()
selector = SelectFromModel(estimator = estimator,threshold = 'median')
train_data_3 = selector.fit_transform(x_train,y_train)
test_data_3 = test_data.T[selector.get_support()]
test_data_3 = test_data_3.T
test_data_3.shape

这篇关于机器学习中经常使用的特征选择方式+python实现代码的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1021565

相关文章

Java中List的contains()方法的使用小结

《Java中List的contains()方法的使用小结》List的contains()方法用于检查列表中是否包含指定的元素,借助equals()方法进行判断,下面就来介绍Java中List的c... 目录详细展开1. 方法签名2. 工作原理3. 使用示例4. 注意事项总结结论:List 的 contain

C#使用SQLite进行大数据量高效处理的代码示例

《C#使用SQLite进行大数据量高效处理的代码示例》在软件开发中,高效处理大数据量是一个常见且具有挑战性的任务,SQLite因其零配置、嵌入式、跨平台的特性,成为许多开发者的首选数据库,本文将深入探... 目录前言准备工作数据实体核心技术批量插入:从乌龟到猎豹的蜕变分页查询:加载百万数据异步处理:拒绝界面

Android中Dialog的使用详解

《Android中Dialog的使用详解》Dialog(对话框)是Android中常用的UI组件,用于临时显示重要信息或获取用户输入,本文给大家介绍Android中Dialog的使用,感兴趣的朋友一起... 目录android中Dialog的使用详解1. 基本Dialog类型1.1 AlertDialog(

MySQL双主搭建+keepalived高可用的实现

《MySQL双主搭建+keepalived高可用的实现》本文主要介绍了MySQL双主搭建+keepalived高可用的实现,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,... 目录一、测试环境准备二、主从搭建1.创建复制用户2.创建复制关系3.开启复制,确认复制是否成功4.同

Python使用自带的base64库进行base64编码和解码

《Python使用自带的base64库进行base64编码和解码》在Python中,处理数据的编码和解码是数据传输和存储中非常普遍的需求,其中,Base64是一种常用的编码方案,本文我将详细介绍如何使... 目录引言使用python的base64库进行编码和解码编码函数解码函数Base64编码的应用场景注意

Java实现文件图片的预览和下载功能

《Java实现文件图片的预览和下载功能》这篇文章主要为大家详细介绍了如何使用Java实现文件图片的预览和下载功能,文中的示例代码讲解详细,感兴趣的小伙伴可以跟随小编一起学习一下... Java实现文件(图片)的预览和下载 @ApiOperation("访问文件") @GetMapping("

用js控制视频播放进度基本示例代码

《用js控制视频播放进度基本示例代码》写前端的时候,很多的时候是需要支持要网页视频播放的功能,下面这篇文章主要给大家介绍了关于用js控制视频播放进度的相关资料,文中通过代码介绍的非常详细,需要的朋友可... 目录前言html部分:JavaScript部分:注意:总结前言在javascript中控制视频播放

Python基于wxPython和FFmpeg开发一个视频标签工具

《Python基于wxPython和FFmpeg开发一个视频标签工具》在当今数字媒体时代,视频内容的管理和标记变得越来越重要,无论是研究人员需要对实验视频进行时间点标记,还是个人用户希望对家庭视频进行... 目录引言1. 应用概述2. 技术栈分析2.1 核心库和模块2.2 wxpython作为GUI选择的优

使用Sentinel自定义返回和实现区分来源方式

《使用Sentinel自定义返回和实现区分来源方式》:本文主要介绍使用Sentinel自定义返回和实现区分来源方式,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录Sentinel自定义返回和实现区分来源1. 自定义错误返回2. 实现区分来源总结Sentinel自定

Pandas使用SQLite3实战

《Pandas使用SQLite3实战》本文主要介绍了Pandas使用SQLite3实战,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学... 目录1 环境准备2 从 SQLite3VlfrWQzgt 读取数据到 DataFrame基础用法:读