精心整理出来的几种缺失值处理方法

2024-06-01 16:48

本文主要是介绍精心整理出来的几种缺失值处理方法,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

缺失值补充 造成属性值缺失的原因有很多,比如信息暂时无法获取,信息被遗漏(有机械原因也有人为原因),有些对象的某个或者某些属性是不可用的,有些信息被认为是不重要的,获取这些信息的代价太大,系统实时性能要求较高;此外对缺失值的处理一定要具体问题具体分析,因为缺失值并不意味着数据缺失,缺失本身也是包含信息的,所以需要根据不同的场景下的缺失值进行合理填充。 目前缺失值的类型,含有缺失值的变量被称为不完全变量,而不含有缺失值的变量被称为完全变量,从缺失的分布来说又分为完 全随机缺失,随机缺失和完全非随机缺失:

  • 完全随机缺失:指的是数据的缺失是完全随机的;
  • 随机缺失:指的是数据的缺失不是完全随机的,和完全变量关;
  • 完全不随机缺失:指的是数据的缺失与不完全变量自身的取值相关; 缺失值会使得系统丢失了大量的有用信息,系统所表现出来的不确定性更加显著,系统中蕴含的确定性成分更难把握,包含空值的不完全变量会使得挖掘过程陷入混乱。

下面来先讲一下缺失值的处理:

  • 1.1 删除法,主要有简单删除法
  • 1.1.1 简单删除法适合于缺失值样本比较少的情况下,如果有过多的缺失值,则不适合使用该方法,因为该方法是用减少历史数据的方法来换取数据的完备性,这样会造成资源的极大浪费,因为其丢弃了大量隐藏在这些对象上的信息,在样本数量本来就很少的数据集中删除少量对象将严重影响数据集的客观性和结果的正确性;
  • 1.2 数据补齐,主要有人工填写、特殊值填充、平均值填充、热卡填充、K-means填充,使用所有可能的值填充、组合完整化方法,回归法,期望值最大化方法,多重填补以及C4.5方法;
  • 1.2.1 人工填写,用户自己对数据最为了解,因此这个方法产生的偏差是最小的,但是如果有大规模的缺失值时,这个方法是非常耗时耗力的;
  • 1.2.2 特殊值填充,将空值作为一种特殊值来处理,但是有可能造成严重的数据偏离,一般不推荐使用;
  • 1.2.3 平均值填充,如果是数值型特征,则是使用平均值来填充,如果是类别型特征,则是使用众数来填充,另一种相似的方法是条件平均值填充,这个并不是直接使用所有对象来计算平均值或者众数,而是使用与该样本具有相同决策属性的对象中去求解平均值或者众数;
  • 1.2.4 热卡填充,或者说就叫做近补齐,对于一个包含空值的对象,热卡填充法在完整数据集中找到一个与它最相似的对象,用这个值来填充;
  • 1.2.5 k-means利用欧式距离或者相关性分析来确定距离最近的K个样本,将这K个值的加权平均值来估计该样本的缺失数据;
  • 1.2.6 组合完整化方法,用空缺属性值的所有可能的属性取值来试,并从最终属性的约间结果中选择一个最好的属性值;
  • 1.2.7 使用所有可能的值填充,使用所有可能的属性值来填充,能够得到很好的效果;
  • 1.2.8 回归,基于完整的数据集,建立回归方程。对于包含空值的对象,将已知数据集带入回归方程来估计预测值,并以此预测值来进行填充,但是当变量不是线性相关时则会导致偏差的估计;
  • 1.2.9 期望值最大化方法,在不完全数据情况下计算极大似然估计和后验分布的迭代算法;
  • 1.2.10 多重填补
  • 1.2.11 C4.5
  • 1.3 不处理,直接在包含空值的数据集上进行处理比如贝叶斯网络和人工神经网络

这篇关于精心整理出来的几种缺失值处理方法的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1021566

相关文章

Window Server2016加入AD域的方法步骤

《WindowServer2016加入AD域的方法步骤》:本文主要介绍WindowServer2016加入AD域的方法步骤,包括配置DNS、检测ping通、更改计算机域、输入账号密码、重启服务... 目录一、 准备条件二、配置ServerB加入ServerA的AD域(test.ly)三、查看加入AD域后的变

Window Server2016 AD域的创建的方法步骤

《WindowServer2016AD域的创建的方法步骤》本文主要介绍了WindowServer2016AD域的创建的方法步骤,文中通过图文介绍的非常详细,对大家的学习或者工作具有一定的参考学习价... 目录一、准备条件二、在ServerA服务器中常见AD域管理器:三、创建AD域,域地址为“test.ly”

NFS实现多服务器文件的共享的方法步骤

《NFS实现多服务器文件的共享的方法步骤》NFS允许网络中的计算机之间共享资源,客户端可以透明地读写远端NFS服务器上的文件,本文就来介绍一下NFS实现多服务器文件的共享的方法步骤,感兴趣的可以了解一... 目录一、简介二、部署1、准备1、服务端和客户端:安装nfs-utils2、服务端:创建共享目录3、服

Java 字符数组转字符串的常用方法

《Java字符数组转字符串的常用方法》文章总结了在Java中将字符数组转换为字符串的几种常用方法,包括使用String构造函数、String.valueOf()方法、StringBuilder以及A... 目录1. 使用String构造函数1.1 基本转换方法1.2 注意事项2. 使用String.valu

Python中使用defaultdict和Counter的方法

《Python中使用defaultdict和Counter的方法》本文深入探讨了Python中的两个强大工具——defaultdict和Counter,并详细介绍了它们的工作原理、应用场景以及在实际编... 目录引言defaultdict的深入应用什么是defaultdictdefaultdict的工作原理

使用Python进行文件读写操作的基本方法

《使用Python进行文件读写操作的基本方法》今天的内容来介绍Python中进行文件读写操作的方法,这在学习Python时是必不可少的技术点,希望可以帮助到正在学习python的小伙伴,以下是Pyth... 目录一、文件读取:二、文件写入:三、文件追加:四、文件读写的二进制模式:五、使用 json 模块读写

Oracle数据库使用 listagg去重删除重复数据的方法汇总

《Oracle数据库使用listagg去重删除重复数据的方法汇总》文章介绍了在Oracle数据库中使用LISTAGG和XMLAGG函数进行字符串聚合并去重的方法,包括去重聚合、使用XML解析和CLO... 目录案例表第一种:使用wm_concat() + distinct去重聚合第二种:使用listagg,

Go语言使用Buffer实现高性能处理字节和字符

《Go语言使用Buffer实现高性能处理字节和字符》在Go中,bytes.Buffer是一个非常高效的类型,用于处理字节数据的读写操作,本文将详细介绍一下如何使用Buffer实现高性能处理字节和... 目录1. bytes.Buffer 的基本用法1.1. 创建和初始化 Buffer1.2. 使用 Writ

Java后端接口中提取请求头中的Cookie和Token的方法

《Java后端接口中提取请求头中的Cookie和Token的方法》在现代Web开发中,HTTP请求头(Header)是客户端与服务器之间传递信息的重要方式之一,本文将详细介绍如何在Java后端(以Sp... 目录引言1. 背景1.1 什么是 HTTP 请求头?1.2 为什么需要提取请求头?2. 使用 Spr

Java如何通过反射机制获取数据类对象的属性及方法

《Java如何通过反射机制获取数据类对象的属性及方法》文章介绍了如何使用Java反射机制获取类对象的所有属性及其对应的get、set方法,以及如何通过反射机制实现类对象的实例化,感兴趣的朋友跟随小编一... 目录一、通过反射机制获取类对象的所有属性以及相应的get、set方法1.遍历类对象的所有属性2.获取