本文主要是介绍离群点(孤立点)检测,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!
根据邵俊明老师的课件整理而成
离群点(孤立点)检测
离群点
离群点是一个数据对象,它显著不同于其它数据对象,好像它是被不同的机制产生的一样
类型:全局离群点、局部离群点、集体离群点
异常数据通常作为噪音而忽略,许多数据挖掘算法试图降低或消除异常数据的影响
在有些应用领域识别异常数据是许多工作的基础和前提,异常数据会带给我们新的视角。
如在欺诈检测中,异常数据可能意味欺诈行为的发生,在入侵检测中异常数据可能意味入侵行为的发生。
离群点分析方法
- 统计学方法
- 基于距离的方法
- 基于偏差的方法
- 基于密度的方法
基于统计学的孤立点检测
基本思想:
对给定的数据集合假设了一个分布或概率模型(例如, 正态分布), 然后根据模型采用不一致性检验(discordancy test)来确定孤立点
检验要求的参数
- 数据集参数: 例如, 假设的数据分布
- 分布参数: 例如平均值和方差
- 和预期的孤立点的数目
不一致性检验:验证一个对象O关于分布F是否显著不同
这篇关于离群点(孤立点)检测的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!