异常检测—IsolationForest算法简介以及Python实现

2024-01-10 00:48

本文主要是介绍异常检测—IsolationForest算法简介以及Python实现,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

IsolationForest是一种适合高维数据集的异常值检测算法。

核心思想

通过随机切分数据集,异常点应该是容易被隔离的。

算法简介

  1. 随机选择一个特征,再在该特征下最大与最小值间随机选择一个值作为切分点,递归切分数据集,直到每个样本点被隔开,从而构建一颗类似CART分类树的随机树。重复构建多颗随机树。
  2. 从根节点到叶节点的路径越长,代表该点越难被隔离,即该点越不可能是异常点。计算每个样本点路径长的平均值,即得到该点得分,得分越低越可能是异常点。原论文中,提出了以下方法对异常分值进行归一化:
    论文图片
    式中 c ( ψ ) c(\psi) c(ψ)值样本的个数。s值越大越可能是异常值

代码示例

# 实现IsolationForest高维数据的异常值检测算法
import numpy as np
import math
from collections import Counterclass Node:def __init__(self, val=None, right=None, left=None):self.val = val  # 存储样本索引,仅叶节点self.right = rightself.left = leftclass RandomTree:def __init__(self):self.tree = Noneself.n_feas = Nonedef get_split(self, data, inds):# 随机构建切分点f = np.random.choice(self.n_feas)  # 随机选择一个特征up = max(data[inds, f])down = min(data[inds, f])v = (up - down) * np.random.sample() + down  # 在该特征的最大与最小值间随机选择一个数return f, vdef split(self, data, inds):# 切分数据集f, v = self.get_split(data, inds)left_ind = []right_ind = []for i in inds:if data[i, f] <= v:left_ind.append(i)else:right_ind.append(i)return left_ind, right_inddef buildTree(self, data, inds):if len(inds) < 3:  # 叶节点return Node(val=inds)left_ind, right_ind = self.split(data, inds)left = self.buildTree(data, left_ind)right = self.buildTree(data, right_ind)return Node(left=left, right=right)def fit(self, data):self.n_feas = data.shape[1]inds = np.arange(data.shape[0])self.tree = self.buildTree(data, inds)returndef traverse(self):# 遍历树,统计每个样本的路径长path_len = Counter()i = -1def helper(currentNode):nonlocal ii += 1if currentNode.val is not None:for ind in currentNode.val:path_len[ind] = ireturnfor child in [currentNode.left, currentNode.right]:helper(child)i -= 1returnhelper(self.tree)return path_lenclass IsolationForest:def __init__(self, n_tree, epsilon):self.n_tree = n_treeself.epsilon = epsilon  # 异常点比例self.scores = Counter()def fit_predict(self, data):for _ in range(self.n_tree):RT = RandomTree()RT.fit(data)path_len = RT.traverse()self.scores = self.scores + path_lenn_sample = data.shape[0]phi = 2 * math.log(n_sample - 1) - 2 * (n_sample - 1) / n_samplefor key, val in self.scores.items():self.scores[key] = 2 ** -(val / self.n_tree / phi)  # 归一化q = np.quantile(list(self.scores.values()), 1 - self.epsilon)outliers = [key for key, val in self.scores.items() if val > q]return outliersif __name__ == '__main__':np.random.seed(42)X_inliers = 0.3 * np.random.randn(100, 2)X_inliers = np.r_[X_inliers + 2, X_inliers - 2]X_outliers = np.random.uniform(low=-4, high=4, size=(20, 2))data = np.r_[X_inliers, X_outliers]IF = IsolationForest(100, 0.1)out_ind = IF.fit_predict(data)outliers = data[out_ind]import matplotlib.pyplot as pltplt.scatter(data[:, 0], data[:, 1], color='b')plt.scatter(outliers[:, 0], outliers[:, 1], color='r')plt.show()

参考资料

作者原论文
https://blog.csdn.net/u013709270/article/details/73436588

注:代码未经严格测试,仅作示例,如有不当之处,请指正。

这篇关于异常检测—IsolationForest算法简介以及Python实现的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/588991

相关文章

基于Python编写一个git自动上传的脚本(打包成exe)

《基于Python编写一个git自动上传的脚本(打包成exe)》这篇文章主要为大家详细介绍了如何基于Python编写一个git自动上传的脚本并打包成exe,文中的示例代码讲解详细,感兴趣的小伙伴可以跟... 目录前言效果如下源码实现利用pyinstaller打包成exe利用ResourceHacker修改e

Python在二进制文件中进行数据搜索的实战指南

《Python在二进制文件中进行数据搜索的实战指南》在二进制文件中搜索特定数据是编程中常见的任务,尤其在日志分析、程序调试和二进制数据处理中尤为重要,下面我们就来看看如何使用Python实现这一功能吧... 目录简介1. 二进制文件搜索概述2. python二进制模式文件读取(rb)2.1 二进制模式与文本

Python中Tkinter GUI编程详细教程

《Python中TkinterGUI编程详细教程》Tkinter作为Python编程语言中构建GUI的一个重要组件,其教程对于任何希望将Python应用到实际编程中的开发者来说都是宝贵的资源,这篇文... 目录前言1. Tkinter 简介2. 第一个 Tkinter 程序3. 窗口和基础组件3.1 创建窗

基于C++的UDP网络通信系统设计与实现详解

《基于C++的UDP网络通信系统设计与实现详解》在网络编程领域,UDP作为一种无连接的传输层协议,以其高效、低延迟的特性在实时性要求高的应用场景中占据重要地位,下面我们就来看看如何从零开始构建一个完整... 目录前言一、UDP服务器UdpServer.hpp1.1 基本框架设计1.2 初始化函数Init详解

Java中Map的五种遍历方式实现与对比

《Java中Map的五种遍历方式实现与对比》其实Map遍历藏着多种玩法,有的优雅简洁,有的性能拉满,今天咱们盘一盘这些进阶偏基础的遍历方式,告别重复又臃肿的代码,感兴趣的小伙伴可以了解下... 目录一、先搞懂:Map遍历的核心目标二、几种遍历方式的对比1. 传统EntrySet遍历(最通用)2. Lambd

Django调用外部Python程序的完整项目实战

《Django调用外部Python程序的完整项目实战》Django是一个强大的PythonWeb框架,它的设计理念简洁优雅,:本文主要介绍Django调用外部Python程序的完整项目实战,文中通... 目录一、为什么 Django 需要调用外部 python 程序二、三种常见的调用方式方式 1:直接 im

Python字符串处理方法超全攻略

《Python字符串处理方法超全攻略》字符串可以看作多个字符的按照先后顺序组合,相当于就是序列结构,意味着可以对它进行遍历、切片,:本文主要介绍Python字符串处理方法的相关资料,文中通过代码介... 目录一、基础知识:字符串的“不可变”特性与创建方式二、常用操作:80%场景的“万能工具箱”三、格式化方法

springboot+redis实现订单过期(超时取消)功能的方法详解

《springboot+redis实现订单过期(超时取消)功能的方法详解》在SpringBoot中使用Redis实现订单过期(超时取消)功能,有多种成熟方案,本文为大家整理了几个详细方法,文中的示例代... 目录一、Redis键过期回调方案(推荐)1. 配置Redis监听器2. 监听键过期事件3. Redi

SpringBoot全局异常拦截与自定义错误页面实现过程解读

《SpringBoot全局异常拦截与自定义错误页面实现过程解读》本文介绍了SpringBoot中全局异常拦截与自定义错误页面的实现方法,包括异常的分类、SpringBoot默认异常处理机制、全局异常拦... 目录一、引言二、Spring Boot异常处理基础2.1 异常的分类2.2 Spring Boot默

基于SpringBoot实现分布式锁的三种方法

《基于SpringBoot实现分布式锁的三种方法》这篇文章主要为大家详细介绍了基于SpringBoot实现分布式锁的三种方法,文中的示例代码讲解详细,感兴趣的小伙伴可以跟随小编一起学习一下... 目录一、基于Redis原生命令实现分布式锁1. 基础版Redis分布式锁2. 可重入锁实现二、使用Redisso