异常检测—LOF算法简介以及Python实现

2024-01-10 00:48

本文主要是介绍异常检测—LOF算法简介以及Python实现,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

LOF(Local Outlier Factor)算法是基于密度的异常点检测算法,适合于高维数据检测。

核心思想

离群点处的密度应该较邻域内其他点的密度小。

基本概念

k距离:对于点p,将其他点与之距离进行从小到大排序,第k个即为k距离
k距离邻域:到点p的距离小于等于k距离点,共k个
可达距离:若到点p的实际距离小于k距离,则为k距离,反之为实际距离
局部可达密度:邻域内点到p点可达距离平均值的倒数。(注意方向不要搞反) l r d ( p ) = k ∑ r d i s t lrd(p)=\frac{k}{\sum rdist} lrd(p)=rdistk
局部离群因子:领域内点的局部可达密度的均值除以p点的局部可达密度 l o f ( p ) = ∑ l r d k l r d ( p ) lof(p)=\frac{\frac{\sum lrd}{k}}{lrd(p)} lof(p)=lrd(p)klrd
局部离群因子(LOF)的大小代表该点为离群点的可信度。即因子越大,该点越可能是离群点。

代码示例

from scipy.spatial.distance import cdist
import numpy as npclass LOF:def __init__(self, data, k, epsilon=1.0):self.data = dataself.k = kself.epsilon = epsilonself.N = self.data.shape[0]def get_dist(self):# 计算欧式距离矩阵return cdist(self.data, self.data)def _kdist(self, arr):# 计算k距离inds_sort = np.argsort(arr)neighbor_ind = inds_sort[1:self.k + 1]  # 邻域内点索引return neighbor_ind, arr[neighbor_ind[-1]]def get_rdist(self):# 计算可达距离dist = self.get_dist()nei_kdist = np.apply_along_axis(self._kdist, 1, dist)nei_inds, kdist = zip(*nei_kdist)for i, k in enumerate(kdist):ind = np.where(dist[i] < k)  # 实际距离小于k距离,则可达距离为k距离dist[i][ind] = kreturn nei_inds, distdef get_lrd(self, nei_inds, rdist):# 计算局部可达密度lrd = np.zeros(self.N)for i, inds in enumerate(nei_inds):s = 0for j in inds:s += rdist[j, i]lrd[i] = self.k / sreturn lrddef run(self):# 计算局部离群因子nei_inds, rdist = self.get_rdist()lrd = self.get_lrd(nei_inds, rdist)score = np.zeros(self.N)for i, inds in enumerate(nei_inds):N = len(inds)lrd_nei = sum(lrd[inds])score[i] = lrd_nei / self.k / lrd[i]return score, np.where(score > self.epsilon)[0]if __name__ == '__main__':np.random.seed(42)X_inliers = 0.3 * np.random.randn(100, 2)X_inliers = np.r_[X_inliers + 2, X_inliers - 2]X_outliers = np.random.uniform(low=-4, high=4, size=(20, 2))data = np.r_[X_inliers, X_outliers]lof = LOF(data, 5, epsilon=1.2)score, out_ind = lof.run()outliers = data[out_ind]import matplotlib.pyplot as pltplt.scatter(data[:, 0], data[:, 1], color='b')plt.scatter(outliers[:, 0], outliers[:, 1], color='r')plt.show()

参考资料

https://dl.acm.org/ft_gateway.cfm?id=335388&ftid=2057&dwn=1&CFID=51876766&CFTOKEN=b2427295e6580441-94D5C0E4-E786-FC78-16E741661C2500A7
https://blog.csdn.net/wangyibo0201/article/details/51705966
注:代码未经严格测试,仅作示例。如有不当之处,请指正。

这篇关于异常检测—LOF算法简介以及Python实现的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/588990

相关文章

Python如何实现读取csv文件时忽略文件的编码格式

《Python如何实现读取csv文件时忽略文件的编码格式》我们再日常读取csv文件的时候经常会发现csv文件的格式有多种,所以这篇文章为大家介绍了Python如何实现读取csv文件时忽略文件的编码格式... 目录1、背景介绍2、库的安装3、核心代码4、完整代码1、背景介绍我们再日常读取csv文件的时候经常

Golang中map缩容的实现

《Golang中map缩容的实现》本文主要介绍了Go语言中map的扩缩容机制,包括grow和hashGrow方法的处理,具有一定的参考价值,感兴趣的可以了解一下... 目录基本分析带来的隐患为什么不支持缩容基本分析在 Go 底层源码 src/runtime/map.go 中,扩缩容的处理方法是 grow

Go 1.23中Timer无buffer的实现方式详解

《Go1.23中Timer无buffer的实现方式详解》在Go1.23中,Timer的实现通常是通过time包提供的time.Timer类型来实现的,本文主要介绍了Go1.23中Timer无buff... 目录Timer 的基本实现无缓冲区的实现自定义无缓冲 Timer 实现更复杂的 Timer 实现总结在

基于Python实现多语言朗读与单词选择测验

《基于Python实现多语言朗读与单词选择测验》在数字化教育日益普及的今天,开发一款能够支持多语言朗读和单词选择测验的程序,对于语言学习者来说无疑是一个巨大的福音,下面我们就来用Python实现一个这... 目录一、项目概述二、环境准备三、实现朗读功能四、实现单词选择测验五、创建图形用户界面六、运行程序七、

Vue中动态权限到按钮的完整实现方案详解

《Vue中动态权限到按钮的完整实现方案详解》这篇文章主要为大家详细介绍了Vue如何在现有方案的基础上加入对路由的增、删、改、查权限控制,感兴趣的小伙伴可以跟随小编一起学习一下... 目录一、数据库设计扩展1.1 修改路由表(routes)1.2 修改角色与路由权限表(role_routes)二、后端接口设计

浅析Python中的绝对导入与相对导入

《浅析Python中的绝对导入与相对导入》这篇文章主要为大家详细介绍了Python中的绝对导入与相对导入的相关知识,文中的示例代码讲解详细,感兴趣的小伙伴可以跟随小编一起学习一下... 目录1 Imports快速介绍2 import语句的语法2.1 基本使用2.2 导入声明的样式3 绝对import和相对i

C#集成DeepSeek模型实现AI私有化的流程步骤(本地部署与API调用教程)

《C#集成DeepSeek模型实现AI私有化的流程步骤(本地部署与API调用教程)》本文主要介绍了C#集成DeepSeek模型实现AI私有化的方法,包括搭建基础环境,如安装Ollama和下载DeepS... 目录前言搭建基础环境1、安装 Ollama2、下载 DeepSeek R1 模型客户端 ChatBo

Qt实现发送HTTP请求的示例详解

《Qt实现发送HTTP请求的示例详解》这篇文章主要为大家详细介绍了如何通过Qt实现发送HTTP请求,文中的示例代码讲解详细,具有一定的借鉴价值,感兴趣的小伙伴可以跟随小编一起学习一下... 目录1、添加network模块2、包含改头文件3、创建网络访问管理器4、创建接口5、创建网络请求对象6、创建一个回复对

Python中配置文件的全面解析与使用

《Python中配置文件的全面解析与使用》在Python开发中,配置文件扮演着举足轻重的角色,它们允许开发者在不修改代码的情况下调整应用程序的行为,下面我们就来看看常见Python配置文件格式的使用吧... 目录一、INI配置文件二、YAML配置文件三、jsON配置文件四、TOML配置文件五、XML配置文件

C++实现回文串判断的两种高效方法

《C++实现回文串判断的两种高效方法》文章介绍了两种判断回文串的方法:解法一通过创建新字符串来处理,解法二在原字符串上直接筛选判断,两种方法都使用了双指针法,文中通过代码示例讲解的非常详细,需要的朋友... 目录一、问题描述示例二、解法一:将字母数字连接到新的 string思路代码实现代码解释复杂度分析三、