论文阅读: [ACM'09]Anomaly detection- A survey

2024-02-26 08:40

本文主要是介绍论文阅读: [ACM'09]Anomaly detection- A survey,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

写在前面: 

最近老大要求调研异常检测基本算法,所以近期阅读了一些论文,搜集了一些资料,想分享出来~ 

这一篇survey比较经典,总结的很全,建议想了解异常检测领域的小白都去研读一下,下面是我看论文记的一些关键点,可以说是直译了偷笑,如果不想看英文原作,可以参考这个

论文阅读: [ACM'09]Anomaly detection- A survey

挑战:

  1. 正常数据和异常数据之间的界限不是特别精确
  2. 异常行为会自适应变化来逃避异常检测,即当前的异常检测方法不一定会适应未来的方法
  3. 用于训练和验证的标记数据很难获得,数据不均衡

数据输入:

  • 数据之间没有关联:point data 单个数据点
  • 数据之间有关联: 序列数据(时间序列,基因组)、空间数据(交通)、图数据(用节点表示实例,节点之间基于某种关系有边相连)

异常类型:

  1. 单个点异常,区别于其他数据
  2. 上下文异常,比如在某个时间点有这些数据是正常的(世界杯期间登录微博),某些时间点是异常的(某个用户在寒冬腊月凌晨三点登录微博)
  3. 集合异常,数据之间存在关联,集合异常

在具体的场景,要识别数据属于什么类型,是否存在依赖关系,异常是什么类型



模型类型:

有监督、半监督、无监督(默认的基本假设:正常样本出现的比异常样本更多)


模型输出:

score or label


异常检测方法:

1. 分类方法:

训练的计算复杂性取决于分类算法的复杂性,数据预测会很快,模型可以预训练好。

关联规则挖掘是一种无监督形式。(???我觉得并不是,应该算半监督,如果学习的异常数据的关联规则,那就算有监督了)


2.近邻方法(无监督,完全是数据驱动的):

正常的数据分布很密集,异常的数据之间分布很分散;具体的检测方法包括两种:(1)基于相邻的k个数据进行打分(2)基于样本所在区域的密度进行打分估计。 计算复杂性太高,每一个样例都要计算一遍距离,另外如何定义一个距离度量也是很复杂的问题,会直接影响算法效果。


3. 聚类方法

有三种假设;计算复杂性取决于使用哪种聚类算法;预测阶段很快,只需要将样例与聚类比较。

常用的聚类方法都可以做


4. 基于统计的方法,采用前提是数据服从一个特定的分布,对于高维数据不合适。

方法很多,但是实际要看数据分布;有一个HBOS还可以


5. 基于信息论的方法,寻找一个数据子集使得信息增益最大(复杂性减少,一些复杂性度量)。计算复杂性太大了

用的少


6. 基于谱聚类的方法,将数据压缩到一个保持了最大方差的低维空间,在子空间,异常数据和正常数据有明显区分。

PCA 用的很多,比如Netflix Surus的异常检测是基于rPCA


总结:

近邻和聚类算法对于高维数据不适合,且很难确定一个合适的距离度量;

PCA适合高维数据,其划分效果取决于映射过的数据是否可分。

对于异常数据足够多的场景,监督和半监督更适合。




这篇关于论文阅读: [ACM'09]Anomaly detection- A survey的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/748289

相关文章

认识、理解、分类——acm之搜索

普通搜索方法有两种:1、广度优先搜索;2、深度优先搜索; 更多搜索方法: 3、双向广度优先搜索; 4、启发式搜索(包括A*算法等); 搜索通常会用到的知识点:状态压缩(位压缩,利用hash思想压缩)。

JAVA智听未来一站式有声阅读平台听书系统小程序源码

智听未来,一站式有声阅读平台听书系统 🌟 开篇:遇见未来,从“智听”开始 在这个快节奏的时代,你是否渴望在忙碌的间隙,找到一片属于自己的宁静角落?是否梦想着能随时随地,沉浸在知识的海洋,或是故事的奇幻世界里?今天,就让我带你一起探索“智听未来”——这一站式有声阅读平台听书系统,它正悄悄改变着我们的阅读方式,让未来触手可及! 📚 第一站:海量资源,应有尽有 走进“智听

AI hospital 论文Idea

一、Benchmarking Large Language Models on Communicative Medical Coaching: A Dataset and a Novel System论文地址含代码 大多数现有模型和工具主要迎合以患者为中心的服务。这项工作深入探讨了LLMs在提高医疗专业人员的沟通能力。目标是构建一个模拟实践环境,人类医生(即医学学习者)可以在其中与患者代理进行医学

论文翻译:arxiv-2024 Benchmark Data Contamination of Large Language Models: A Survey

Benchmark Data Contamination of Large Language Models: A Survey https://arxiv.org/abs/2406.04244 大规模语言模型的基准数据污染:一项综述 文章目录 大规模语言模型的基准数据污染:一项综述摘要1 引言 摘要 大规模语言模型(LLMs),如GPT-4、Claude-3和Gemini的快

论文阅读笔记: Segment Anything

文章目录 Segment Anything摘要引言任务模型数据引擎数据集负责任的人工智能 Segment Anything Model图像编码器提示编码器mask解码器解决歧义损失和训练 Segment Anything 论文地址: https://arxiv.org/abs/2304.02643 代码地址:https://github.com/facebookresear

Java第二阶段---09类和对象---第三节 构造方法

第三节 构造方法 1.概念 构造方法是一种特殊的方法,主要用于创建对象以及完成对象的属性初始化操作。构造方法不能被对象调用。 2.语法 //[]中内容可有可无 访问修饰符 类名([参数列表]){ } 3.示例 public class Car {     //车特征(属性)     public String name;//车名   可以直接拿来用 说明它有初始值     pu

论文翻译:ICLR-2024 PROVING TEST SET CONTAMINATION IN BLACK BOX LANGUAGE MODELS

PROVING TEST SET CONTAMINATION IN BLACK BOX LANGUAGE MODELS https://openreview.net/forum?id=KS8mIvetg2 验证测试集污染在黑盒语言模型中 文章目录 验证测试集污染在黑盒语言模型中摘要1 引言 摘要 大型语言模型是在大量互联网数据上训练的,这引发了人们的担忧和猜测,即它们可能已

OmniGlue论文详解(特征匹配)

OmniGlue论文详解(特征匹配) 摘要1. 引言2. 相关工作2.1. 广义局部特征匹配2.2. 稀疏可学习匹配2.3. 半稠密可学习匹配2.4. 与其他图像表示匹配 3. OmniGlue3.1. 模型概述3.2. OmniGlue 细节3.2.1. 特征提取3.2.2. 利用DINOv2构建图形。3.2.3. 信息传播与新的指导3.2.4. 匹配层和损失函数3.2.5. 与Super

软件架构模式:5 分钟阅读

原文: https://orkhanscience.medium.com/software-architecture-patterns-5-mins-read-e9e3c8eb47d2 软件架构模式:5 分钟阅读 当有人潜入软件工程世界时,有一天他需要学习软件架构模式的基础知识。当我刚接触编码时,我不知道从哪里获得简要介绍现有架构模式的资源,这样它就不会太详细和混乱,而是非常抽象和易

BERT 论文逐段精读【论文精读】

BERT: 近 3 年 NLP 最火 CV: 大数据集上的训练好的 NN 模型,提升 CV 任务的性能 —— ImageNet 的 CNN 模型 NLP: BERT 简化了 NLP 任务的训练,提升了 NLP 任务的性能 BERT 如何站在巨人的肩膀上的?使用了哪些 NLP 已有的技术和思想?哪些是 BERT 的创新? 1标题 + 作者 BERT: Pre-trainin