Robust Neural Network for Novelty Detection on Data Streams

2024-03-10 12:18

本文主要是介绍Robust Neural Network for Novelty Detection on Data Streams,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

基本信息

题目:Robust Neural Network for Novelty Detection on Data Streams.

会议: International Conference on Artificial Intelligence and Soft Computing.

出版社: Springer-Verlag, 2012:178-186.

作者:Andrzej Rusiecki.

隶属机构:波兰弗罗茨瓦夫理工大学


中心思想

本文基于健壮的神经网络提出一种异常检测(novelty detection)的方法,通过比较两种神经网络输出的结果来检测异常值。其中第一种神经网络用来LMLS(Least Mean Log Squares)方法来训练,目的是消除离群点的影响;而第二种神经网络以传统的最小二乘方误差来训练。在一段固定的长度训练中,对于每一次输入,求两个网络的输出值的差值,然后求出所有差值的标准差s,取阈值Tr = k*s,然后对于测试集每个输入,两个神经网络的输出值如果大于Tr,则将该输入值标记为异常值,否则为正常值。


两种神经网络介绍

第一种神经网络

训练该神经网络采用Levenberg-Marquardt method(列文伯格-马夸尔特法)来进行优化,该方法是收敛速度最快的一种优化方法。采用的损失函数为Least Mean Log Squares(最小平均对数平方):

ρ(ri)=log(1+12ri2),(1)

其中ri 是第i次预测的误差值,对于损失函数来说,其影响函数如下.影响函数描述了异常点对于神经网络训练中潜在的影响力。

ψ(ri)=ri1+12ri2,(2)

根据损失函数,我们得到每个训练周期中的错误之和为:

E(w)=k=1Ni=1mlog(1+12rki2(w)),(3)

其中第k次训练中,第i个输出值和实际目标值的误差表示如下。w是权重,m是神经网络输出单元的个数。

rki=(yki(w)tki))

第二种神经网络

第二种神经网络训练方法为传统的神经网方法,其误差函数为:

E(w)=k=1Ni=1mrki2(w),(4)

在公式(3)中定义的log方法,减少甚至消除了最大残差对训练过程的影响。

算法步骤

因为每收到一个输入之后对权重进行一次更新的计算复杂度太过巨大,因此,文中选择经过一段定长周期的输入数据之后对权重进行更新,即定长时间窗口方法。至于时间窗口长度的选择,过短就不能达到很好的训练效果,过长则会导致训练时间过长。当一个时间窗口的权重更新完毕之后就可以对接下来的数据流进行检测。对于一个输入,如果传统ANN的输出结果和健壮ANN的输出结果的插值超过阈值Tr,则将其归为异常值。输出之差绝对值计算方法为:

D(xi)=|ymse(xi)ylmls(xi)|,(5)

现在问题来了,如何确定阈值Tr,文中提出基于训练数据中传统ANN和健壮ANN的结果之差的标准差来确定阈值。对于给定窗口大小的训练数据,其阈值Tr的计算方式为:

Tr=kStd(|ymse(xi)ylmls(xi)|),

其中k值是一个常数,K值得确定取决于ROC曲线。于是算法步骤如下:

1. 从数据流中累积数据,数据大小取决于参数窗口长度

2. 在累积的数据上训练ANN,同时累积下一次训练的数据

3. 对于每一个数据流,根据公式(5)计算两种ANN的输出差值,根据差值是否超过阈值Tr来划分是否为异常值。

论文中对于K值得确定和窗口大小的确定方法不是很明确,需要根据实际情况来确定。

这篇关于Robust Neural Network for Novelty Detection on Data Streams的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/794220

相关文章

poj 2349 Arctic Network uva 10369(prim or kruscal最小生成树)

题目很麻烦,因为不熟悉最小生成树的算法调试了好久。 感觉网上的题目解释都没说得很清楚,不适合新手。自己写一个。 题意:给你点的坐标,然后两点间可以有两种方式来通信:第一种是卫星通信,第二种是无线电通信。 卫星通信:任何两个有卫星频道的点间都可以直接建立连接,与点间的距离无关; 无线电通信:两个点之间的距离不能超过D,无线电收发器的功率越大,D越大,越昂贵。 计算无线电收发器D

论文翻译:arxiv-2024 Benchmark Data Contamination of Large Language Models: A Survey

Benchmark Data Contamination of Large Language Models: A Survey https://arxiv.org/abs/2406.04244 大规模语言模型的基准数据污染:一项综述 文章目录 大规模语言模型的基准数据污染:一项综述摘要1 引言 摘要 大规模语言模型(LLMs),如GPT-4、Claude-3和Gemini的快

CentOS下mysql数据库data目录迁移

https://my.oschina.net/u/873762/blog/180388        公司新上线一个资讯网站,独立主机,raid5,lamp架构。由于资讯网是面向小行业,初步估计一两年内访问量压力不大,故,在做服务器系统搭建的时候,只是简单分出一个独立的data区作为数据库和网站程序的专区,其他按照linux的默认分区。apache,mysql,php均使用yum安装(也尝试

使用Spring Boot集成Spring Data JPA和单例模式构建库存管理系统

引言 在企业级应用开发中,数据库操作是非常重要的一环。Spring Data JPA提供了一种简化的方式来进行数据库交互,它使得开发者无需编写复杂的JPA代码就可以完成常见的CRUD操作。此外,设计模式如单例模式可以帮助我们更好地管理和控制对象的创建过程,从而提高系统的性能和可维护性。本文将展示如何结合Spring Boot、Spring Data JPA以及单例模式来构建一个基本的库存管理系统

15 组件的切换和对组件的data的使用

划重点 a 标签的使用事件修饰符组件的定义组件的切换:登录 / 注册 泡椒鱼头 :微辣 <!DOCTYPE html><html lang="en"><head><meta charset="UTF-8"><meta name="viewport" content="width=device-width, initial-scale=1.0"><meta http-equiv="X-UA-

12C 新特性,MOVE DATAFILE 在线移动 包括system, 附带改名 NID ,cdb_data_files视图坏了

ALTER DATABASE MOVE DATAFILE  可以改名 可以move file,全部一个命令。 resue 可以重用,keep好像不生效!!! system照移动不误-------- SQL> select file_name, status, online_status from dba_data_files where tablespace_name='SYSTEM'

MonoHuman: Animatable Human Neural Field from Monocular Video 翻译

MonoHuman:来自单目视频的可动画人类神经场 摘要。利用自由视图控制来动画化虚拟化身对于诸如虚拟现实和数字娱乐之类的各种应用来说是至关重要的。已有的研究试图利用神经辐射场(NeRF)的表征能力从单目视频中重建人体。最近的工作提出将变形网络移植到NeRF中,以进一步模拟人类神经场的动力学,从而动画化逼真的人类运动。然而,这种流水线要么依赖于姿态相关的表示,要么由于帧无关的优化而缺乏运动一致性

时间序列|change point detection

change point detection 被称为变点检测,其基本定义是在一个序列或过程中,当某个统计特性(分布类型、分布参数)在某时间点受系统性因素而非偶然因素影响发生变化,我们就称该时间点为变点。变点识别即利用统计量或统计方法或机器学习方法将该变点位置估计出来。 Change Point Detection的类型 online 指连续观察某一随机过程,监测到变点时停止检验,不运用到

图神经网络框架DGL实现Graph Attention Network (GAT)笔记

参考列表: [1]深入理解图注意力机制 [2]DGL官方学习教程一 ——基础操作&消息传递 [3]Cora数据集介绍+python读取 一、DGL实现GAT分类机器学习论文 程序摘自[1],该程序实现了利用图神经网络框架——DGL,实现图注意网络(GAT)。应用demo为对机器学习论文数据集——Cora,对论文所属类别进行分类。(下图摘自[3]) 1. 程序 Ubuntu:18.04

SIGMOD-24概览Part7: Industry Session (Graph Data Management)

👇BG3: A Cost Effective and I/O Efficient Graph Database in ByteDance 🏛机构:字节 ➡️领域: Information systems → Data management systemsStorage management 📚摘要:介绍了字节新提出的ByteGraph 3.0(BG3)模型,用来处理大规模图结构数据 背景