异常检测——基于统计学的方法（学习blog））

本文主要是介绍异常检测——基于统计学的方法（学习blog）），希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

异常检测——基于统计学方法

感谢DataWhale

统计学方法对数据的正常性做出假定。**它们假定正常的数据对象由一个统计模型产生，而不遵守该模型的数据是异常点。**统计学方法的有效性高度依赖于对给定数据所做的统计模型假定是否成立。

异常检测的统计学方法的一般思想是：学习一个拟合给定数据集的生成模型，然后识别该模型低概率区域中的对象，把它们作为异常点。

即利用统计学方法建立一个模型，然后考虑对象有多大可能符合该模型。

根据如何指定和学习模型，异常检测的统计学方法可以划分为两个主要类型：参数方法和非参数方法。

参数方法假定正常的数据对象被一个以 $\Theta$ 为参数的参数分布产生。该参数分布的概率密度函数 $f(x,\Theta)$ 给出对象 $x$ 被该分布产生的概率。该值越小， $x$ 越可能是异常点。

非参数方法并不假定先验统计模型，而是试图从输入数据确定模型。非参数方法通常假定参数的个数和性质都是灵活的，不预先确定（所以非参数方法并不是说模型是完全无参的，完全无参的情况下从数据学习模型是不可能的）。

仅涉及一个属性或变量的数据称为一元数据。我们假定数据由正态分布产生，然后可以由输入数据学习正态分布的参数，并把低概率的点识别为异常点。

假定输入数据集为 ${x^{(1)}, x^{(2)}, ..., x^{(m)}}$ ，数据集中的样本服从正态分布，即 $x^{(i)}\sim N(\mu, \sigma^2)$ ，我们可以根据样本求出参数 $\mu$ 和 $\sigma$ 。

$\mu=\frac 1m\sum_{i=1}^m x^{(i)}$

$\sigma^2=\frac 1m\sum_{i=1}^m (x^{(i)}-\mu)^2$

求出参数之后，我们就可以根据概率密度函数计算数据点服从该分布的概率。正态分布的概率密度函数为

$p(x)=\frac 1{\sqrt{2\pi}\sigma}exp(-\frac{(x-\mu)^2}{2\sigma^2})$

这篇关于异常检测——基于统计学的方法（学习blog））的文章就介绍到这儿，希望我们推荐的文章对编程师们有所帮助！