本文主要是介绍Isolation Forest | 隔离森林论文阅读,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!
Note of Isolation Forest
论文:https://cs.nju.edu.cn/zhouzh/zhouzh.files/publication/icdm08b.pdf
一、介绍
作者认为,异常数据存在两个显著的特性:
- 数量少,甚至是极少
- 与正常数据有显著的属性值差异
简单来说,异常是少且非常不同的。
因此,作者要做的就是找出这些异常点,而不是为正常数据建模(传统方法)。作者提出用树的结构去做这件事,并且在论文中会证明异常点更接近根节点(深度浅),正常点离根节点更远(深度深)。
作者称其构造的树为iTree或者Isolation Tree,称构造的树的集合为iForest或Isolation Forest。并且声称iForest只有两个参数:树的数量、子采样(sub-sampling)的大小;且只需要非常小的树的数量和非常小的子采样的大小就可以达到很好地检测效果和收敛效果。
二、Isolation and Isolation Trees
所谓Isolation,就是将一个实例同其他实例分隔开来。因为异常实例是非常少且非常不同的,因此异常实例是对这种分隔很敏感的。
有明显不同的属性值的实例就很容易分隔出来,而且往往比较早就被分隔出来,这也就意味着这些异常实例有比较短的“路径”,也即在树上有较浅的深度。
所谓Isolation Tree,是一棵完全二叉树,每一个节点要么没有孩子要么一定有两个孩子。构
这篇关于Isolation Forest | 隔离森林论文阅读的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!