这类方法为基于划分的方法范畴。

最简单的划分方法就是阈值检测,其通过人为经验划定阈值,对数据进行异常判断。
具体的,为了避免单点抖动产生的误报,需要将求取累积的窗口均值进行阈值判别,具体的累积就是通过窗口进行操作。

高级的基于划分的异常检测算法,是iForest (Isolation Forest)孤立森林,一个基于Ensemble的快速异常检测方法,具有线性时间复杂度和高精准度。与LOF、OneClassSVM相比,其占用的内存更小、速度更快。算法原理如下: 其将时序中的数据点划分成树,深度越低,说明越容易被划分,即为离群点。

算法不借助类似距离、密度等指标去描述样本与其他样本的差异,而是直接去刻画所谓的疏离程度(isolation)。假设现在有一组一维数据,我们要对这组数据进行切分,目的是把点A和 B单独切分出来,先在最大值和最小值之间随机选择一个值 X,然后按照=X 可以把数据分成左右两组,在这两组数据中分别重复这个步骤,直到数据不可再分。一些密度很高的簇要被切很多次才会停止切割,即每个点都单独存在于一个子空间内,但那些分布稀疏的点,大都很早就停到一个子空间内了。所以实现孤立森林的异常检测。



作者:名字太长显得比较长
来源:CSDN