原始模型前提

假设所有特征均服从正态分布:

异常检测 随笔 第1张

SRE实战 互联网时代守护先锋,助力企业售后服务体系运筹帷幄!一键直达领取阿里云限量特价优惠。

数据集划分

假定有1万个好引擎,20个坏引擎。训练集全部都是好引擎,以便训练出均值和方差。则按如下分类:

异常检测 随笔 第2张

原始模型步骤

1.计算从j=1,2,3...,n的所有均值和方差:

异常检测 随笔 第3张

2.选定一个可疑点x,计算:

异常检测 随笔 第4张

3.判定:

异常检测 随笔 第5张

 评价指标

异常检测 随笔 第6张

参数的确定

为了确定ε的大小或者特征多少的确定,可以在交叉验证集上,试试哪个ε可以使得F值最大,就选择那个。

与监督学习的区别

数据集非常偏斜的情况下使用异常检测算法

若检测效果不好

假定一开始只用一个特征去检测,没有检测出来:

异常检测 随笔 第7张

则可以多采用一个特征:

异常检测 随笔 第8张

 比如下图新增x5,x6特征:

异常检测 随笔 第9张

多元高斯分布

不要为x1,x2单独建模,而是利用多元高斯分布建立一个统一的模型p,其中参数为:

异常检测 随笔 第10张

公式:

异常检测 随笔 第11张

图像(假定三维):

 异常检测 随笔 第12张

多元高斯分布步骤

1.计算参数:

异常检测 随笔 第13张

2.给定一个样本进行计算:

异常检测 随笔 第14张

3.判定

异常检测 随笔 第15张

原始模型和多元高斯模型的比较

1.使用原始模型需要人为手动创建新特征,而高斯模型会自动步骤特征之间的关系。

2.当特征非常多的时候, 原始模型计算的成本更低

3.在使用高斯时,要求m远大于n。

 

扫码关注我们
微信号:SRE实战
拒绝背锅 运筹帷幄