异常检测
原始模型前提
假设所有特征均服从正态分布:
SRE实战 互联网时代守护先锋,助力企业售后服务体系运筹帷幄!一键直达领取阿里云限量特价优惠。数据集划分
假定有1万个好引擎,20个坏引擎。训练集全部都是好引擎,以便训练出均值和方差。则按如下分类:
原始模型步骤
1.计算从j=1,2,3...,n的所有均值和方差:
2.选定一个可疑点x,计算:
3.判定:
评价指标
参数的确定
为了确定ε的大小或者特征多少的确定,可以在交叉验证集上,试试哪个ε可以使得F值最大,就选择那个。
与监督学习的区别
数据集非常偏斜的情况下使用异常检测算法
若检测效果不好
假定一开始只用一个特征去检测,没有检测出来:
则可以多采用一个特征:
比如下图新增x5,x6特征:
多元高斯分布
不要为x1,x2单独建模,而是利用多元高斯分布建立一个统一的模型p,其中参数为:
公式:
图像(假定三维):
多元高斯分布步骤
1.计算参数:
2.给定一个样本进行计算:
3.判定
原始模型和多元高斯模型的比较
1.使用原始模型需要人为手动创建新特征,而高斯模型会自动步骤特征之间的关系。
2.当特征非常多的时候, 原始模型计算的成本更低
3.在使用高斯时,要求m远大于n。

更多精彩