引言
异常值检测与告警一直是工业界非常关注的问题,自动准确地检测出系统的异常值,不仅可以节约大量的人力物力,还能尽早发现系统的异常情况,挽回不必要的损失。个推也非常重视大数据中的异常值检测,例如在运维部门的流量管理业务中,个推很早便展开了对异常值检测的实践,也因此积累了较为丰富的经验。本文将从以下几个方面介绍异常值检测。
1、异常值检测研究背景
2、异常值检测 *** 原理
3、异常值检测应用实践
异常值检测研究背景
异常值,故名思议就是不同于正常值的值。 在数学上,可以用离群点来表述,这样便可以将异常值检测问题转化为数学问题来求解。
异常值检测在很多场景都有广泛的应用,比如:
1、流量监测
互联网上某些服务器的访问量,可能具有周期性或趋势性:一般情况下都是相对平稳的,但是当受到某些黑客攻击后,其访问量可能发生显著的变化,及早发现这些异常变化对企业而言有着很好的预防告警作用。
2、金融风控
正常账户中,用户的转账行为一般属于低频事件,但在某些金融诈骗案中,一些嫌犯的账户就可能会出现高频的转账行为,异常检测系统如果能发现这些异常行为,及时采取相关措施,则会规避不少损失。
3、机器故障检测
一个运行中的流水线,可能会装有不同的传感器用来监测运行中的机器,这些传感器数据就反应了机器运行的状态,这些实时的监测数据具有数据量大、维度广的特点,用人工盯着看的话成本会非常高,高效的自动异常检测算法将能很好地解决这一问题。
异常值检测 *** 原理
本文主要将异常值检测 *** 分为两大类:一类是基于统计的异常值检测,另一类是基于模型的异常值检测。
基于统计的 ***
基于模型的 ***
1、基于统计的异常值检测 ***
常见的基于统计的异常值检测 *** 有以下2种,一种是基于3σ法则,一种是基于箱体图。
3σ法则
箱体图
3σ法则是指在样本服从正态分布时,一般可认为小于μ-3σ或者大于μ+3σ的样本值为异常样本,其中μ为样本均值,σ为样本标准差。在实际使用中,我们虽然不知道样本的真实分布,但只要真实分布与正太分布相差不是太大,该经验法则在大部分情况下便是适用的。
箱体图也是一种比较常见的异常值检测 *** ,一般取所有样本的25%分位点Q1和75%分位点Q3,两者之间的距离为箱体的长度IQR,可认为小于Q1-1.5IQR或者大于Q3+1.5IQR的样本值为异常样本。
基于统计的异常检测往往具有计算简单、有坚实的统计学基础等特点,但缺点也非常明显,例如需要大量的样本数据进行统计,难以对高维样本数据进行异常值检测等。
2、基于模型的异常值检测
通常可将异常值检测看作是一个二分类问题,即将所有样本分为正常样本和异常样本,但这和常规的二分类问题又有所区别,常规的二分类一般要求正负样本是均衡的,如果正负样本不均匀的话,训练结果往往会不太好。但在异常值检测问题中,往往面临着正(正常值)负(异常值)样本不均匀的问题,异常值通常比正常值要少得多,因此需要对常规的二分类模型做一些改进。
基于模型的异常值检测一般可分为有监督模型异常值检测和无监督模型异常值检测,比较典型的有监督模型如oneclassSVM、基于神经 *** 的自编码器等。 oneclassSVM就是在经典的SVM基础上改进而来,它用一个超球面替代了超平面,超球面以内的值为正常值,超球面以外的值为异常值。
经典的SVM
1
基于模型的 ***
2
基于神经 *** 的自编码器结构如下图所示。
自编码器(AE)
将正常样本用于模型训练,输入与输出之间的损失函数可采用常见的均方误差,因此检测过程中,当正常样本输入时,均方误差会较小,当异常样本输入时,均方误差会较大,设置合适的阈值便可将异常样本检测出来。但该 *** 也有缺点,就是对于训练样本比较相近的正常样本判别较好,但若正常样本与训练样本相差较大,则可能会导致模型误判。
无监督模型的异常值检测是异常值检测中的主流 *** ,因为异常值的标注成本往往较高,另外异常值的产生往往无法预料,因此有些异常值可能在过去的样本中根本没有出现过, 这将导致某些异常样本无法标注,这也是有监督模型的局限性所在。 较为常见的无监督异常值检测模型有密度聚类(DBSCAN)、IsolationForest(IF)、RadomCutForest(RCF)等,其中DBSCAN是一种典型的无监督聚类 *** ,对某些类型的异常值检测也能起到不错的效果。该算法原理网上资料较多,本文不作详细介绍。
IF算法最早由南京大学人工智能学院院长周志华的团队提出,是一种非常高效的异常值检测 *** ,该 *** 不需要对样本数据做任何先验的假设,只需基于这样一个事实——异常值只是少数,并且它们具有与正常值非常不同的属性值。与随机森林由大量决策树组成一样,IsolationForest也由大量的树组成。IsolationForest中的树叫isolation tree,简称iTree。iTree树和决策树不太一样,其构建过程也比决策树简单,因为其中就是一个完全随机的过程。
假设数据集有N条数据,构建一颗iTree时,从N条数据中均匀抽样(一般是无放回抽样)出n个样本出来,作为这颗树的训练样本。
在样本中,随机选一个特征,并在这个特征的所有值范围内(最小值与更大值之间)随机选一个值,对样本进行二叉划分,将样本中小于该值的划分到节点的左边,大于等于该值的划分到节点的右边。
这样得到了一个分裂条件和左、右两边的数据集,然后分别在左右两边的数据集上重复上面的过程,直至达到终止条件。 终止条件有两个,一个是数据本身不可再分(只包括一个样本,或者全部样本相同),另外一个是树的高度达到log2(n)。 不同于决策树,iTree在算法里面已经限制了树的高度。不限制虽然也可行,但出于效率考虑,算法一般要求高度达到log2(n)深度即可。
把所有的iTree树构建好了,就可以对测试数据进行预测了。预测的过程就是把测试数据在iTree树上沿对应的条件分支往下走,直到达到叶子节点,并记录这过程中经过的路径长度h(x),即从根节点,穿过中间的节点,最后到达叶子节点,所走过的边的数量(path length)。最后,将h(x)带入公式,其中E(.)表示计算期望,c(n)表示当样本数量为n时,路径长度的平均值,从而便可计算出每条待测数据的异常分数s(Anomaly Score)。异常分数s具有如下性质:
1)如果分数s越接近1,则该样本是异常值的可能性越高;
2)如果分数s越接近0,则该样本是正常值的可能性越高;
RCF算法与IF算法思想上是比较类似的,前者可以看成是在IF算法上做了一些改进。针对IF算法中没有考虑到的时间序列因素,RCF算法考虑了该因素,并且在数据样本采样策略上作出了一些改进,使得异常值检测相对IF算法变得更加准确和高效,并能更好地应用于流式数据检测。
IF算法
RCF算法
上图展示了IF算法和RCF算法对于异常值检测的异同。我们可以看出原始数据中有两个突变异常数据值,对于后一个较大的突变异常值,IF算法和RCF算法都检测了出来,但对于前一个较小的突变异常值,IF算法没有检测出来,而RCF算法依然检测了出来,这意味着RCF有更好的异常值检测性能。
异常值检测应用实践
理论还需结合实践,下面我们将以某应用从2016.08.16至2019.09.21的日活变化情况为例,对异常值检测的实际应用场景予以介绍:
从上图中可以看出该应用的日活存在着一些显著的异常值(比如红色圆圈部分),这些异常值可能由于活动促销或者更新迭代出现bug导致日活出现了比较明显的波动。下面分别用基于统计的 *** 和基于模型的 *** 对该日活序列数据进行异常值检测。
基于3σ法则(基于统计)
RCF算法(基于模型)
从图中可以看出,对于较大的突变异常值,3σ法则和RCF算法都能较好地检测出来, 但对于较小的突变异常值,RCF算法则要表现得更好。
总结
上文为大家讲解了异常值检测的 *** 原理以及应用实践。综合来看,异常值检测算法多种多样 ,每一种都有自己的优缺点和适用范围,很难直接判断哪一种异常检测算法是更佳的, 具体在实战中,我们需要根据自身业务的特点,比如对计算量的要求、对异常值的容忍度等,选择合适的异常值检测算法。
接下来,个推也会结合自身实践,在大数据异常检测方面不断深耕,继续优化算法模型在不同业务场景中的性能,持续为开发者们分享前沿的理念与最新的实践方案。
这个AE里一个特效是Displacement map 是可以做子弹划过后的扭曲空间的那种效果, 但是没有特别的简单. 需要具备一定的AE知识. 不是把这个特效扔上去结果就能出来的.
男生如果考不上高中就去学电脑吧!可以去学,室内设计或者大数据专业等等,这些专业都比较适合男生。在电脑方面,这些专业可以说是走出社会也比较有用的,就业前景也很好。
可以学一些计算机基本的office软件操作之类的,会表较好。
这个要看你自己的兴趣爱好、我个人感觉无论什么工作都有前途、俗话说的好、360行、行行出状元就看你自己了~~~~
计算机专业也有分类,其实还是看你擅长什么,电脑也要看你对哪一方面精通,比如软件开发?利用编程语言开发网站、软件、游戏后台之类的,也就是熟话说的程序员。或者是硬件维修?电脑的组装维护维修。或者软件应用?运用3D、CAD、ps、玛雅等等软件的各种设计师行业。再或者 *** 技术方面的工作,你可以立志做一名黑客。
还有设计方面,这方面有很多平面设计的软件可以学,ps,3dmax,cad。这3门最重要,学精这些电脑辅助设计软件,你可以做平面设计师,可以做游戏设计,可以做室内设计,这些就要去考高新技术证,是考ps的。设计师的待遇也很好,如果你学精了,你可以有5000以上,但是如果只是绘图员,就得1000左右了。
计算机具体的领域很多,覆盖面很广,分工也很细致,学的专业领域不一样工作内容也不一样。有简单的有深奥的,工作的难易程度相差也很大。
简单的你可以做一些最基本的文职工作,打字做表格等等。稍难一些的可以绘图,再难一些的设计程序,反正有很多种,基本上每个领域都用得着。
哪个专业适合初中毕业生,对于具有较强计算机和逻辑技能的初中学生,计算机IT技术是更佳选择。如 *** 工程师,软件开发工程师等。此外,随着Internet的快速发展,越来越多的基础计算机软件人才之间有着巨大的缺口。对于这些基本的软件开发职位,学历不是主要参考,主要是你的技术胜任,那么一切都不是问题。最重要的是,IT行业的发展日新月异。选择IT行业可以与新兴事物和信息取得联系,这将极大地帮助您将来的人生规划。如果初中毕业生选择计算机技术,那么他们需要找到一家正规的培训机构来丰富其IT技能。
计算机专业相对近十年在来说当然是就业前景不错的专业,因此无论是男孩子还是女孩子,就业还都不错。
初中生的年龄比较小,如果过早进入社会,只会是做一些底层工作,但是现在的学生大多不欢枯燥的理论课堂,所以学一门技术远比直接进去社会要好很多。现如今互联网行业发展速度比较快,需求也不错,工作环境和工作待遇都很好,所以,如果初中生想学技术,推荐学互联网技术。比如电子商务、软件开发、
UI设计、VR影视、人工智能等专业都是最近比较热门的专业。
其实是什么技术都一样的,那就看你学的精不精,有一个好的技术去哪儿都吃香,都能好就业。
还有就是你的智慧,有时候再有好技术,没有智慧也是很难的。
如何在钉钉上绑定已有的企业邮箱 通过手机钉钉开通钉邮,首先点击打开钉钉程序。进入钉钉后,点击进入“钉邮”页面,点击右上角的“设置”图标。进入设置页面后,可以看到已经有分配的钉钉邮箱,可以点击下方的“添...
新换的手机以前的邮箱为什么无法登录 建议进行以下操作:1.检查手机上网是否正常。2.若使用的是GPRS上网方式,请将上网接入点切换成net。操作:设定-更多设置(更多网络)-移动网络-接入点名称-选择...
手机苹果的,下载了qq邮箱,怎么在里面设置自己公司的邮箱 qq邮箱在里面设置自己公司的邮箱方法: 1.如果公司的邮箱是qq邮箱,打开QQ邮箱,输入密码和邮箱帐号登录即可; 2.如果公司的邮箱不是qq邮...
浙江缙云邮编多少 丽水市缙云县的邮政区码:321400缙云简称缙,隶属浙江省丽水市,是“革命老区县”、“中国麻鸭之乡”。位于浙南部腹地、中南部丘陵山区,丽水东北部,距杭州175公里。缙云县人民政府通讯...
国际比较认可的邮箱? 1、GMX邮箱:邮箱地址(GMX.com)。GMX-(GlobalMailExchange)是全球著名免费邮箱网站。GMX邮箱创始于德国,致力于打造全世界最优秀的免费电子邮箱。身...
TOM的邮箱的附件有多大? 超大空间1.5G,30M附件,我申请了几个,确实能够传送30M以内的附件,但是别超过27M,再者,其他网站的免费邮箱附件没有这么大,163,126是15M,新浪,56也是1...