钟成原 和 健
基于大数据异常分析的运维数据分析初探
钟成原 和 健
民航云南空管分局,云南 昆明 650200
民航云南空管分局自2012年6月28日转场到新机场运行以来,几年的运维中产生了大量的设备维护数据,由于目前采用的正常值范围的检测方式不能满足日益提高的运维要求。因此,尝试利用大数据挖掘中的统计方法对防雷接地电阻的测试进行异常分析,找出在大数据条件下的数据分析的方法。
异常分析;大数据;数据挖掘;运维
民航云南空管分局自2009年开始使用电子值班系统(即运维系统),电子值班系统的使用,大大方便了数据的记录和查询。2012年6月28日昆明新机场投入运行以来,系统记录了数十万条设备维护记录,这些记录都是宝贵的财富,但它们静静的躺在数据库里,没能为设备的故障预测和更新改造等工作提供更多的帮助。
在现有的维护体系中采用的是取值范围的检测方式,例如防雷接地电阻,要求是小于4 Ω,如果测试值在此范围内都是正常的。但像防雷接地电阻,在工程实施完毕以后,这个值应当稳定在一定范围内,例如1 Ω,如果某次测量发现突增到3.5 Ω,虽然仍然在规定范围内,但仍值得引起注意。
因此,采用目前的数据处理方式已经不能满足数据日益增长的需要了,大数据处理,数据挖掘为民航设备保障提供了新的思路和方法。
2.1 异常值的定义
异常值在统计学上常称为离群值,对于离群值的定义一般采用统计学家Douglas Hawkins的定义,即异常值是一个观测值,它与其他观测值的差别如此之大,以至于怀疑他由不同的机制产生的。
大多数情况下异常点的处理在统计学中是将其视为噪音而丢弃,然而在设备维护中,异常点的检测比正常值的检测更具指导意义。这是因为这种变化有可能预示着设备发生了某些改变,或者运行环境产生了变化,也有可能是测试人员使用了不同的方法或者工具等等。
2.2 异常分析的基本过程
异常分析的过程大体可以分为以下过程:
(1)获得和存储数据。这是一切大数据处理的基本,没有数据就没有分析的可能,可喜的是现在民航云南空管分局已经使用运维系统多年,积累了大量的数据。
(2)整合数据。在大数据中数据的量是巨大的,但不是所有数据都是有用的,也不是一次性要把所有数据都分析完。应该按照需要,整合所需的数据。例如本次我们只分析防雷接地电阻,我们就只需要提取取感兴趣的部分即可。
(3)建立模型。数据挖掘技术在异常点的检测上大体分为三类:统计学方法,基于距离的方法,基于偏移的方法,每种方法中又包含了多种处理模型,因此,在处理前必须建立模型,以方便后续的处理。本文中由于处理的仅仅是一个维度的防雷接地电阻,因此采用统计学的正态分布模型可以方便的检测出异常值。
(4)利用模型进行分析,建立模型后就需要通过模型进行异常点的分析,这也是对模型的验证。
(5)查找原因和应用,发现异常点后要查找异常点发生的原因,以提高维护质量和安全保障裕度。
3.1 基本情况
由于一个设备的同一个参数在周期维护中测试数量是有限的,而安装在同一机房内的设备防雷体系是一致的,如果采用相同的测试方法,应该可以得到较为接近的结果。为保证采样的样本量,在本文采用3倍标准差方法对民航云南空管分局技术保障部通信网络室安装在长水机场航管楼中心机房内的设备接地电阻测试情况进行分析。自2012年6月28日转场后共取得了462个测试数据。
3.2 检测过程
3.2.1 对数据进行直观密度分析
我们采用散点图直观地反映数据的分布情况,散点图如图1所示:
图1 接地电阻分布散点图
由图中可以看出,防雷接地电阻主要分布在2.5Ω以下,其中3.5 Ω以上的有4个测试值,最大值为4.3 Ω,已经超出了规定范围[1]。
3.2.2 数据定量分析
计算结果如表1所示:
表1 接地电阻统计计算结果表
超过3倍标准差的数据共有4个,占0.87 %,超过的值如表2所示:
表2 超过3倍标准差的数据统计表
对于1号检测值,当时的测量人员已经辞职,测试日期正好在当事人准备辞职期间。我们认为当事人当时的心态、工作热情可能是导致本次测试结果超标的直接原因。
对于2号和4号测试值,由于发生在转场初期,防雷接地不完善,在2013年初对防雷接地进行全面的梳理检查后,一直都相对稳定。
对于3号测试结果,维护规程要求测试时使用环形地阻仪进行测试,但测试人回忆当时采用的是万用表进行测试,而且测试值在标准之内,于是当事人便进行了记录。在之后的测试一直使用环形地阻仪测试,测试值稳定在1.1 Ω左右[2]。
4.1 测量数据尽可能的数据化
在分析中我们发现在维护记录中有很多测试值仍然采用“正常”等定性的测试结果,这些数据由于只有“正常”、“不正常”两个值,无法进行数据分析,不利于发挥大数据分析的作用。
4.2 合理安排异常检测标准
异常数值的取值是异常分析中最困难的部分,以本例中使用的标准差方法中,通过统计学原理可以知道即使按照3倍标准差分析将有0.3 %的异常值。别小看这0.3 %,如果100万条数据中将有3000条数据需要调查。因此在实际中应当根据实际情况灵活的确定异常的标准[3]。
4.3 不放过任何一个异常点
对检出的异常值,应尽可能寻找产生异常值的原因,作为处理异常值的依据。每一个异常都有可能是一个安全隐患,数据分析只能找到这些异常点,但无法告诉我们为什么会发生异常。本着四不放过的原则,应当组织人员进行排查,彻底消除隐患,对于一时无法找到问题的根源,也应当增加检测密度,密切关注。
4.4 今后的检测应该朝着多维度发展
本文仅对一维数据进行了分析,但实际工作中很多指标是相互关联的,例如一个100 W的5 V电源,如果电压允许1 V误差,那么输出电压范围是4~6 V,电流可以在0~25 A之间,如果单独测试6 V电压,25 A电流都是正常的,但如果同时出现,电源的功率为150 W,大大超出了额定功率。因此,今后应当提高多维度的检测,以满足日益增加的维护需求[4]。
[1]统计学术语:GB/T 3358.1—1993[S].
[2]数据的统计处理和解释正态样本异常值的判断和处理:GB 4883—85[S].
[3]Tan P & M Steinbach.范明,范宏建,译.数据挖掘导论[M].北京:人民邮电出版社,2011:403-418.
[4]张晓,基于密度聚类算法的异常检测[J].伊犁师范学院学报(自然科学版),2010,2010(4):52-53.
F832.2
A
1009-6434(2016)12-0113-02