林文锋,黄国文
(中国移动通信集团广东有限公司 广州 510623)
电信运营企业为了企业运营管理的需要,构建了数量庞大的运营支撑系统,而这些系统主机数量多、网络分布广、网络结构复杂;网络设备由不同厂商供应,多种系统及网络协议并存。另一方面,系统和网络维护人员数量有限,系统的日常管理和维护相当困难。由于缺乏统一的IT监控管理支撑手段,IT系统的运营能力不足,同时也影响业务的支撑与响应。为此,电信运营商需要引入以流程为导向、以用户满意度和服务品质为核心的IT服务管理(ITSM)理念,对其网络、主机和数据库系统等进行全面、集中、有效的监控和管理。通过实施ITSM使IT系统具有高效性、实用性和可扩展性,并从根本上转变管理手段,提高管理水平,规范管理流程,从而提高整个计算机系统的稳定性和可靠性,降低设备故障率,保障各业务系统平稳、健康地运行。
IT服务管理系统一般由IT服务管理和IT监控两部分组成,IT服务管理平台主要实现IT运行过程中的日常工作支撑,包括服务台、IT业务数据分析和展现、信息公告模块、IT资产、IT人员等IT运营的管理功能,同时提供服务支持、服务交付、需求管理、运营维护等IT管理流程的支撑。IT监控一般包括以下3部分。
·IT基础设施监测平台,实现对IT基础设施的告警、性能数据的采集和关联分析,监测对象包括IT网络、主机、存储备份、数据库、中间件、桌面、机房环境等。
·IT应用软件监测平台,实现对应用软件系统的告警、性能数据的采集和关联分析,监测对象包括各类OSS,如服务开通、资源管理、综合网管等业务系统。
·业务可用性监测平台是从系统使用用户角度检测相关业务系统的可用性,实现对业务平台可用性的集中化、可视化管理。系统监测的业务范围包括业务开通、服务投诉等用户直接使用的业务。
在构建IT监控管理的3个层次中,存在逐层依赖的关系,如何将IT基础设施监控指标、IT应用软件指标与业务可用性指标进行关联,是电信运营企业面临的一个难题,也是本文重点研究的课题。本文将首先阐述如何构建面向用户体验的IT指标管理体系,并给出在应用效能监测平台建设与运营中的实际成效。
构建结构化、面向内外部用户的感知指标体系,逐步建设基于监控指标体系的系统健康度监测平台,实现系统运行状态、业务感知、性能瓶颈等的统一监测,并根据关键业务指标提出系统优化及改进建议,将IT对业务支撑的价值最大化和显性化。
用户体验指标体系的主要目标是:建设以用户感知为驱动的指标体系,构建面向内外部用户的感知指标体系,结合对系统产品指标(productivity indicator,PI)、关键性能指标 (key-performance indicator,KPI)、关键质量指标(key quality indicator,KQI)以及用户感知指标 (customer key experience indicator,CEI)的采集及计算,形成 CEI-KQIKPI-PI的4层指标模型,如图1所示,具体介绍如下。
·CEI:CEI是主观的体验,由KQI监测结果与用户的主观反馈结合,根据相应的权重关系复合运算得出,综合考虑渠道、地域、角色等因素,根据采集数据不断完善。
·KQI:KQI是以用户为中心,体现业务层面的关键指标,可以是多个KPI的聚合,也可以是单个KPI。
·KPI:KPI是以业务为对象,体现业务在端到端实现中的各项关键指标,整体反映系统的运行状态、业务效率等。
·PI:PI是衡量组成系统的各类基础设施、模块及相关系统资源指标。
CEI-KQI-KPI-PI的聚合模型涵盖业务域中所有可能影响用户感知的要素,从多个维度建立起每个业务的用户感知拓扑结构,并通过各要素指标聚合至用户的主观感知。
2.2.1 指标模型
指标模型的建立是为了反映业务整体健康度,在传统IT系统资源监控的基础上,结合业务服务的管理,全面反映系统支撑能力和用户实际使用业务的整体情况,并通过时间、位置、用户等维度进行观察,从而有效分析出业务的使用状况和系统支撑的现状和趋势。
图1 面向用户体验的指标体系架构示意
2.2.2 标准指标池KPI/PI
4层逐步向上聚合的指标结构决定了指标从底层指标开始,根据用户的实际需求选取相应的底层指标聚合形成上层指标,同样,底层指标在衡量不同的资源或系统对象时也会有不同的输出,这里定义出基于体系结构按层级分类的标准类指标集合、各层级指标的标准指标集合,作为最终呈现的各类指标的基础指标集合。
KPI标准指标池包括系统资源指标和系统能力指标两大类,如图2所示。
图2 KPI标准指标池
表1为系统资源指标及其说明。表2为系统能力指标及其说明。
表1 标准指标池:系统资源指标
2.2.3 区域对象健康度指标KQI1
区域对象健康度指标用于反映一个区域的系统运行状况,展示被监测系统的总体健康度、可用性,系统业务/性能变化趋势等指标见表3。
表2 标准指标池:系统能力指标
2.2.4 用户对象健康度指标汇总KQI2
用户对象健康度指标用于反映用户在使用系统过程中所产生的系统响应指标,具体见表4。
2.2.5 业务服务的健康度指标汇总KQI3
业务服务健康度指标用于反映业务的可用性指标,具体见表5。
2.2.6 按用户感知的指标CEI
用户感知指标受上述指标的综合影响,其相互关系如下所示:CEI=f(KQI1,KQI2,KQI3,…,用户主观 KQI)。
表3 按区域对象统计指标集
表4 按用户对象统计指标集
表5 按业务服务对象统计指标集
具体说明如下:
·KQI1为区域对象健康度指标,KQI2为用户对象健康度指标,KQI3为业务服务健康度指标;
·用户主观类KQI是用户的主观使用感知,如操作灵活、界面美观、系统一致等,此类信息可以通过问卷调研、日常工作反馈等方式进行采集;
·KQI为CEI的必要非充分条件。
指标阈值的产生原理是将采集到的指标数据与基于历史数据所计算出来的预警容忍线进行比较,超过容忍线时触发告警产生机制。
根据系统运行时指标按时间分布的特性以及指标在监控时间段内的最大值及最小值分布情况,针对不同时段设定不同的指标告警门限,按照指标历史数据的实际分布情况,设定当前时段内的合理分布,并基于当前时段区域触发异常值告警,动态基线与动态告警线之间的波动告警范围可以调整,超出上下告警线将触发告警产生机制。动态阈值的计算将通过以下两步计算实现:
(1)基线的确定,基于历史数据的样本选取及预处理实现;
(2)计算动态基线,利用预处理后的有效历史数据计算波动范围的上下限。
2.3.1 指标历史数据的样本选取及预处理
(1)样本的选取
对于过往一个月的历史数据,原则上样本数据选取的时间空间越大,数据准确度越高,但实时数据选取及预处理需要耗费大量的比对空间及计算资源,以一个月数据为基准样本,在每个月末进行当月数据的采集工作。
(2)样本数据的预处理
样本数据确定后,剔除节假日、重大事件及类似时间点异常数据,确保数据的一般性及日常化。
步骤1 历史数据的归一化处理
提取各指标粒度24 h的历史数据,记为X(x1,x2,…,x24),将指标特征量归一,分布在[0,1]上,以体现不同指标的时间特征。
以单笔业务耗时为例,取全天24 h耗时数据,将每小时数据与全天耗时综合的比例作为业务耗时特征量,全天24个特征量的和为1,经过归一化处理,每个特征量可以描述当前时段占全天业务耗时的比例。
步骤2 计算数据相关度
判断两个数据是否相关,计算两个数据的差值比,差值比越小,则相关度越高,反之则相关度越低。
步骤3 数据有效性校验
通过设定数据相关度门限值对采样数据进行有效性校验,当采样数据满足设定的门限值要求时,则认为数据有效,反之则为异常数据,予以剔除。
2.3.2 计算动态基线
(1)样本数据的选取及计算
利用预处理后的有效历史数据计算每小时指标波动的合理范围,最终描绘0~24 h内指标的波动曲线和波动范围,监控到任何在波动范围之外的数据都将触发告警。
(2)指标数据分布计算及验证
通过分析系统运行中的各项指标分布,根据正态分布定义计算基线的指标数据分布曲线:
其中,标准差根据式(2)计算得出各个指标数据的门限区域:
按照分级定制告警级别,并设定级别门限区域:一般告警,告警门限设为[μ-σ,μ+σ];严重告警,告警门限设为[μ-2σ,μ+2σ]。
随着网络扩容、系统优化及业务量、市场策略等的不断变化,指标正常的波动区间也会发生变化,为了适应这种变化,准确发现系统的异常,需要对原先的基线进行调整,通常调整方式有如下两种:
·一般情况下,每月初重新选定上一个月内的数据为新的样本数据,重新进行基线计算,以切合系统实际情况的变化;
·手工方式修正,根据网络扩容、系统优化或业务量及市场策略带来的变化,设定相应的系数,与相应的指标数据基线相乘,得到新的基线及门限区域,调整时需要考虑对应指标的相关特性。
综合资源系统承载着全省资源的集中管理、与网管系统接口提供资源数据和资源服务等任务,包含多个子系统以及各个区域系统的连接,因此端到端的用户体验存在一些问题。建设OSS应用效能监测平台的目的就在于构建端到端的业务监控平台,形成完善的业务监控指标、系统能力及健康度的实时监控。OSS应用效能管理平台功能框架如图3所示。
图3 OSS应用效能管理平台功能框架
OSS应用效能管理平台主要功能包括以下几方面。
(1)实时监控
·实时采集OSS运行时的状态信息,包括应用和服务的性能、可用性数据、基础设施的状态数据;
·面向OSS构建从业务效能到用户体验、系统服务性能和基础设施性能的端到端效能指标体系;
·提供OSS端到端效能指标的实时监控;
·提供按区域、用户、业务等不同维度的实时监控功能。
(2)统计分析
·提供系统资源类、系统区域访问、业务可用性、功能使用等多维度的统计分析;
·提供基于业务/工单处理的性能统计报表;
·提供各类KPI统计报表;
·提供告警统计分析。
(3)系统优化及效能评估
·进行功能使用频率分析、功能整合及优化;
·进行应用架构分析,提供优化方向与建议;
·进行业务流程整合与优化、接口流程整合与优化;
·支持对受到OSS影响的业务效能问题的分析和原因定位,协助制定优化方案,支持对优化效果的分析和确认。
以GPON宽带业务开通为例,通过采集系统能力类指标,基于所构建的IT指标模型,计算用户可感知的业务指标,从而提升IT监控对业务快速支撑的需求,如图4所示。
业务类指标主要面向业务(集团用户、家庭用户)和网络(核心网、数据网等),针对不同运维场景(开通、投诉、故障等)进行划分,这类指标的计算需要采集运维场景的全过程信息和结果信息(含人工处理和系统处理信息)。
系统能力类指标主要面向OSS,针对不同的运维场景、不同业务的自动化支撑,这类指标的计算需要采集OSS运行态的外部响应指标(可用性、响应时间)和内部运行指标(性能、资源占用率)。
应用效能指标体系重点关注业务运营中涉及系统自动化支撑的相关动作,人工处理指标不纳入监控范围。
面向用户体验的IT指标管理体系及OSS应用效能监测平台已成功应用于广东移动综合资源管理系统监控维护与运营,具体包括以下几方面成效。
(1)实现系统效能实时监测
·建立综合资源指标监控体系,形成4层指标监控模式,自下而上实现对系统资源、系统能力、业务能力、用户感知的监控,对系统中出现的问题能够实时发现、快速定位,通过问题管理推动问题解决。
·建立基于历史数据的动态阈值基线,准确捕获系统异常波动,实时推送告警信息,提高监控效率,降低运营成本。
(2)建立常态化优化体系
根据性能指标体系及监控结果,系统组从“云、管、端”3个方面开展对系统性能的全面优化。例如,通过在用户终端安装探针,及时还原并检测用户侧的性能问题;通过网络探测、路由分析等进行网络问题的挖掘、分析、定位并制定优化方案。
图4 应用能效监控指标应用示例
系统自上线以来,共实施了236个性能优化方案,系统宕机数量从2012年底的月均5次降低到现在的0次;系统响应速度超过5 s的功能模块从213个减少到32个,优化后系统的应用效率平均提升5倍以上。
(3)提升用户满意度
·系统能够实时监控分析出用户常用功能的使用情况、不同用户端浏览器对使用性能的差异以及各区域网络环境对用户使用的影响等,根据用户体验,找出系统功能或性能方面的不足,并加以优化;
·通过分析用户的使用行为、使用习惯,简化操作流程,提高维护效率。
构建面向用户体验的IT指标管理体系是实现IT监控管理从基础设施监控向业务监控的基础和关键。本文从IT监控需求入手,研究了面向用户体验的IT指标体系,提出并构建了应用效能监测平台,并在实际运营中加以应用。通过上述方法能够提升IT监控维护效率,尤其是对业务的快速支撑能力,为IT运营创造更大的价值。
1 中国移动通信集团广东有限公司综合资源系统用户体验指标方案,2013
2 中国移动综合网络资源管理系统技术规范 系统架构和接口分册 V1.0.1,2009
3 中国移动综合网络资源管理系统技术规范 资源编码方法V1.0.1,2011