浙江广电统一监控系统设计

2015-05-05 06:29:36
电视技术 2015年18期
关键词:子网机房运维

胡 伟

(浙江广播电视集团,浙江 杭州 310005)

浙江广电统一监控系统设计

胡 伟

(浙江广播电视集团,浙江 杭州 310005)

分析了浙江广播电视集团现有办公制作网与其子网的网络架构以及所涉及各类监控的相关技术需求,设计了针对集团主干网和各业务子网的全方位、全业务、全流程的统一监控系统,解决了跨部门、跨系统、跨网络、跨地域的监控数据采集和业务流程调度,对建设具备物理层、网络层和业务层的多层次立体化集中监控、管理、展示的指挥调度中心具有重要的意义。

监控系统;技术架构;设计思路

浙江广播电视集团是一家以广播电视为主业、兼营相关产业的综合型媒体集团,是国内最具影响力的省级媒体之一。集团拥有19个广播电视频道,其中电视频道12个,浙江卫视为卫星频道。同时集团还拥有新蓝网和IPTV新媒体公司等一批新媒体业务。

浙江广播电视集团的全网建设起步较晚,各频道及集团层面在之前已陆续建立了多个独立的生产制作播出系统,因此全网与各子网对接的困难也较多,但本着统一接口规范和管理规范的原则,最终实现各孤立子系统的互联互通和节目资源的快速共享。在这样的情况下,架构一套能够针对集团主干网及各个业务子网的系统情况,符合统一监控、管理、报警要求的监控系统就非常必要。

1 建设目标

浙江广电集团希望通过统一监控系统的建设使集团统一监控中心真正具备全网统一智能监控展示及指挥调试中心的能力。系统应遵循ITIL/ISO 20000等IT运维实践标准,结合浙江广电集团的实际情况,构建符合集团业务发展需要的全方位、全业务、全流程的监控系统,实现监控管理的集中化,故障处理的智能化,运维流程的规范化,保障IT基础资源及业务系统平稳运行。

统一监控中心的建设目标可以概括为“统一管理,集中监控,统一报警,界面直观,显示多样,安全便捷,跟踪运维”。

1)统一管理:能对集团下属各子网及业务系统的IT资产进行统一有效管理。

2)集中监控:能够对全网内各个子网的机房、设备、软硬件及工作流程进行集中监控。

3)统一报警:能够对全网内发生的报警经过分析定位后,进行统一的及时报警,并采取多种方式,如声光、邮件及手机短信等。

4)界面直观:能够对机房和监控设备进行直观而形象的展示,无论是否监控人员都能在监控时凭直觉识别判断,并做到视觉美观。

5)显示多样:采用数据表、图形、曲线等多种方式展示监控的数据以及变化的方向,并通过事件、拓扑、地理位置、机房、业务逻辑拓扑等不同视图进行展示。

6)安全便捷:监控中心与全网采用ldap统一认证,分散授权,确保系统的用户安全,并采用Web方式进行展示,不需要安装客户端,方便快捷。

7)跟踪运维:可以对设备的生命周期的状态进行追踪,系统通过ITIL运维流程及值日志等手段规范化记录日常的运维情况。

2 总体需求

2.1 监控内容

监控内容包括:1)基础环境监控,对机房温湿度、漏水保护、UPS电力配电、精密空调等状态进行监控;2)机房视频监控,通过视频监控摄像头对机房进行视频监控,并分析动态变化;3)IT硬件资源监控,对服务器、网络交换设备、存储等设备的运行状态及健康度进行监控;4)IT基础软件资源监控,对数据库、中间件服务器的运行状态进行监控;5)全网工作流程监控,对全网跨子网的业务流程及运行状态进行监控。

2.2 监控范围

监控范围为:1)全网核心机房,位于广播楼,包括主干平台、媒资系统、电视剧缩编系统等3个系统,及广播制播网;2)播出机房位于新大楼,包括播出系统、收录系统等2个系统;3)新闻制播机房位于新大楼,包括卫视新闻制播系统;4)制作中心机房位于制作楼,包括民生新闻网、影视制作网、高清制作网、经视制作网、AVID网等;5)钱江台机房位于钱江台楼;6)办公网机房位于新大楼和主楼;7)新祥利机房,位于新祥利大楼,包括国际频道制播系统。

图1 监控系统模型图

2.3 预期收益

网管监控系统需确保不影响现有被监控业务系统的正常生产及网络信息安全,按现有系统要求,实现数据互联互通;可以提供监控中心大屏和远程终端图形化的集成展现功能,实现丰富直观的图形化界面展现。远程访问客户端采用B/S模式,上大屏软件可以采用CS架构;支持3D效果的展示及报警,支持通过iPad控制大屏显示内容,包括单块大屏独立显示、大屏分割和任意大屏拼接显示;核心数据库要求采用Oracle数据库,支持数据库数据远程备份容灾;依托集团办公网的一卡通用户系统,实现统一认证和权限的统一管理,可根据不同部门用户分配不同管理、访问权限;具备扩展性,可容纳未来集团新建机房监控的全面扩展;一旦发生异常情况,及时提供声光、短信以及语言等多种方式的报警,报警可接入集团办公短信平台;具备事件追忆功能,能对发生异态的事件进行追忆,同步模拟事件发生时关联的模拟量、数字量的数值及变化趋势及曲线[1]。

3 设计思路

3.1 总体设计思路

目前浙江广电集团已经建成节目制播等多个系统,系统分别部署在不同地点的多个机房内,这些系统绝大多数是成熟稳定的在线业务系统,每天承载着各类节目的正常播出运转;此外,绝大多数机房本身不具备基础设施的监控,只有部分视频监控。因此,对本系统提出了很高的要求,统一监控系统本身必须稳定可靠,对目标系统的影响也应特别注意,尽量做到对目标系统不改动,同时要能够集成机房环境监控以及视频监控等其他各类型监控,并满足广电集团围绕节目业务的个性化监控与统一监控系统的界面和数据级集成。另外,考虑到集团运行维护人员队伍的建立等诸多情况,监控系统应需具备一体化的运维模块,能够满足通过快速化配置进行实施及日常运行维护的便捷[2]。

在这样的前提下,强大的异构体系集成能力、稳定可靠的系统平台、可支持定制化的按需开发、能够通过配置方式实现的快速实施和可视便捷的日常维护就是本方案的设计思路。

3.2 系统功能架构

监控中心总体分为数据采集平台、监控服务平台和调度展示平台的3层架构模式。监控系统模型如图1所示。

数据采集平台负责采集各个子网内的各种参数及状态等监控信息,通过主干平台互联互通接口汇聚,发送给监控服务平台,监控服务平台采集来自主干ESB跨网的业务流程信息,经过智能分析处理后,将故障及时通过短信等手段报给相应级别的负责人员,调度展示平台实时显示监控信息,并及时发布服务平台分析的故障信息[3]。

3.3 子系统架构

子系统模型如图2所示。

图2 子系统模型图

1)集中监控子系统

平台应提供全面完善的资源监控功能,部署各类基础资源平台的监控,包括网络设备、服务器、数据库、中间件、存储、机房等,通过专业的工具系统来实现对资源的管理。

(1)网络监控,通过网络监测管理实现对网络的综合管理、流量的细颗粒度分析。

(2)系统监控,通过系统与应用监控实现对服务器、存储、数据库、中间件、应用的监控。

(3)机房监控,通过机房环境监控实现对机房温湿度、漏水、视频信息的全面监控。

(4)业务监控,通过对节目生产进度、状态进行全过程监控,及时掌握全台节目的执行情况,提高节目生产效率和利用率。

2)告警事件处理子系统

告警事件处理子系统包括性能汇聚分析引擎、统一事件平台,实现性能指标、告警事件的汇聚处理,支持以短信、Email、声音等方式对故障告警进行预警通知,并为灵动可视化平台提供配置和性能数据支持。统一事件平台可与运维管理流程子系统关联,形成故障的闭环管理[4]。

统一事件分析平台根据事件驱动机制,将采集模块采集到的数据进行标准化处理,根据事件关联规则进行过滤、归并、压缩处理,并进行关联分析,从而发出告警,进入闭环的告警事件处理流程,发出告警信息。通过统一事件分析平台,提升运维故障的分析定位能力,同时也减小告警事件重复报、误报的可能性。

3)资产配置管理子系统

资产配置子系统旨在帮助用户建立统一的IT基础设施台帐,并将资产管理、配置管理、资源监控进行整合形成IT资源管理方案。系统通过一系列配置建模、自动采集、调和、变更控制等手段,保证IT生产环境中配置项的完整性和精准性,为上层服务流程提供数据支撑。

4)运维管理流程子系统

运维流程管理实现了ITIL的标准流程模块,包括事件管理、问题管理、变更管理等;同时针对用户的运维特色,还提供了知识管理、值班管理与巡检管理等特色的服务流程管理功能,提供流程自定义管理等内容[5]。

5)统一展现子系统

集成展现子系统包括了统一访问门户、可视化运行展现、单点登录/权限管理、报表统计与分析、全文检索等综合运维管理模块,目的是保证平台不同角色的运维人员可以通过浏览器访问到跟自身职责对应的功能和视图,是信息的集中呈现窗口和日常工作的平台。

6)系统接口

系统接口主要包括:

(1)与视频系统接口,实现视频摄像机图标调用实时视频画片及历史录像,以及对视频画面动态变化进行提示与展示;

(2)与业务系统接口,通过与业务系统的接口实现广电节目生产进度、状态进行全过程监控;

(3)大屏展示系统接口,支持在告警发出时可将展示画片自动切换到大屏指定区域;

(4)与LDAP认证系统接口,与全网采用ldap统一认证,分散授权,确保系统的用户安全。

3.4 系统部署架构

浙江广电集团目前的IT环境为:以业务主干网为核心,联接集团下属各业务子网,各业务子网相对独立,跨子网的数据访问需要通过主干网的业务系统才能从相应的子网调取。基于集团现有IT资源的规模大约为1 000~1 200个节点,设计系统部署架构如图3所示。

1)网络监控,考虑到网络规模较为适中,因此将在主干网部署1台网络监控服务器进行网络集中监控。

2)系统监控,因系统规模较为庞大,因此计划于各机房的各子网部署1台监控采集服务器(安装系统监控采集探针),实现各区域资源监控。同时在主干网中部署1台系统监控服务器,对各子网的监控探针进行统一管理及整体监控管理[6]。

通过ANSYS Workbench中的Design Exploration模块下的Response Surface进行结构优化。将叶片结构静力学分析结果导入模块,设定输入参数P1叶片厚度为0.4~0.6 mm,P3叶片所受风压范围250~290 Pa,设定输出参数为P2叶片最大应力值,选取默认的Design of Experiment类型。计算生成设计点其厚度、载荷及最大应力的3D曲线关系如图7所示。

图3 系统部署架构

3)在主干网部署业务(工作流)监控服务器,实现全网工作流程监控。

4)在主干网部署运维管理服务器,实现全景业务展现、视频监控集成、资产配置管理及运维管理流程等。运维管理平台将采用双机热备的方式进行运行。

5)部署大屏展示平台,通过主干网将集中监控系统的可视化界面进行投影展示。

3.5 关键点设计

1)多级多维全网工作流监控

业务监控的设计主要围绕节目生产管理全流程,以节目播出目标为监控核心,建立节目文件信息监控、节目监控、工作流监控等多维度动态跟踪监控,即实现对采集的监控信息进行分析,按频道、栏目、文件等不同维度显示节目相关的文件信息状态并实现异态报警,具体设计包含如下:

(1)节目文件信息监控:从ESB总线、节目生产系统以及播出制作等相关系统获取跨系统间文件属性、传输、位置、状态等监控所需信息;并将节目文件信息与节目生产管理流程绑定,实现节目文件统一监控[7]。

(2)工作流视图监控:按实际工作需求预设、调整不同工作流,对工作流内不同阶段进行信息采集,通过对采集到的监控信息进行分析,实现对流程内节目相关文件及属性的动态实时跟踪查询。

(4)节目单视图监控:以串联单为基准,结合流程视图和位置视图,实现对每个节目代码所对应节目文件的生产流程、所处位置及状态信息的全流程实时监控。

(5)业务监控报警:依据节目生产管理流程实现工作流监控业务报警,将节目文件信息、节目信息及节目播出时间等进行绑定,实现节目播出预警;同时将业务涉及的其他系统等故障信息进行绑定,实现故障影响业务报警。

2)灵活的探针采集方式(见图4)

图4 探针部署方式

(1)网络监控采用全网集中监控,监控方式主要采用SNMP协议。

(2)系统监控根据全网IT资源规模,采用分布式,即在各子网部署监控探针进行区域资源监控。对于服务器等资源的监控可以采用代理或非代理模式进行监控。

(3)全网工作流采用集成监控方式进行监控,采用监控系统与全网工作流系统之间约定的Webservice接口[8]。

(4)机房监控则采用SNMP、信号量协议转化机制进行全网集中监控。

(5)视频监控集成,则是基于原有的视频监控系统进行有效集成,调取实时视频与历史视频。

(6)在统一监控系统的综合管理模块建设性能监控指标库(PMDB)进行监控性能存放,并通过灵动可视化平台进行动态展示。

基于以上合理的监控采集架构确保统一监控系统安全可靠,性能良好。

3)监控信息的智能处理和定位分析

监控信息的智能处理与分析定位将通过事件管理平台来完成。事件管理平台具有极强的事件处理能力,能够对海量的监控信息进行智能处理和定位分析。

事件管理平台应提供多种预制的处理规则,对一个事件的处理将经过格式化、过滤、压缩、自动消除、升级、定位与丰富、根源分析、影响分析等环节,以此实现对海量监控信息的智能处理,另外也可通过手动配置规则。

定位分析则是通过事件的相关信息来寻找配置库里的配置项,从而形成告警资源定位,并将定位的资源信息作为补充信息赋予告警,实现告警和业务信息充分关联,满足告警事件定位分析的需求。

4)可定制的运维管理流程

运维管理流程的核心思想是采用国际流行的ITIL规范,并在平台中提供参考流程。系统应支持Web在线的图形化流程自定义功能,能够通过拖拽实现流程自定义,包括流程跳转、流程环节的执行人、流程环节的执行优先程度等;工作流引擎需要提供灵活的触发器设置,可以将流程管理中的各类事件与期望处理的动作自动关联,完成系统中自动协调控制需求;流程与表单的设计能够在不重启系统的情况下生效;系统应支持表单自定义功能,用户可通过Web在线拖拽定义表单,可以灵活地定制表单,完善表达业务流程的界面。

运维管理平台还应提供知识库模块,在支持传统的知识分类、存储、查询等功能之外,融入全文检索能力。知识库的使用贯穿于系统的各个层次,包括采集、分析、运维等层面,包含信息内容、专家技能、标准规范、考核指标等,支持自动将事件处理信息通过分析、归纳和整理后形成对该类事件的解决方案,以便下次出现同类事件时,提供快速支持[9]。

5)领先的业务服务健康度监控

业务服务健康度监控属于业务服务管理(Business Service Management,BSM),或业务影响分析(Business Impact Management,BIM)范畴。无论是BIM或是BSM,都属于监控系统的前沿领域。

业务服务健康度监控的核心是健康度分析模型,而分析模型的基础是计算影响程度的各种算法,因此,构建能正确反映影响关系的算法是业务服务健康度监控关键。

业务服务健康度监控系统包含一整套算法体系,这些算法是在对国外相关理论和产品进行了深入研究的基础上形成的。其基本思路是,基于少数几个基本算法,通过各种方式的组合,形成满足影响计算的各种算法。以此为基础建立健康度分析模型,真实地反映业务受影响的状态,具有简单清晰、针对性强、实用性好的特点。

4 结束语

目前,统一监控系统的第一期建设实施已接近尾声,期间遇到最多的是各子网子系统的数据通信采集问题和基于各系统不同接口的统一推送调度规范问题,不过,通过与各系统开发及运维方的不懈沟通协调,基本完成了系统统一监控调度的能力,达到了最初的设计要求。在接下来的二期建设中,建设方向主要有具有自学习能力的业务流程智能化自动管理,基于3D技术的可视化仿真监控平台,基于自助服务和服务目录的对外服务模式以及基于统一事件平台的事件标准化、过滤/归并/压缩、故障告警丰富、故障处理闭环管理。

统一监控系统的建设将大幅度提高集团对各业务系统流程情况掌握的实时性、有效性,明显提升链路及系统故障排查和修正的效率,更全面掌控IT设备的资产情况,降低人员及管理的成本,有效调动系统的资源,发挥中心统一指挥管理的作用,最终使浙江广播电视集团的制播业务高效、稳定、安全的运行有着重大的意义。本文通过分析浙江广播电视集团的需求情况,结合实际业务特色,对设计和架构统一监控系统给出一些思路,希望能为正在或即将建设统一监控系统的电视媒体同仁提供一定的参考。

[1] 王小辉,刘建粉. 基于3S技术的危运监控预警平台设计[J].计算机与数字工程,2014(4):623-626.

[2] 李建军. 广播电视发射台监控管理系统的构建[J].电视技术,2014,38(24):78-80.

[3] 吴永生,杨旸. 播出信号监测监录系统的设计与应用[J].电视技术,2014,38(8):87-90.

[4] 姜陆海,郑方方,刘旭,等. 信息系统安全统一监管平台设计[J].数字技术与应用,2012(7):161-162.

[5] 姜宁,申红,何英楠,等. 异构播出系统中业务流程统一监控的设计和实现[J].广播与电视技术,2011(5):126-130.

[6] 曾传璜,陈景忠. 基于DPI的流媒体流量监控系统的分析与设计[J].电视技术,2014,38(9):136-139.

[7] 张海辉. 数字微波传输设备网管系统的设计与实现[J].信息通信,2014(3):120-121.

[8] 黄爱国,周云. 一种基于统一监控的数据交换平台的设计与实现[J].微型电脑应用,2012(9):9-11.

[9] 赵文瑞,卢志刚,姜政伟,等. 网络安全综合监控系统的设计与实现[J].核电子学与探测技术,2014(4):419-424.

Design of Monitoring System in Zhejiang Radio and TV Group

HU Wei

(ZhejiangRadioandTVGroup,Hangzhou310005,China)

The existing production network, its subnets’ architecture and related technical requirements for various types monitoring involved of Zhejiang Radio and Television Group are analyzed. The comprehensive, full-service, whole process and consistent monitoring system is designed, for critical network and its subnets. The problems in monitoring data collection and business process scheduling, from various departments, systems, and regions are solved. It demonstrates significance to establish comprehensive monitoring, management, visible dispatch center, with physical, network, and business layers.

monitoring system; technology architecture; design concept

TN948

B

10.16280/j.videoe.2015.18.012

2015-04-09

【本文献信息】胡伟.浙江广电统一监控系统设计[J].电视技术,2015,39(18).

胡 伟(1982— ),工程师,主要从事浙江广播电视集团办公网及制播网的网络及安全工作。

责任编辑:任健男

猜你喜欢
子网机房运维
一种简单子网划分方法及教学案例*
计算机时代(2023年1期)2023-01-30 04:08:22
运维技术研发决策中ITSS运维成熟度模型应用初探
子网划分问题研究及应用
风电运维困局
能源(2018年8期)2018-09-21 07:57:24
杂乱无章的光伏运维 百亿市场如何成长
能源(2017年11期)2017-12-13 08:12:25
子网划分的简易方法
基于ITIL的运维管理创新实践浅析
N通信公司机房节能技改实践
新型有线电视机房UPS系统的配置
大功率发射机房冷却送风改造