Volte彩铃平台自动应急解决方案

2021-01-12 06:25:54
科技创新与应用 2021年3期
关键词:彩铃双机核心网

周 博

(中国电信辽宁省分公司 网管中心,辽宁 沈阳 110168)

1 Volte彩铃业务简介

彩铃平台属于传统的增值业务平台,在2G、3G、4G时代属于双呼业务,不参与话路接续。但是随着Volte时代的到来,Volte彩铃采用的是两个业务嵌套的方式实现的。Parlay48业务负责接续被叫及呼叫双呼彩铃业务,parlay42是双呼彩铃业务负责彩铃业务逻辑处理及媒体交互,Volte彩铃业务流程大体如图1所示。这使得整个彩铃平台的重要性增强了,彩铃平台的稳定运行以及某些功能模块异常时,实现自动应急十分必要。

从运维角度看,应急的目标是短时间内恢复业务功能,减少呼损时间,保障用户的基本通话功能不受影响。本文就彩铃各网元设备故障时的应急方法做简要分析,同时对数据库异常情况下的自动应急进行分析改进,实现自动应急,进行说明。

2 Volte彩铃常见的网元应急情况简要分析

Volte彩铃的组网,外部信令接口为sipproxy设备和核心网s-cscf设备对接,进行sip信令交互,彩铃媒体设备通过核心路由器与各个核心网的媒体设备进行互通,路由可达放音正常。

Volte彩铃平台收到用户的呼叫请求后,会先建立话路接续,同时触发放音流程,放音过程中彩铃平台内部首先进行数据库查询被叫的铃音设置数据,查询完成后SCP通知媒体服务器播放用户设置的铃音,媒体服务器调取铃音文件,播放给核心网媒体设备,用户听到彩铃音。正常情况下,流程可以顺利完成,但是当个别网元出现异常,会对业务造成影响,下面我们针对不同网元异常及应急方法做以分析说明。

2.1 单个SCP异常应急

单台SCP设备宕机属于较为常见的应急场景,一般现网都是N+1的组网方式。当故障发生时,SIPPROXY会将呼叫分发至其它工作正常的SCP,因此仅会影响SIPPROXY已分发至故障设备上的少量呼叫。

SIPPROXY会自动检测与所有SCP的链路,当SIPPROXY检测不到某一个SCP的响应时,不会再把新的呼叫分发给这个设备。所以当单个SCP发生异常时,不需要人工干预,可以自动进入应急流程,这种情况下,用户的彩铃铃音是可以正常播放的,用户基本无感知。

2.2 所有SCP异常应急或者SIPRPOXY异常应急

一个彩铃平台所有SCP设备宕机不是常见的设备问题,当这种故障发生时,会影响核心网已分发至彩铃设备的所有呼叫,新的呼叫不受影响。

SIPPROXY会自动检测与所有SCP的链路,当SIPPROXY发现所有SCP宕机时,停止响应核心网发送的链路检测消息。当核心网检测不到彩铃网元时,停止向彩铃发送新的呼叫,后续呼叫由核心网直接接续,不经过彩铃平台。这种情况下,主叫用户听不到被叫彩铃,但是可以听到核心网提供正常的普通回铃音,对用户正常通话没有影响。

同样,对于彩铃平台SIPPROXY全部故障发生时,Sipproxy不在和SCSCF进行信令交互,这种情况下会影响核心网已分发至彩铃平台的呼叫。当核心网检测不到彩铃网元,停止向彩铃发送新的呼叫,后续呼叫由核心网直接接续,不经过彩铃网元,对用户正常通话没有影响。对于以上两种应急情况,经过现网验证测试,可以实现自动应急,满足用户正常通话使用。

图1

图2

图3

图4

2.3 数据库异常应急

数据库异常是较为常见的应急场景,当故障发生时,会影响所有该设备上的用户的使用,导致SCP无法查询到用户铃音设置情况。由于数据库无法及时响应SCP发起的SDF查询请求,SCP无法通知媒体服务器播放具体的铃音,因此也就出现用户打电话给彩铃用户,听不到被叫彩铃音而且也听不到普通的嘟嘟回铃音,对用户的感知非常不好。出现这种故障情况,平台最开始实现的应急方法是需要人为操作-手动启动应急流程。

由Volte彩铃信令流程图分析,采用parlay48引导业务提供紧急流程,紧急流程情况下不发送invite消息触发双呼彩铃,只作简单的呼叫信令透传功能。这个时候不携带p-early-media头部或者携带p-early-media:inactive。出现异常情况为了保障呼叫正常,需要临时跳过彩铃放音流程时。

具体操作方法,需要手工登录现网的所有SCP通过执行命令启用紧急流程(注:此处执行命令仅做示范说明,现网应急执行命令需结合现网设备确定):

ostool send 1 12345 servicekey启用应急

ostool send 2 12346 servicekey取消应急

综上,从我们整理了几种Volte彩铃常见网元故障应急流程可知,对于单个SCP故障、全部SCP故障,或者SIPPROXY双机故障等情况,系统都能实现自动应急,对用户正常通话基本没有影响。但是对于DB数据库故障的时候,按照应急方案,从网管系统检测到数据库异常,网管系统发送告警信息,维护人员接收告警信息,到维护人员登录系统,通过手工干预,人为操作实现应急,是需要一定时间的,如果是业务忙时出现数据库异常,对用户的影响都会比较大,有需要改进的空间。

3 Volte彩铃数据库异常自动应急实现过程

3.1 数据库异常应急方案一,引入第三方网管厂家进行监控,实现快速应急

由上述手工应急方法分析可知,如果SCP查询DB正常,系统可以正常放音,但是如果SCP查询DB异常,则无法返回用户的铃音设置情况,这时SCP无法通知媒体服务器播放具体的铃音,导致的现象就是主叫拨打被叫后,被叫振铃,但是主叫听不到任何铃音(静音状态),如果被叫选择接听,话路可以正常建立。出现这种情况,给主叫的感知非常不好,可能以为电话没有拨通。

对于数据库异常时的手动应急方案,从应急及操作流程分析对业务是有一定影响的,为了解决这个问题,我们先从缩短故障恢复时间上,考虑引入第三方网管厂家进行数据库双机状态监控,如果数据库双机异常(通过主备切换无法恢复数据库业务),通过第三方网管设备进行监控发现异常后,通过授权网管账号登录SCP业务处理机,自动执行脚本,来实现自动“一键应急”。

图5

现网的组网及具体实施方法:

◆一套SUSE 11 SP3双机+新支点双机+SYBASE15.03作为数据库主机

◆4台SUSE11 SP3单机作为SCP业务处理机

应急描述(数据库异常)

◆ 设备信息:数据库虚拟机双机(双机集群在一台设备上执行命令即可)

◆ 系统信息:SUSE 11 SP3

◆ 状态监控命令:cli命令行界面

◆ 输出结果:正常状态如图5所示

◆ 判断条件:

如果图5中所示的smp133-1和smp133-2节点的状态,其中有一个必须是running状态为正常。当数据库双机异常时,主备节点的状态都是stop或者都是unknown,没有running状态,可以启动一键应急。

◆ 启用应急业务:

(1)网管程序登录SCP1-SCP4共4台主机;

(2)使用业务账户登录并启动VOLTE彩铃业务应急:ostool send 1 12345 servicekey启用应急

(3)用户听到正常嘟嘟回铃音,话路接续正常,应急完毕。

方案总结,通过第三方网管程序监控、实施快速应急,在数据库双机异常情况下可以提纲应急响应速度,减少对现网业务的影响。不过这种应急方案也存在一定的弊端,比如需要依赖第三方网管厂家配合,需要通过检测数据库双机运行状态作为数据库运行状态的判断依据也不是很准确,双机正常倒换过程中,也会存在1-2分钟无running正常状态的标识,可能误触发应急流程,这时还需要人为手工取消应急。因此该种应急方案不是最佳方案,还需要继续优化。

3.2 数据库异常应急方案二,数据库异常SCP自动应急

我们继续深入分析Volte彩铃信令流程,当彩铃数据库异常的时候,SCP发起的SDF查询无法查询到结果,SCP一直处于等待状态,无法通知媒体服务器正常播放铃音,这时候用户听不到铃音,感知不好。那么我们是否可以考虑在SCP处理放音查询的时候增加一个查询定时器,如果SCP查询数据库超时达到设定时间,比如1-2秒钟,SCP放弃等待,直接进入放音流程,可以播放一首默认的彩铃铃音,这样不会对主叫通话感知造成很大影响,也最大限度地保障通话的正常进行。这样通过SCP的放音业务逻辑来检测DB是否正常实现了自动应急,无论是数据库双机异常,还是数据库查询异常,都可以实现自动应急,这种方案大大优于3.1节的第三方网元的应急方案。

经过协调厂家,最终的实施方案如下:

彩铃Volte局点当数据库出席异常时,可以在无需人工干预的情况下实现播放保护音的应急流程,不影响放音和通话接续。

在SCP的放音业务流程parlay42中增加SDF数据库查询超时判定条件,设定超时定时器延时时长2s。

在SCP的放音业务流程parlay42中增加播放应急铃音功能,比如准备yingji.wav。

通过修改Volte的parlay42放音业务的配置参数来实现数据库异常时自动应急。

上述配置修改完成后,点击加载,使配置生效。生效后当数据库异常时候,会自动播放设置的保护铃音,不会产生其他影响。

现网经过配置后,进行数据库异常应急业务测试。手工停掉数据库双机,拨打测试,SCP查询数据库超时,定时器生效,自动播放预先配置好的yingji.wav的铃音内容,主叫听到彩铃音,被叫接通,整个流程都是在没有数据库参与下实现的。当数据库恢复正常之后,SCP查询数据库返回正常结果后,可以播放用户设定的铃音,无需对SCP的配置进行调整修改。经过这样实际测试验证1-2秒钟的延时放音,用户基本无感知,达到了自动应急的预期效果。

通过上面各个网元自动应急流程分析及业务实际测试后,Volte彩铃的稳定性得到了很大提升,除了正常的双机保护、N+1保护,同时是也实现了双机异常时的业务自动保护,而且这些自动应急功能的实现,对后续的网络维护提供了很大便利,比如要实现某些新功能需要停掉SCP和数据库连接,手工升级数据库的时候,由于SCP自动应急功能的实现,就不会出现数据库升级期间无法放音的情况,提高了彩铃不间断工作运行能力。

4 结束语

通过对Volte彩铃业务流程的深入分析,采取合理的应急方案,可以提升系统应急能力。随着5G时代的到来,运维工作也需要不断向精细化发展,提高系统运行稳定性,提高系统不间断运行能力,是我们每个运维人需要去思考,去努力的。

猜你喜欢
彩铃双机核心网
NEWS in brief
彩铃内置推广链接方案研究
GSM-R核心网升级改造方案
双机、双桨轴系下水前的安装工艺
双机牵引ZDJ9道岔不同步问题的处理
5G移动通信核心网关键技术
通信核心网技术的应用探讨
电子测试(2018年1期)2018-04-18 11:53:49
Loader轴在双机桁架机械手上的应用
VoLTE时代下彩铃平台改造研究
互联网天地(2016年1期)2016-05-04 04:03:18
VoLTE核心网建设方案