一种移动互联网用户行为模式评估方法及模型研究

2014-04-29 00:00:00罗金花
中国新通信 2014年21期

【摘要】 提出了一种用户行为模式评估模型,此模型建立反向传播(BP)神经网络系统,对用户行为历史进行学习、训练、校验,最终得到稳定的神经网络形态。经过多重匹配和多次逼近后,成熟的神经网络系统模型可以实现对用户在时域与地域细分下的数据业务密度进行评估,在实际网络系统用户使用场景中,对用户分类和运营商策略给予基础理论参考和方法指引。

【关键词】 用户行为模式 神经网络 移动互联网

Abstract:This paper presents an evaluation model of user behavior , and establish the BP neuralnetwork system, by learning, training, and checking user behavior history, we get the stable form of the neural network. After multiple matching and approximation, the mature neural network system model can achieve the evaluation of data traffic density in time and geographical subdivision, in the actual network system, it provides basic theory reference and guidance strategy for user classification and operator strategies.

Keywords: user behavior mode, neural network, mobile Internet

一、引言

移动互联网的大规模普及在3G/4G网络技术不断扩大规模、加速投入商用的推动下,其数据业务量已经发生了爆炸式增长。在我国,随着四网协同[1]的快速发展,未来移动数据业务量在以下几个因素的作用下还将继续增长:1、智能手机、平板电脑、上网本以及无线上网卡等数据业务消费终端保有量继续猛增;2、社交应用、电子商务和游戏等互联网业务迅速从固定网络向移动网络转化;3、新兴物联网设备不断引发的新的移动数据需求。[2]

移动数据量的猛增,既是移动运营商的发展机遇,同时也是移动网络分析能力和用户体验改进能力的重要挑战。相对于国外移动市场的灵活多样,我国移动市场目前仍延续传统,根据时长或者流量大小提供若干分类给用户选择的粗放管理模式,已不适用于用户行为模式多样化的特点,影响客户感知。

然而作为目前全世界体量最大的移动互联网市场,中国市场具有人口密度超高,数据量需求极大的特点,此时直接照搬国外的经验,未必适合我国移动互联网运营的实际。追根溯源,分析国内用户的业务使用习惯,归纳并构建中国大陆移动用户行为模型,并以此为基础研究运营管理策略,才是更加合理和科学的选择。

本文的提出,就是基于这样的考虑,以数学和统计的方式,进行用户行为记录的大数据分析,然后以用户在时域和空间地域的双重维度上构建崭新的用户行为模型和行为模式分类尝试,为一定规模用户的移动互联网数据业务使用提供有意义的评估。

二、用户行为模型设计

2.1模型的提出

现有的用户行为模式,一般将用户的行为定义为其迁徙习惯,在此种定义下,用户的行为模式可以简单地划分为如下的3类:

(1)准固定用户:小范围内活动的迁徙用户;(2)规律迁徙用户:大范围内有固定线路的迁徙用户;(3)无规律迁徙用户:大范围内没有规律线路的迁徙用户。

在实际运营管理操作中,是根据移动终端设备的位置告知消息以及通话、网络活动中上传的自身所在基站位置信息得到的。

如果引入时间上的参考,即将时域作为考察用户行为的维度,那么也可以将用户的行为模式简单的分成如下的3类:

(1)固定用户,不存在明显的速度表现。(2)低速用户,在大范围迁徙时,经历了较长的时间间隔。(3)高速用户,呈现短时间内的地域跨越。

这些分类的方法,对于语音呼叫的优化设定是有意义的,因为在全局呼叫等场景下精确的位置估计可以节约系统控制资源消耗。但其对移动互联网的数据业务优化而言,此分类未能体现数据流量的管理性。用户在运动过程中的数据流量消耗,一方面给运营商带来业务承载压力;另一方面,漫游和跨境的数据流量消费又涉及到网络整合的问题,而这些都没有在前述的分类中给予体现。

为了能够将用户在移动互联网中移动并产生数据流量的行为进行数学特点上的分析,我们需要定义符合移动互联网移动数据业务消费特点的资源定义。

定义用户的移动数据业务流量为L,单位是比特,这体现的是用户对于核心交换系统的资源使用累积量。

定义用户的移动距离为D,无单位,取用户迁徙经过的基站蜂窝区数量,这体现的是用户在一段考察时间内的系统切换资源占用情况,速度越快的用户,占用的移动系统切换资源越多。

定义用户的移动数据业务发生时隙T,单位为秒,指一次完整的移动数据业务占用的时间。

定义用户的移动互联网数据业务密度为C,C的定义如下:

其中k为单个基站应对迁徙用户的系统资源消耗系数,单位为比特。本文出于建模需要,不考虑基站蜂窝的大小差异。每个用户,在消费C时,呈现出的,是一组C的序列.显然,序列是不可预测的随机过程。

本文采用作为神经网络最典型和普遍应用的反向传播(BP)神经网络,可用于函数逼近、模式识别、分类和数据压缩。根据输入数据和相应的输出数据将网络逼近一个函数,在评估中能发挥很大作用。以整理出一套序列的评估方法。

2.2BP神经网络原理

本实验的神经网络系统部分,参考了BP神经网络的原理思想。BP神经网络结构由输入层,隐含层,和输出层构成,如图1所示。输入层和输出层都只有一层,隐含层的层数不限。各层的神经元数可自由设置,两层之间通过权值矩阵和阈值向量关联,同一层级的神经元之间无连接。[3]

四、实验结果分析

评估输出的业务密度与实际的业务密度比较如下图3所示。

从本文进行的多次实验可得出,除部分突发性较强的业务评估有一定差距外,常规的业务密度评估是有效的。进一步的,通过重复实验进行对比考察,可以发现:

(1)本算法的神经网络系统对常规数据的评估较为准确;

(2)本算法的神经网络系统对突发数据,相较于常规数据,存在较大的误差。

常规数据所呈现的表现形态是高斯白噪声型的概率密度分布,神经网络系统对于这样的收敛分布也就有着收敛的响应输出。

但是突发数据的概率密度分布具有不收敛的长尾特性,多次迭代并多次反馈的神经网络系统算法容易陷入局部的数据误差中。

数据流量具有自相似,长相关的特点,短时流量值呈现重尾分布特点。突发的数据包序列可能会出现偶发的超长长度,在实际网络中都会造成严重的性能影响,往往需要采取限值缓存长度的方式,通过直接丢弃保证整个网络的吞吐效率和时延性能。

本文所建立的神经网络系统在数学上进行仿真,所以没有设置报文丢弃策略,也就是数学上的阈值拦截设计,导致最大绝对相对误差和平均绝对相对误差较大,而这样的数据又是不能忽略的。

所以突发数据虽然极大的劣化了实验结论,却真实反映了实际应用场景中的基本情况。

通过实验,本文所提到的分析方法和评估算法对于自相似,长相关的数据流量具有一定的评估作用,且由于其为非线性评估,更符合数据流量的特点,相对于线性评估有很大的优势。

本文所利用的BP神经网络模型也被证明是一个有效的策略处理平台。

五、总结与展望

本文针对用户行为模式的特点,构建了用户移动互联网资源消费评估模型,可实现用户时域和空间地域维度下的数据业务密度评估,对用户分类和用户管理策略提供了理论依据。下一步,将研究异常数据流量特点及突发情况下数据业务资源的合理分配。参 考 文 献

[1] http://baike.baidu.com/view/6035814.htm?fr=aladdin

[2] http://labs.chinamobile.com/mblog/57530/150740

[3] Simon Haykin.神经网络原理.北京:机械工业出版社,2004

[4] A BP neural network based information fusion method for urban traffic speed estimation. Enigneering Sciences, 2010

[5]闻新,周露,李翔等. MATLAB 神经网络仿真与应用. (第一版). 北京: 科学出版社, 2003. 251~284

[6]Nielson HR. Theory of the backpropagation neural networks. IEEE I-JCNN, 1989, 1:593~606