王 伟
(河北交通投资集团公司,河北 石家庄 050091)
高速公路作为我国重要的交通枢纽,对经济的发展起到了促进的作用。截止到2015年,中国高速公路通车总里程达12万km,管理和监控难度又上了一个新的台阶。随着我国高速公路不断发展,高速公路收费系统逐步实现现代化建设,高速公路的收费效率得到明显的提高。同时,各个系统也产生了大量的数据。想要在高速公路交通安全应急、出行服务、市场监督、决策支持等方面进行重点建设,就需要对高速公路中的大数据进行深入的分析,以便服务于决策者,提升高速公路的运营效率和管理水平。
高速公路大数据有4个主要特点,即规模大、变化多样、价值密度低和高速性[1]。
a)数据规模 以河北省高速公路为例,车辆经过收费站的时候,监控系统都要拍照,每张图片大小在500 k左右,每年就会产生上百T的数据,加上各应用系统、收费系统和视频监控累计的数据达到了PB级以上,并仍然持续增长中。
b)数据多样 高速公路的数据种类繁多。有各应用系统产生的结构化数据,收费站出入口抓拍的非结构化数据等。此外,还有地质灾害、服务区数量等各类数据。
c)数据价值密度 数据量大,但是有用信息较少。监控系统24 h监控会产生大量的数据,但是有用的数据只有很少的一段时间,通过对异常数据的监测可以分析出路网的异常状况。
d)高速性 收费站产生的数据要快速并及时到达结算中心。发生道路突发事件的时候,系统要可以及时获取信息并快速进行有效分析。
随着大数据时代的到来,数据分析的应用已经在高速公路数据的分析中占据了举足轻重的地位,例如在运营管理系统、联网收费分析业务、识别偷逃通行费和冒充绿通行为等方面。
通过分析收费数据,对经常计重逃费、绿通车辆违规加大检查力度;也通过车牌抓拍系统,对出入口车牌不一致、经常性超时车辆,查找换卡车辆信息,实现增收。同时也可以通过分析周边区域的经济形势、人口状况、产业结构,年均车流量变化进行流量预测与收入分析[2]。
随着我国高速公路的快速发展,联网收费系统存储了海量的收费数据,使用数据挖掘这一新兴技术,能够有效地从大量的历史或在线数据中挖掘出隐含的内在关联、模式或趋势。
现有数据挖掘技术的主要研究单位是和交通行业关系比较紧密的高校和研究所,而现有的研究成果主要是趋向于对整体架构和一些整体方法的设计。很少有研究人员和单位能够做到充分利用交通行业的特点,对收费数据中多个主题进行深入广泛研究,同时又可以挖掘出隐含在高速公路收费数据中有对决策支持的有价值数据。总的来说,虽然高速公路收费系统在不断完善,并且已经积累了大量的信息数据,但是将这些资源充分利用的能力还是有待提高。
高速公路通行费的收入预测是高速公路路网建设的重要部分,对项目的可行性研究等方面甚至对国家的交通运输都有着重要的意义。
80年代以后,随着计算机技术的快速发展,新增了许多新方法和软件进行交通规划,其中较普遍的有遗传算法、数据挖掘、支持向量机、神经网络、灰色理论等技术[3]。
我国高速公路起步较晚,发展速度相对缓慢。交通量的预测主要依据《公路建设项目交通量预测试行办法》。提出了两类预测方法,一类是包含类比法、平均增长率法、指数曲线等预测模型的定性预测方法;另一类是包含一元回归曲线、多元回归曲线、时间序列预测法、回归分析预测法、趋势曲线法、灰色模型法等预测型的定性预测方法。
随着高速公路事业的飞速发展,高速公路的收费面临许多问题,特别是计重收费实施后,司机逃费方式层出不穷,通行费存在流失。在新的收费环境下,有效地预测未来收费金额及金额走向,有助于管理人员更好地对高速公路车流量与收费进行分析[4]。
我们以某一条高速公路的收费站为例,分析客车、货车、绿通车车流的走向以及收费金额的变化。下面以客车为例进行分析。
图1 客车月平均车流折线图
由图1可以看出,客车一型的流量远高于其他几种车型,虽然车型各不相同,车流量也各不相同,但是每种车型的客车月平均车流量均不断上下波动,很难直观地找到变化规律。
图2 客车月平均收费额
将所有车型的收费收据进行统计做出客车收费合计折线图如图2,由数据走向我们可以知道不同月份客车的收费金额存在较大差异,如何根据各类型车流量的变化去分析总收费金额的变化是本文接下来的研究重点。
回归分析方法在预测中又称为因素分析法[5],它是找出一个变量与某些视为变化原因的变量之间的数量关系,即建立模型。然后通过某种方法给出未来一段时间的外生变量的数值,代入模型,计算出变量的未来数值即预测值。
对于多元回归预测模型还需要进行R检验,F检验和t检验。
R说明一组变量X1~Xn与Y的相关程度,R值越接近1,说明回归效果越好。复相关系数R的计算公式为:
F检验和t检验,分别给定显著水平α,判断是否存在显著影响,存在显性影响才能进行下一步预测。
根据该高速公路收费站点的2014年6月份到2016年2月份的数据,使用差分法对不同类型的客车流进行数据处理,直到数据成为平稳序列,以客车一型数据为例,进行差分处理等一系列建模步骤,最终确定参数。以ARIMA(7,7)模型进行时间序列预测,得到收费站在2016年3月份的客车一型车流量数据,并与真实数据进行对比,做出相对误差曲线图如图3。
图3 客车一型预测及残差分析
由图3可以看出,选取的时间序列模型基本达到了预测效果,图中有个别原始数据变化趋势异常,导致个别数据预测存在一定误差。
使用相同方法,对其他几种类型的客车流量数据进行差分处理得到合适的预测模型参数,进行预测得到2016年3月份的客车类型的流量数据。
我们使用已有客车车流以及客车合计收费金额的历史数据进行多元回归分析,得到了回归方程,代入预测得到的数据进行计算得到预测的客车合计收费金额,得到了与实际数据的相对误差图,见图4。
图4 相对误差图
最终,我们计算得到了2016年3月份的客车合计收费金额,并使用相同的方法计算货车合计收费金额以及绿通合计减免金额,与实际数据进行对比,得到表1。
表1 合计金额对比
在高速公路收费站的收费数据预测中,由于车辆流的不确定性和高度非线性,使用单一的预测方法,随机干扰过大,不能得到很好的预测效果。本文使用ARIMA模型和多元回归分析模型组合进行预测,减少了随机干扰带来的误差,对未来的收费金额进行了较为准确的预测,为高速公路管理单位的分析和管理提供了数据支持。如何选择更加合适的模型和组合,解决随机干扰,使得预测更加准确,是值得进一步研究的课题。