方艾芬 蔡岗 缪新顿
1.公安部交通管理科学研究所 2.道路交通安全公安部重点实验室
为进一步推进公路交通安全管理科技建设,提升动态化、信息化条件下公路交通安全管控水平,2012年10月以来,公安部交通管理局组织研发推广了全国机动车缉查布控系统联网应用。通过整合共享各地车辆智能监测记录系统(以下简称卡口系统)信息资源,建立横向联网、纵向贯通的全国机动车缉查布控系统,实现大范围车辆缉查布控和预警拦截、车辆轨迹和交通流量分析研判、重点车辆管控、交通违法行为甄别查处、侦破涉车案件等应用。截止目前,全国31个省(区、市)已完成缉查布控系统联网工作,接入卡口14000多个,汇聚机动车通行数据70多亿条,在侦破肇事逃逸案件、查处涉车违法行为以及治安防控、反恐维稳等方面开始发挥重要作用。
随着联网单位和接入卡口的不断增加,当前各省、市部署的机动车缉查布控系统积聚了海量的过车数据等信息,开始面临以下挑战:
(1)数据越来越海量。卡口系统7×24小时不断上传过车数据和图片,以一个中等规模省市为例,每地市每日采集过车信息150万条,每年采集过车信息5亿条,全省每年将汇聚100亿条过车信息,数据从GB级发展到TB级、PB级。如何将如此海量的数据用好、管好成为一大难题。
(2)数据应用越来越复杂。各地充分利用海量数据资源,组织研发各类分析软件,研判辖区道路通行流量、大客车、危化品车等重点车辆通行情况,排查套牌假牌、逾期报废仍上路行驶等嫌疑车辆。数据应用的需求从分类、聚类到复杂多系统碰撞及各种分析、研判、评估。如此复杂的应用对运算方式提出了极高的要求,传统系统架构很难满足需求。
(3)查询响应速度越来越慢。目前机动车缉查布控核心系统采用ORACLE关系型数据库,关系型数据库在数据量增大的情况下,执行检索(尤其是模糊检索、关联查询)的速度会发生几何级下降(表1)。由于传统关系型数据库缺乏分布式计算能力,所以面向大数据时只能越来越慢,即便经过优化也还是不能满足大数据应用的要求,造成严重的性能瓶颈。
为应对以上挑战,笔者单位对大数据技术在机动车缉查布控系统中的应用进行了深入研究,预研了一套基于大数据技术的机动车缉查布控平台,并通过了实际应用验证。本文在此重点介绍平台的构建技术和应用案例。
大数据是指无法在一定时间内用传统数据库软件工具对其内容进行抓取、管理和处理的数据集合。业界用4个V概括大数据的基本特征,即volume(量大)、variety(多样化)、value(价值密度低)和velocity(处理要求快)[1]。量大是指数据规模至少在TB级;多样化,一方面指数据有不同的来源,另一方面指数据类型有结构化、半结构化和非结构化等多种形式;价值密度低指这些数据的单一来源或单一维度并不能带来有效的价值,只有形成一定规模并关联起来,才能体现大的价值;处理要求快主要指数据分析的实时性要求很高。机动车缉查布控系统采集的流式过车数据完全符合大数据的基本特征。
大数据技术被设计用于在成本可承受的条件下,通过非常快速的采集、发现和分析,从大量化、多类别的数据中提取价值,是IT领域新一代的技术与架构。其中,以Hadoop为代表的分布式计算平台正在被大量互联网公司、企业采用,实现对海量数据的运行和管理。
Hadoop分布式计算框架主要包含以下关键技术:
(1)HDFS 分布式文件系统。它可以构建从几台到几千台常规服务器组成的集群,并提供高聚合输入输出的文件读写访问。
(2)MapReduce并行计算组件。用于大规模数据集(大于1TB)的并行运算(分布式计算),由Map(映射)和Reduce(化简)两部分组成,为数据的高并发读写提供了全新的、水平可扩展的(Scale out)、经济的技术架构。
(3)HBase列存储技术。它是一个建立在HDFS之上提供高可靠性、高性能、列存储、可伸缩、实时读写的分布式数据库系统,主要用来存储非结构化和半结构化的松散数据。HBase提供的列存储NoSQL技术,能提供比传统行存储的RDBMS成百上千倍的快速检索效率。
(4)Hive数据仓库技术。它提供了类似于传统SQL的编程模型,为海量机动车轨迹碰撞和分析过程提供了友善的编程模型和方法,同时能利用Map/Reduce的高并发性特性。
针对传统关系型数据库难以支撑海量机动车通行轨迹信息的存贮、处理、分析等现状,基于X86架构的通用服务器,构建新型架构的机动车缉查布控系统平台,具备分布式海量存储能力、高性能并发读写能力以及分布式计算及分析挖掘能力,同时要求具备良好的扩展性,平台按需扩容后,存储、查询和分析性能需要保证近线性变化,系统总吞吐能力近线性增加。
平台总体架构分为数据接入层、数据存储层、大数据引擎层、业务应用层等四个层次,主要内容包括车辆通行海量数据接入、存贮、大数据分析引擎和缉查布控业务应用等。
1.信息接入层
实时接入各类车辆通行信息数据资源信息,通过数据采集、数据转换、结构重组等过程后,统一上传到数据存储层。
2.数据存储层
采用ORACLE数据库和Hadoop /HBase分布式存储数据库相结合的方式。对于数据量可控、访问频繁的数据资源,仍然采用ORACLE关系数据库进行管理,充分发挥关系数据库在一定数据量范围内高效、访问便捷的优势;对于数据量爆发性增长、且内部联系紧密的数据资源,采用HDFS/HBASE存储与管理;对于需实时提取访问的采用内存数据库从HBASE和ORACLE数据库中通过ETL工具进行准实时换入和换出。海量车辆通行数据和图片采用大数据技术进行存贮,并提供面向大数据引擎层和业务应用层的数据访问服务。其它布、撤控等业务处理信息仍采用ORALCE关系型数据库进行存贮。
3.大数据引擎层
采用Map/Reduce技术,实现海量数据分布式计算分析,并通过业务处理接口实现和业务应用层的数据交换;通过基于JMS的消息处理引擎,实现对黑名单和重点车辆的实时分析和处理。
4.业务应用层
面向终端用户提供信息交互的应用层面。通过Web页面展示的方式实现机动车缉查布控系统的智能化、综合性应用。
平台主要提供卡口实时监控、车辆缉查布控、预警签收处置、信息分析研判等功能。其中分析研判功能是基于数据档案化、应用搜索化的理念,在大数据环境下,实现基于机动车过车信息的不同主体数据挖掘分析。主要分析研判功能包括:
1.过车轨迹查询分析
精确查询:通过号牌种类、号牌号码、时间等条件查询机动车通行数据;模糊查询:通过模糊的号牌号码、卡口、时间、车身颜色等条件查询机动车通行数据。也可以通过模糊条件查询出机动车基本数据,进而关联查询机动车轨迹数据。
2.数据碰撞分析
跨地区的海量机动车过车数据碰撞,分析出假套牌车辆;重点车辆、报废车辆与过车数据的分析碰撞,发现未按规定时间、路线、已报废仍在路面行驶的车辆信息。
3.车辆出入统计分析
挖掘统计一段时间内在某个区域内(可以设定中心城区、地市区域、省市区域、高速公路网等区域)、进出区域、主要干道的经常行驶车辆、“候鸟”车辆、过路车辆的数量以及按车辆类型、车牌发证地的分类统计。
4.重点车辆分析
挖掘统计一定地域范围内客运、危险品运输等重点车辆通行数量,研判发现通行规律。对在路段行驶时间异常的车辆、首次在本路段行驶、逾期报废、未年检仍在道路行驶的重点车辆、2~5点仍在道路行驶的客运车辆等进行预警提示。
5.嫌疑车辆分析
挖掘在不同地点多次同行的车辆。根据确认的车辆,寻找同行车。挖掘不同时间段通过一个或多个卡口的车辆筛选分析。分析判断部分车辆经常白天某个时间点进城后不出城或是晚上某个时间点进城或出城,筛选有规律性车辆。
6.道路通行信息服务
基于卡口车辆通行数据,实时对外发布公路道路拥堵、车流量、平均速度等通行状况。
7.图像二次甄别
通过对机动车过车图像的二次识别,识别车辆品牌等特征信息,比对车辆登记信息,发现套牌假牌车辆,并进行实时预警。
在海量数据处理方面,主要应用以下三方面的关键技术:
1.HDFS分布式文件系统构建
在数据接入层,为保障文件写入效率,采用基础的HDFS文件管理接口,实现对车辆过车全景图片和特征图片的存储;在业务应用层,采用HDFS中的FTP接口,实现缉查布控系统的统一图片访问。
2.HBASE分布式数据库构建
HBASE表结构和传统关系型数据库表差别较大,它由主键(Rowkey)、版本(Timestamp)、列族(Column Family)三部分组成[2],HBASE不存在除主键和版本列之外的索引,仅能通过主键和主键及时间戳的range来检索数据。车辆通行信息库中,将卡口编号、方向、号牌号码等关键信息纳入主键,再叠加12位序列号生成全国唯一轨迹信息;版本信息采用过车时间戳代替,可提高针对时间段的查询分析速度;列族信息中存储号牌颜色、车辆品牌、车辆型号等相关信息。
3.Map/Reduce分布式计算
通过Map/Reduce分布式计算引擎,将业务应用层提出假套牌分析、伴随车辆分析等具体任务分解至各HBASE节点服务器进行并行计算,进而提高数据分析的效率。
笔者单位采用Hadoop2.2、Hbase0.94在实验室搭建机动车缉查布控平台大数据运行环境,同时导入了20多亿条实际通行车辆记录,开展了车牌检索、套牌车分析、重点车辆逾期未报废、未年检仍上路行驶,凌晨2~5点仍上路行驶等试验测试,测试结果表明,大数据技术的引入,能很好的解决ORACLE无法实现的功能。
平台基础硬件环境如表2所示;各种车牌检索响应耗时如表3所示。
下面对嫌疑套牌车分析过程进行简要说明。
(1)建立套牌车分析算法模型。对比同一车牌经临两个卡口地理距离和时间差,基于同一车辆不可能在短时间内出现在两地的原理,判别嫌疑套牌车辆,其中,两卡口之间的地理距离通过卡口备案的经纬度信息进行计算。
(2)建立基于HBASE的过车信息库。过车信息表主键设计为号牌种类+号牌号码+序列值,版本信息设计为过车时间戳。将各地缉查布控系统实际运行中采集的20多亿条过车数据写入HBASE数据库,合计花费11.5小时,平均每秒4.8万条。
(3)套牌车分析测试。开发Map/Reduce分布式计算任务进行套牌车分析,筛选出套牌嫌疑车4358辆,花费11分钟。
目前各地已汇聚了海量的机动车通行信息,由于传统关系型数据库难以支撑当前海量信息的存贮、处理、分析等应用需求,严重制约了机动车缉查布控系统的进一步深化应用。大数据应用平台以其高性能、低成本、高可靠性、高可伸缩性等特性决定了未来在机动车缉查布控领域必能有很大的发展和应用,本文提出的基于大数据的机动车缉查布控平台构建技术有重要的现实意义。
[1]王俊修,谭林.智能仓储物联网云平台设计与研究[J].警察技术, 2013 (2):16-18.
[2]张榆,马友忠,孟小峰.一种基于HBase的高效空间关键字查询策略[J].小型微型计算机系统,2012,33(10):2141-2146.