基于K-means算法的突发事件地理信息空间化研究

2018-08-03 02:57:10王继周马维军
测绘通报 2018年7期
关键词:空间信息突发事件聚类

杨 波,王继周,毛 曦,马维军

(1. 辽宁工程技术大学,辽宁 阜新 123000; 2. 中国测绘科学研究院,北京 100830)

突发事件,是指突然发生,造成或者可能造成严重社会危害,需要采取应急处置措施予以应对的自然灾害、事故灾难、公共卫生事件和社会安全事件[1-3]。伴随着国家经济和人口的不断增长,各地的突发事件也与日俱增。像某地发生的跳楼事件、聚众打架斗殴事件、野外求救等类似恶性事件屡见不鲜,这类应急事件伴随着发展周期短、影响恶劣以及即时性等特点,其结果严重影响国家的人民安全和社会秩序。面对这类灾害性事件,应急预案处理过程中并没有相关的基础地理信息的空间化数据,而且由于报案人员语言描述的地理属性信息并不规范。这给应急处置带来了巨大的工作压力,同时也增加了应急救援的难度和困难。本文针对以上问题提出了面向突发事件的地理信息空间化方法,其中基于应急灾害事件的地名地址标准化方法请参考相关文献[4—5],本文主要研究那些在基础地理信息库中没有空间化信息的突发事件的地理信息空间化。

地理信息的空间化方法主要包括应急地理信息匹配技术和应急地理格网的空间化[6-9]。基于完整地址识别的方法是将突发事件对应的地址数据通过调用地图服务来获取空间化信息,由于数据处理简单,也比较容易和其他统计数据结合,应用比较广泛,但是单纯的获取空间化信息却忽略了地理实体之间的空间关系[10];基于格网的空间化方式虽然更加注重地理实体的空间关系,是现在地理信息科学研究的方向之一,但是其中涉及多个领域的知识,推理过程复杂,现在仍处于探索阶段[11-12]。现有的地理信息空间化技术为常见的地名命名实体识别技术提供了扎实的基础。但是,面对众源应急事件,人们既需要分析地理信息的空间关系又需要及时、快速地获取空间信息,尤其是获取那些无法采用常用方法获取的空间化信息。这类研究普遍有如下缺点:

(1) 只是获取常见地址的空间信息,没有获取不常见地址的空间信息。

(2) 只是单一的分析空间关系,没有结合地名与空间信息来综合分析空间关系。

(3) 对获取的空间化信息,没有构建基于空间信息获取的精度评估方法。

因此,本文通过分析科学的应急地理信息空间化方法,提出了基于K-means算法的众源应急地理信息空间化研究。主要是通过应急地理属性和空间信息来分析突发事件的空间关系[13],包括众源应急地理信息在空间中的拓扑关系、方位关系及度量关系。研究目标是解决通用地理信息空间化方法的不足,更重要的是为了解决应急事件的精确定位的问题。当相关应急灾害发生时,该研究能够为决策者快速准确地获取到应急灾害发生的场所,提高决策者的决策可行性与科学性,从而减少国家的人员与财产损失。

1 相关工作

为了实现上述研究目标,本文提出了基于众源应急事件的地理信息空间化方法,其总体思路如图1所示。

该技术框架有3个模块:一是坐标拟合模块,主要是将那些无法使用常用工具及方法来空间化的应急地理信息使用基于K-means算法进行空间坐标的拟合,从而补充普通方法空间化的不足;二是空间化模块主要是将原有的应急地理信息转化为应急空间信息,同时结合数据源中的应急地址信息分析其空间关系,这里的数据源是经过基于事件框架的信息提取和突发事件应急处置的完整地址获取之后的数据,具体请参考相关文献;三是精度分析模块,针对前两个模块进行试验结果分析。这3个模块相互关联,前一个模块的运行结果是后一个模块的数据源,前一个模块的结果也同时影响着后一个模块的精度,对于各模块的具体流程现分述如下。

图1 总体技术流程

2 K-means算法

常见的地理信息的空间化方法有轨迹模拟空间化和统一坐标均值空间化。轨迹模拟即通过规则图形的路径轨迹来预测未知地理位置的坐标,该方法使用与具有线状轨迹关系的坐标预测,但是当遇到离散地理位置时,此方法则无用武之地;坐标均值的方法是将已知的坐标通过取其均值来获取未知地理位置坐标,这种方法虽然可以简单地获取未知地理位置的坐标,但是该方法是对所有坐标进行均值求坐标,求取结果的误差不可估量;在数据挖掘中,K-means是在图形图像处理中广泛应用的聚类算法[14-16],其核心是计算数据的聚集程度,通过不断地取离中心点最近的均值坐标来获取最优聚类解的算法[17]。K-means算法解决的问题如图2所示,左侧有离散应急信息点,可以很容易地判断这是3个地址点群,但是如何通过计算机程序找到这3个地址点群,这是K-means能够解决的问题。

图2 K-means聚类分析

K聚类中心的准则函数为

(1)

式中,Gj为第j个聚类;Nj为第j个聚类中心的样本数;Zj为第j个样本的聚类中心。

算法步骤如下:

(1) 任选k个初始聚类中心Z1(l),Z2(l),…,Zk(l)。

(2) 计算每个样本到k个聚类中心的距离,并按最近规则归类;

(3) 从步骤(2)的计算结果计算新的聚类中心

(2)

式中,j=1,2,…,k,该聚类中心可以使准则函数的Jj值达到最小。

(4) 若新的聚类中心与前一个聚类中心相等,即

Zj(k+1)=Zj(k)

(3)

式中,j=1,2,…,k。当满足式(3)的条件时,算法收敛,聚类结束;否则转入步骤(2)。

该算法的执行结果受所选的聚类中心的个数、初始位置、样本的几何性质以及数据读入的次序的影响。在对应急地理信息空间化的应用中可以结合实例只选择一个聚类中心进行聚类拟合。如果测试样本为N个孤立的区域分布,则很容易得到算法的收敛结果。

3 试验与分析

本文以123 804个非空原始网页为测试源样本,精度评估参考的是信息检索领域的经典方法[18-19],即查准率和查全率,详细内容请参考相关文献。基于多维度地理空间认知模型的测试结果见表1。

表1 应急地理信息空间化的试验分析

由试验可知,影响应急地理信息空间化精度的主要误差如下:

(1) 应急灾害数据源存在一些噪声,如应急灾害的预防和灾害常识的科普性文章,这些文章中并不包含突发事件信息。

(2) 某些应急灾害的描述文件中并不包含地名信息,而且本文的主要测试对象是中文地址,但数据库中并未构建国外地名数据库信息,这是造成查准率低的主要原因。

(3) 本文的测试对象构建的是国内三层行政区地名库,包括省、市、县地名结构,对于那些超出数据库之外未能识别的应急地址信息,本不在误差的考虑范围之内,但是考虑数据的真实可靠性,在计算时并没有将其去除。如果去除这部分的噪声样本,综合识别地址识别精度会更高。

(4) 在应急地理信息的空间化过程中,由于地图服务的超时链接所产生的噪声,这也是本文误差来源之一。

当然,通过试验分析发现,本文方法还不够优越,以后的应急信息提取研究之路任重道远。本文的测试对象是中文地址,中文地址的命名规则是按照从大范围到小范围逐级递减的结构命名[20],这可能与非中文为母语的国家的地址命名存在差别。但是,本文的算法具有通用的参考价值,如以英语为母语的国家而言,他们国家的地址命名是从小到大的范围逐渐扩大的规则,此时只要调用相应的地图服务即可获取应急空间信息。通过应急空间信息的精度评估,其综合精度为81.94%,测试结果可靠,符合实际应急相关部分的精度需要。

4 结 语

本文通过对国内外常见的空间化方法进行了对比总结,在此基础上指出了常见空间化方法的不足之处。在应急测绘领域中,基于K-means算法的空间化是一种实际应用中较为少见获取应急空间信息的方法。由于传统的基础地理信息并不直接等同于空间的位置信息,因此应急地理信息的空间化正是解决这一问题的关键。通过以上研究实现了众源应急信息的空间化。将应急属性信息同空间位置信息进行关联,提高了众源应急数据的空间化效率。当然,本文的空间化方法仍有不足之处,还有待进一步研究。

猜你喜欢
空间信息突发事件聚类
结合多层特征及空间信息蒸馏的医学影像分割
基于DBSACN聚类算法的XML文档聚类
电子测试(2017年15期)2017-12-18 07:19:27
《地理空间信息》协办单位
突发事件的舆论引导
清朝三起突发事件的处置
文史春秋(2016年8期)2016-02-28 17:41:32
基于改进的遗传算法的模糊聚类算法
一种层次初始的聚类个数自适应的聚类方法研究
突发事件
小说月刊(2014年10期)2014-04-23 08:53:40
自适应确定K-means算法的聚类数:以遥感图像聚类为例
关于地理空间信息标准体系