基于本体语义的地理信息服务发现

2013-12-06 08:56:56柳佳佳
测绘工程 2013年6期
关键词:结点本体语义

柳佳佳,葛 文

(1.信息工程大学 地理空间信息学院,河南 郑州 450052;2.65014部队,辽宁 沈阳 110027)

随着语义网技术的快速发展,基于语义网技术的服务发现技术已经成为网络服务领域的研究热点之一。语义网环境下进行地理信息服务发现需要解决两个问题,即服务采用什么样的描述方法以及采用什么样的服务匹配标准。语义化描述地理信息服务的方法是首先对地理信息服务中的概念进行本体标注,然后采用语义网络服务描述语言如OWL-S(Web Ontology Language for Services)对地理信息服务进行描述,该方面的研究内容可参见文献[1-4]。对于服务的匹配标准,目前基于本体语义的服务匹配研究比较多。但是服务匹配的方法还存在诸多问题,如服务匹配的结果只是定性的区分是否匹配[5-6],即使是定量计算的方法适用性也不够,如服务输入输出接口都是固定且必须等情况。

本文研究了一种基于本体语义的地理信息服务发现方法,该方法主要思路是:通过地理信息服务中的本体概念语义相似度以及引入服务接口间的依赖关系计算地理信息服务相似度,然后基于此相似度进行地理信息服务的匹配。

1 本体概念语义相似度

1.1 本体概念语义距离计算

最初关于语义距离的计算是将本体看作以概念为结点,以继承关系为边的一个图,本体两个概念之间的语义距离就是两个结点间最短路径的边数之和[7]。例如,对于图1所示的本体片段,Point_Geog和Point的语义距离是2,Point_Geog和Point_Proj的语义距离也是2。可以看出,这种语义距离方法并不合理。因为Point_Geog和Point_Proj同属于Point_2D,直觉上Point_Geog和Point_Proj的语义距离应该要小于Point_Geog和Point的语义距离。于是人们开始考虑对该计算方法进行改进。

图1 几何对象(Geometry)本体片段

Sycara等提出了加权语义距离的改进方法[8],该方法将不同的组合操作赋予不同的权重,其权重分配如表1所示。

表1 语义距离权重表

其中g表示gereralization,即泛化,也就是从子结点指向父结点的边;s表示specialization,即细化,也就是从父结点指向子结点的边;p表示positive association,即正关联,也就是连接两同义关系结点的边。

权重表中的操作顺序为先列后行。例如先进行g操作,然后再进行s操作,则权重为1而不是3,因为先列后行得出第2列第3行。用权重代表语义距离重新计算图1中的语义距离得出Point_Geog到Point的语义距离是2,因为需进行两次g操作,Point_Geog和Point_Proj的语义距离是1,因为先进行g操作再进行s操作。可见,加权语义距离的改进方法在一定程度上弥补了最初最短路径边计数法的不足。

但是,该方法还存在以下3个方面的问题:

问题1:通过研究几何对象本体片段可以发现,Point_Geog到Point_2D的语义距离(Dis(Point_Geog,Point_2D))和Point_2D到Point_Geog的语义距离(Dis(Point_2D,Point_Geog))应该是不同的。因为在“弹性匹配”[5]中,Dis(Point_Geog,Point_2D)相当于包含匹配(Subsume),而Dis(Point_2D,Point_Geog)相当于精确匹配(Exact),那么根据相似度越小语义距离越大,可以得出Dis(Point_Geog,Point_2D)应该大于Dis(Point_2D,Point_Geog),即语义距离是有方向的。然而由加权语义距离的改进方法却无法得出这样的结论,甚至其只有两次连续操作的权重,而无法计算单次操作的语义距离。

问题2:通过表1可以看出,操作g→s(表示先g操作再s操作)和操作s→g(表示列s操作再g操作)的权重是不同的,造成语义距离权重的不对称性。对几何对象本体片段进行分析得出Dis(Point_Geog,Point_Proj)与Dis(Point_Proj,Point_Geog)是不同的,这也是不合理的。

针对问题1和问题2对语义距离的权重计算作如下扩展:

扩展1 区别边的方向。边的方向不同,进行的操作不同。例如g操作和s操作包含的边的方向相反,其权重应该有所不同,将在扩展后的语义权重表中进行体现。

扩展2 增加二元关系。二元关系可以体现更加复杂的本体概念之间的语义关系,增加二元关系其实也就是增加边的类型,并记b(binary relation)为二元关系。这样边的操作类型就包括g,s,p和b 4种。

扩展3 扩展和改进语义距离权重表,包括扩展单次操作权重和消除语义距离权重的不对称性。对于单次操作权重采用引入空操作Φ与其他操作进行组合的方式实现。扩展后的权重如表2所示。

表2 扩展后的语义距离权重表

经过单次操作权重扩展后,通过组合就可以计算多次操作的权重,计算的方法是:前两次操作的权重按两次连续操作计算,其他操作按单次操作计算。例如对于多次操作序列g→g→s→b,其语义距离权重为(g→g)→s→b=4+3+7=14,并不是g→(g→s)→b=2+3.5+7=12.5。

问题3:Point_2D和Point_3D之间的语义距离和Point_Geog和Point_Proj之间的语义距离是相等的,两者都是先进行g操作再进行s操作,显然有些不太合理。同样存在这样一个直观规律:概念之间的语义距离与它在概念树中的深度有密切关系,如果概念树中的深度越深,它们之间的关系就越紧密,语义距离就越小,反之则越大。

对于上述问题,Wu-Palmer[9]提出了最低共同祖先(Lowest Common Ancestry,LCA)的概念来解决,即通过概念结点vi和vj共同祖先结点中层次最低的一个概念结点vLCA来度量它们的语义距离,具体计算方法如下:

式中:r表示根结点,len表示最短路径,但该式中使用的是最短路径边计数法。

根据以上讨论,本文将加权语义距离和Wu-Palmer法相结合,给出一个语义距离计算方法如下:

1.2 本体概念语义相似度计算

计算语义距离的目的是为了计算语义相似度[10],但两者之间需要满足以下关系:

1)当语义距离为0时,语义相似度为1;

2)语义相似度取值在[0,1]之间;

3)语义相似度与语义距离成反比,即语义距离越小,语义相似度越大,反之越小。

满足上述3个条件的函数也有不少,比较常用的有以下3个:

上述3个公式的语义相似度随语义距离递减的速度不一样,第1个公式属于线性递减,第2个公式递减速度要更加快一些,而第3个公式递减速度最快。实际应用中可以根据需要选择适当的语义相似度函数。

2 支持接口多态性的本体语义地理信息服务匹配

目前,大多数基于本体语义的服务匹配方法都默认这样一种假设:对于服务的输出而言,服务所有的输入都是必须的。然而,地理信息服务的多态性却存在这样一种情况,即某个地理信息服务的输入是可选的,但也能得出服务的输出结果。例如,有这样一个获取坐标位置的地理信息服务GetCoordByPosInfo(GeoCode,GeoName,GeoAddress),该服务具备3个输入:地理编码、地名和地址,具备一个输出:坐标。调用该服务时,GeoCode和GeoName两个输入项可任选其一,GeoAddress为必选项,即只需要给定GeoCode或GeoName、Geo-Address即可调用GetCoordByPosInfo服务获取坐标位置。但如果服务请求者只能提供GeoName和GeoAddress这两个输入,目前大多数基于本体语义的服务匹配算法无法向用户返回该服务。因为,它们认为用户无法提供GeoCode输入则无法使用该服务,从而即认为该服务不是用户所需要的。因此,目前大多数的服务匹配算法没有考虑服务接口多态性的问题,本文引入服务输入/输出接口之间的依赖关系解决这一问题。

定义1 服务接口:地理信息服务的输入或输出。I={I1,I2,…,Im}表示地理信息服务的输入集合,O={O1,O2,…,On}表示地理信息服务的输出集合,I∪O是地理信息服务的接口集合,每个接口均对应一个本体概念。

定义2 接口依赖关系[11]:地理信息服务输出集合到输入集合的一个映射,即ψ(O′)=I′,表示为O′|→I′,其中O′⊆O,I′⊆I。

给一个抽象的服务例子说明定义2,该服务的接口有3个输入和两个输出,如图2所示。其中输出O1依赖于所有输入(O1|→{I1,I2,I3}),称为全依赖输出;输出O2只依赖于I1和I3(O2|→{I1,I3}),称为部分依赖输出。

图2 具有接口依赖关系的服务

定义3 服务(接口)请求:一个地理信息服务请求为一个二元组R=〈IR,OR〉,这里暂不考虑其他服务请求因素,其中:IR={IR1,IR2,…,IRm},表示地理信息服务的输入集合,OR={OR1,OR2,…,ORn}表示地理信息服务的输出集合,每个服务请求接口也均对应一个本体概念。

具体的考虑接口依赖关系的本体语义地理信息服务匹配算法如表3所示。

表3 考虑接口依赖关系的本体语义地理信息服务匹配

上面的算法中,如果直接给定了候选服务与服务请求接口间的对应关系,则可以直接计算接口间的相似度,而不用执行第8行和第16行的操作。下面通过图3所示的一个候选服务S和一个服务请求R来说明该服务匹配方法。在该例子中,候选服务S有3个输入和3个输出,且接口具有如下依赖关系:O1|→{I1,I2,I3},O2|→{I1,I3},O3|→{I3}。服务请求R有3个输入和两个输出,且候选服务S和服务请求R的接口之间映射关系和相似度如下:

应用考虑接口依赖关系的本体语义地理信息服务匹配算法,图3中的候选服务S和服务请求R之间的相似度为

图3 服务匹配例子

考虑服务名称N后,最终基于本体语义的地理信息服务匹配相似度计算方法为

其中,w1+w2=1,w1,w2的取值体现服务匹配因素的构成,w1=1时则为纯基于服务名称N的匹配,w2=1时则变为纯基于服务输入输出IO的匹配。SimN采用GetOntologySim函数直接计算本体概念语义相似度即可。

3 实验与分析

为了验证本章的服务发现方法,基于Java语言设计并实现了一个实验原型。其中地理信息服务采用OWL-S语义化描述,本体采用OWL描述,OWL-S的解析借助于卡内基梅隆大学的OWL-S API 1.1,并采用Jess作为规则推理引擎。

地理信息服务测试样例来自OWL-S TC4以及自定义发布并语义化描述的部分服务共64个,本体采用几何对象本体(Geometry.owl)、地理信息服务本体(ISO_geographic_service.owl)和应用本体geographydataset(geographydataset.owl),需预先将geographydataset本体的部分概念与Geometry和ISO_geographic_service进行本体集成。

首先进行基于本体语义的地理信息服务发现实验,将考虑服务接口依赖关系和未考虑服务接口依赖关系的实验结果进行对比如表4所示。

表4 实验结果

表4表明,基于本体语义的地理信息服务匹配方法的性能较高,未考虑服务接口依赖关系时查全率 为91.1%,查 准 率 为90.5%,F-Score值 为0.908,考虑服务接口依赖关系后服务匹配性能进一步提高,查全率达到95.6%,查准率达到94.3%,F-Score值到达0.949。

4 结束语

语义网的出现为人们描绘了一个未来网络的美好愿景,在语义网环境中,一切网络活动和任务将变得更加自动化、智能化。引入本体语义是未来语义网环境下进行地理信息服务发现的必然需求,本文基于此背景研究了基于本体语义的地理信息服务发现方法,讨论了以下两个问题:

1)将加权语义距离和Wu-Palmer法相结合并进行改进后,给出了本体概念语义相似度的计算方法;

2)结合服务接口依赖关系,提出了支持接口多态性的本体语义地理信息服务输入输出IO匹配方法。

本文还设计了实验原型对基于本体语义的地理信息服务发现方法进行了实验与分析。此研究对于提高地理信息服务的发现性能具有一定的理论和技术价值,进一步的研究工作将围绕地理信息服务本体概念的推理、前提、效果属性的匹配等展开。

[1]李宏伟.基于Ontology的地理信息服务研究[D].郑州:信息工程大学,2007.

[2]陈建杰,杨树锋,李长江.一种基于本体的空间信息Web服务实现方法[J].浙江大学学报:工学版,2006,40(3):376-380.

[3]王海涛,刘海砚,刘栋永,等.基于本体的地理信息语义共享方法[J].测绘工程,2012,21(6):4-7.

[4]王强.空间信息服务聚合的关键技术研究[D].郑州:信息工程大学,2010.

[5]PAOLUCCI M,KAWAMURA T,PAYNE T R,et al.Semantic Matching of Web Services Capabilities[C].Proeeedings of the 1st International Semantic Web Conference(ISWC),Sardinia,Italia,2002,333-347.

[6]LUTZ M.Ontology-based Descriptions for Semantic Discovery and Composition of Geoprocessing Services[J].Geoinformatica 2007,1(11):1-36.

[7]RADA R,MILI H,BICKNELL E,et al.Development and Application of Metric on Semantic nets[J].IEEE Transaction on Systems,Man,and Cybernecics,1989,19(1):17-30.

[8]SYCARA K,WIDOFF S,KLUSH M,et al.Larks:Dynamic Matchmaking among Heterogeneous Software Agents in Cyberspace[J].Autonomous Agents and Multi-Agent Systems,2002,(5):173-203.

[9]WU Z,PALMER M.Verb Semantics and Lexical Selection[C].Proceedings of the 32nd Annual Meeting of the Association for Computational Linguistics,New Mexico,1994,133-138.

[10]孙海霞,钱庆,成颖.基于本体的语义相似度计算方法研究综述[J].现代图书情报技术,2010(1):51-56.

[11]邓水光,尹建伟,李莹,等.基于二分图匹配的语义Web服务发现方法[J].计算机学报,2008,31(8):1364-1375.

猜你喜欢
结点本体语义
Abstracts and Key Words
哲学分析(2023年4期)2023-12-21 05:30:27
对姜夔自度曲音乐本体的现代解读
中国音乐学(2020年4期)2020-12-25 02:58:06
语言与语义
Ladyzhenskaya流体力学方程组的确定模与确定结点个数估计
“上”与“下”语义的不对称性及其认知阐释
现代语文(2016年21期)2016-05-25 13:13:44
《我应该感到自豪才对》的本体性教学内容及启示
文学教育(2016年27期)2016-02-28 02:35:15
认知范畴模糊与语义模糊
基于Raspberry PI为结点的天气云测量网络实现
Care about the virtue moral education
卷宗(2013年6期)2013-10-21 21:07:52
语义分析与汉俄副名组合
外语学刊(2011年1期)2011-01-22 03:38:33