国外馆藏数字资源语义化研究现状分析

2018-12-04 09:39:44支凤稳郑彦宁杜薇薇
现代情报 2018年12期
关键词:发文馆藏语义

支凤稳 郑彦宁 杜薇薇

(1.河北大学管理学院,河北 保定 071002;2.中国科学技术信息研究所,北京 100038)

2000年12月18日,万维网创始人Tim Berners-Lee在XML2000会议上正式提出了语义网概念,并在2001年对语义网体系架构进行了论述。依据Tim等的描述,语义网不同于以前的网络,是一个机器可理解的立体网络,包括7个层级,由低到高依次为:Unicode和URI、XML+NS+XML Schema、RDF和RDF Schema、Ontology Vocabulary、Logic、Proof、Trust[1]。由上可知,语义网研究关联多个学科:计算机科学、图书情报等,涉及多个主题领域:语义组织、语义检索、机器推理、语义服务等。语义网将是未来WWW发展的主要方向,作为WWW环境下开展的重要服务,数字图书馆将因此获得新的发展契机,但同时语义网理论及技术也将对已有资源标注及主题关联方式等提出了更高要求。数字图书馆是馆藏电子资源服务的窗口和平台,在海量信息环境下,其所提供使用资源列表也在不断增多,不同分布式数据库资源异构、用于资源标注主题词的不一致、资源主题聚合粒度过粗等语义化问题日渐凸显。鉴于此,语义网规范化的体系架构将在数字图书馆资源语义化建设中起到正向增益作用,如借助本体改变传统书目组织基于MARC的线性的一维结构,提升资源检索效率[2];实现基于语义的馆藏数字资源深度聚合[3];加强词表资源关联,提升资源标注语义水平[4]等。国内外学者从不同的视角进行了相关研究:国外学者Guns讨论了资源描述框架(RDF)中的数据网络为何以及如何被称为Web的问题,并基于(语义)Web的早期设计文档进行分析,认为已经出现在早期的web标准和草案中的链接类型和在线元数据是主要决定因素,发现语义网与早期的人工智能工作直接相关[5]。Neish描述了关联数据是如何在澳大利亚和全球的图书馆及相关机构中应用的,并通过关联数据应用实践的案例来说明一些项目比其他项目更成功的原因[6]。国内相关研究成果主要体现在如下方面:1)关注理论框架构建。如邱均平等引入了计量分析方法,构建了基于计量分析的馆藏资源语义化理论模型[7];张洋等提出基于资源本体的馆藏资源语义化理论体系框架以及语义体系层次结构模型,形成了更有效的馆藏资源知识组织方法[8]。2)关注馆藏资源语义化技术。楼雯从微观层面设计了馆藏资源语义化模型,描述了馆藏资源语义化的关键技术,并进行了实证检验[9]。3)关注资源的聚合服务方式及实现。如贺德方等探讨了基于语义的馆藏资源聚合方式,构建了馆藏资源聚合服务所需要的语义描述框架和可视化展示机制[10];韩玺等从多维度聚合和语义关联两个方面分析了数字资源聚合的理论基础,构建了基于语义关联的图书馆移动视觉搜索资源多维度聚合模型,并分析了图书馆移动视觉搜索服务的实现流程[11]。4)关注计量学研究综述的应用,如赵蓉英等借助文献计量学和共现分析的方法对国内外馆藏资源语义化研究进展进行了对比分析[12],这是该领域的最新研究综述。可见,国内外学者在馆藏(数字)资源语义化研究不断取得进展,为相关学者提借了重要的理论借鉴与实证证据,然而,近几年来的研究进展特别国外的研究现状并不清晰。馆藏数字资源语义化工作开展始于国外,为了弄清楚这一研究领域进展,本研究以WOS数据库相关文献资源为对象进行计量分析,并分析揭示文献的时间分布、作者分布、地区(机构)分布、主题分布等,总结梳理国外在馆藏数字资源语义化方面的研究进展,以全面了解目前的研究现状,为国内相关工作开展提供参考。

1 文献来源

Web of Knowledge(WOS)是由美国科学情报所(ISI)开发的信息检索平台,它包括SCI、SSCI、A&HCI等7个子库,索引9 000多种世界范围内最具影响力的、经过同行专家评审的高质量的期刊,其数据库资源每周更新。用户可以通过WOS检索关于自然科学、社会科学、艺术与人文学科的文献信息,并可以同时对多个数据库进行单库或跨库检索。因此,对WOS中收录的有关馆藏数字资源语义化的文献进行计量分析,有助于了解世界范围内馆藏数字资源语义化研究的现状及代表性成果。

在文献来源甄选阶段,本研究依次开展了以下工作:①确认检索数据库。本文选取的数据库依次为科学引文索引(SCI-E)、社会科学引文索引(SSCI)、艺术与人文科学引文索引(A&HCI)、科技会议录引文索引(CPCI-S)。②确认检索式和检索年限。数据库选择好之后,需要对研究主题进行凝练,提取主题词并构造检索式。依据文章主题提取两个主题词:馆藏数字资源和语义,并确认主题词对应的翻译名:Library Digital Collection和Semantic,考虑英文中存在同根词(如Semantical、Semantic、Semantically、Semantics),因此使用通配符(?、*等)来辅助检索式构造,最终得到的检索式为:Topic=(Library Digital Collection)AND(Semantic*)。鉴于语义网概念正式提出是在2000年,考虑到之前所做的预研究,选择文献发表时间跨度为:1996-2018年。③筛选检索记录。初次检索后得到127条记录(检索日期为2018年7月5日),对每篇论文的摘要进行了浏览,删除主题不太相关的5篇论文,最后保留得到122条记录,包括78篇会议论文和54篇期刊文章(部分论文既出现在论文集中,又发表于期刊,这种情况按期刊论文处理),这些论文主要分布在计算机科学信息系统、计算机科学人工智能、计算机科学软件工程、信息科学等学科领域。保存这些记录的题录信息,包括题名、作者、关键词、国家、机构、发表时间、被引次数等字段,以此为基础展开国外馆藏数字资源语义化的文献计量分析工作。

2 国外馆藏数字资源语义化研究的时空分布

基于题录中的字段信息,本研究对国外馆藏数字资源语义化文献的时间分布、地域分布、作者分布等情况进行了统计分析,从而揭示出世界范围内该主题领域研究的发展态势、热点国家、典型机构和核心作者。

2.1 文献时间分布

文献时间分布规律描述了文献在过去一段时间内产出的效率及影响力,因此文献时间分布研究包括文献数量时间分布和文献被引时间分布[13],通过这两个维度可以评测该主题领域发展态势和预测其未来发展。从保存题录信息中提取出年限、被引次数等基本字段,按照年限分组获得每年发文章量、论文被引总次数。这些统计指标在一定程度上反映该主题领域学术研究的理论水平和发展速度,近23年有关文章数及被引的时间分布如图1所示。

通过图1可得出以下结论:1)馆藏数字资源语义化研究始于1996年,之后文章产出量呈现出递增趋势,2007年达到高峰,达到13篇,以后文章产出量有所下降,呈现出高低震荡的态势,但幅度不大。总体分析可知,该主题领域的研究相对稳定,还有待在基础理论和关键技术方面取得突破性研究。

2)从1996年开始,论文的被引次数呈现上升趋势,并在2000年达到第一个峰值,之后论文被引次数呈现震荡态势。2015年度文章对于该主题领域发展具有较大影响,被引频次达到61次,推测应该是该学科的开创性或奠基性成果。2007年发文数量最大,共13篇,被引次数为23,篇均被引次数只有1.77。总体上来看,发文数量与被引次数呈现出一致性的分布(个别年份除外,如2018年的文献还未全部出版)。

图1 1996-2018年发文数量与被引频次的时间分布

2.2 文献地域分布

文献地域分布规律旨在揭示该主题领域的热点研究区域和研究机构,对于科研合作及其国家、机构影响力评价研究都能起到良好的导向作用。CiteSpace能够通过识别并可视化表示文献的地域分布、作者、期刊、关键词、被引文献等信息的关系,从而展现一个学科或知识领域在一定时间的发展趋势与动向。本研究提取题录信息中的国家(地区)、机构、题目等字段值,分别以国家或者机构为分组类别,借助CiteSpace软件统计每一国家(地区)或者机构在统计年限内的发文量,近23年文献国家(地区)和机构分布情况见图2和表1。

图2 文献国家(地区)分布

图2中节点代表国家(地区),节点大小表示发文量多少,节点越大,表明该国家(地区)的发文量越多,节点之间的连线代表国家之间存在合作关系。统计结果显示,122篇文献是由37个国家或地区撰写的,发文3篇以上的国家有15个,其中美国发文29篇,德国发文12篇,西班牙发文10篇,英国和意大利均发文8篇,法国发文6篇,中国台湾地区发文5篇,日本发文4篇,和奥地利、加拿大、希腊、印度、巴基斯坦、波兰和韩国均发文3篇,前15个国家共发文104篇,占总发文量的85.25%。可见,不同国家在馆藏数字资源语义化研究中存在着较大差距,美国和欧洲是该主题领域研究的热点国家或地区,美国相关文献数量最多,德国次之,其中排名前15为国家中,欧洲占据7个,北美占据2个,亚洲占据5个(中国台湾地区和日本),大洋洲占据1个,非洲和南美洲在该领域鲜有文章。

表1 文献机构分布

由表1(只统计了发文量大于等于3的机构)可知,发文比较多的机构大部分为大学(UNIV),通过数值观察发现,发文最多的机构是Univ Illinois(6篇),其次是Univ Belgrade(6篇),前10的机构共发文40篇,占文献总量的32.79%。机构发文量差别不是很明显(极差为6),但是可以推测的是发文量较多的机构大部分都在美国和欧洲,其他国家或地区研究工作亟待拓展和开启。最后,多种机构类型参与到馆藏数字资源语义化研究进程中有利于该主题领域快速发展起来,如IBM CORP开发的数字图书馆系统平台在我国数字图书馆建设中发挥着重要作用[14]。

3 国外馆藏数字资源语义化研究的作者分布

文献作者分布规律旨在揭示该主题领域内的核心作者,核心作者的提取存在着两种方法:主观提取方法和客观提取方法。主观提取方法就是要选取描述作者类(见图3)的属性或者操作,根据统计值高低排序,并设定相应阈值来提取核心作者的过程。客观提取方法是通过分析文献作者分布规律,借助以往经验公式来提取核心作者的过程。虽然两种方法各有优缺点,但主观方法操作简单,应用更加广泛,本研究也采用主观提取的方法。图3中作者和文章之间是发布关系(issue),文章和关键词之间是组成关系(composite),在此主观提取方法仅利用发布关系及其关联实体,组成关系及其关联实体在第4部分应用,有关实体及其多重性描述可参考UML内容[15],在此不再赘述。

本研究的122篇文献共由359个作者撰写,其中105篇文献是由多个作者共同完成,17篇文献是由单个作者独立完成。发文量为4的作者有3人,他们是来自东京大学的KUO PJ、AOKI T、YASUDA H;发文量为3的作者为来自美国的亚利桑那大学的CHEN HC,发文量为2的作者有16人,发文量为1的作者有339人。设定主观提取方法的阈值为2,提取核心作者列表,如表2所示。

本研究还借助中国科学院国家科学图书馆研发的文献计量在线分析平台绘制了作者合作网络,对作合作情况进行可视化展示,以直观地了解国外馆藏资源语义化研究的核心作者和合作团体,如图4所示。图中节点代表发文作者,节点之间的连线代表作者之间存在合作关系。作者合作关系反映了该领域的研究力量分布情况,合作程度越高,越有利于加深该领域的纵向研究和结合其他学科领域的横向发展[12]。文献的合作度(作者总数/论文总数)与合作率(合作论文数/论文总数×100%)是反映合作程度的重要指标,据此可以算出国外馆藏资源语义化研究的合作程度,合作度为2.94,说明平均每篇论文由3个作者共同,合作率为86.07%,约有13.93%的论文是单个作者独立完成的。

图3 作者(Expert)——文章(Knowledge)属性特征及关系特征描述

表2 核心作者列表

由表2可知,KUO PJ、AOKI T、YASUDA H和CHEN HC是馆藏数字资源语义化研究领域的核心作者。进一步分析表2和图4可以发现,KUO PJ作为第一和通讯作者,AOKI T和YASUDA H分别为第二和第三作者,合作发表了4篇会议论文,3人形成合作网络A。可见,东京大学在该领域的研究实力较强,然而,遗憾的是这些论文是日本在该领域的所有成果,其他机构在该领域还未取得突破。这些论文发表于2004-2005年,至今还被引用,可见这些文献还未引起学者们的足够重视。另外,近年来,该作者团队没有在该领域进展缓慢,还未发表新的研究成果。由图4可知,国外馆藏数字资源语义化研究领域的合作网络以以3~4人为主,但也有10人以上的合作网络B和C,B是以亚利桑那大学的CHEN HC为中心的15人合作网络,共发表论文3篇。C是由来自德国8个不同的机构14位作者组成的合作网络,该网络虽然人数较多,但仅2013年合作发表了1篇论文。总体而言,国外馆藏数字资源语义化研究领域还未形成稳定的核心作者群和合作团体,作者之间关联不是很紧密,相关研究合作还需要进一步加强。

4 国外馆藏数字资源语义化的研究热点

本部分将从内容特征出发去揭示国外馆藏数字资源语义化研究的热点,以期为国内数字图书馆建设方向提供指导。关键词是文献内容特征的核心与精髓,是对文章主题的高度概括和凝练,出现频次高的关键词常被用于确定一个研究领域的热点问题。文献内容特征分析主要围绕题名[16]、摘要和关键词[17]等字段信息展开,分析方法主要包括共现分析、聚类、因子分析、多维尺度分析等。常用可视化分析工具CiteSpace可以通过对热点关键词进行聚类分析,探测学科领域的研究热点。CiteSpace依据谱聚类算法实现自动聚类,谱聚类本身就是基于图论的一种算法,它对共引网络这种基于链接关系而不是节点属性的聚类具有天然的优势。为保证数据的准确性和结果的科学性,本研究对122条文献记录进行了数据清洗,主要包括:单复数合并(如libraries和library、collections和collection、models和model、archive和archives),词的原形合并(如searching和search),删除无实际意义且题名频率较高的代词、介词(如based、towards)等。在CiteSpace软件中,Node Types设定Keyword,选择探索关键词的路径算法(Pathfinder),剪切网络中大部分不重要的关联节点,最大程度上将原网络简化为一个最小值网络18,并进行相应的参数调整,生成研究热点聚类知识图谱,如图5所示。图5中的每个十字型的节点代表一个关键词,节点越大,表示该关键词出现的频次越大,黑色字体的是关键词的标签(设定阈值为2,只显示出现2次以上的关键词标签)。

图4 作者合作网络

CiteSpace还能生成关键词出现频次、中心性列表,本研究提取了高频(≥4)和高中心度(≥0.05)关键词,如表4所示。国外馆藏数字资源语义化研究的高频关键词有digital library、ontology、semantic web、metadata、information retrieval、collection、linked data、system等;高中心度的关键词有ontology、retrieval、digital library、information retrieval、search、collection、science等,比较高频关键词与高中心度关键词可知,两者大体上保持一致,所以这些关键词在一定程度上能够反映馆藏数字资源语义化研究的热点。进一步分析文献信息可以发现,2000年以前,有些学者们开始关注数字图书馆、信息检索、建模、语义网的相关研究,2001年以后,学者们开始关注本体、分类、元数据、标引、分类、抽取信息组织工作流程等相关内容,关键词在不断增多,这说明研究范围在不断扩展、不断丰富。该主题领域内容繁杂,涉及多个学科,既包括传统基础研究,如metadata、又包括前沿热点,如ontology、semantic等。

表4 高频(≥4)和高中心度(≥0.05)关键词

图5中,不同颜色的填充区域代表不同的聚类,红色字体是聚类的标签,国外馆藏数字资源语义化研究可以生成12个聚类(软件只显示含有10个成员以上的聚类),分别是semantic search、creating engineering、concept space、users behaviour pattern、semantic retrieval、scientific publication、exploratory search、4th zarih、metadata、management、hopfield net、text categorization、evaluation study、reference map。可以看出国外馆藏数字资源语义化研究视角广泛,内容丰富。表5显示了每个聚类的Cluster ID(编号)、Label(标签)、size(规模)和silhouette(轮廓系数)。silhouette是用来衡量聚类网络不确定性的指标[19],取值范围是(-1,1),如果一个聚类的silhouette值为1,代表它能够与其他聚类完美地区分开来,Chen C希望silhouette值为0.7~0.9之间,或更高[20],因此可以认为本研究的聚类效果良好。

图5 国外馆藏数字资源语义化研究热点图谱

表5

综合分析图5和表5可以现,最大的聚类是“semantic search”,它有47个关键词,轮廓系数为0.89,该聚类最活跃的引证文献是Nandzik J于2013年发表在《MULTIMEDIA TOOLS AND APPLICATIONS》上的“CONTENTUS—Technologies for Next Generation Multimedia Libraries”。第二个聚类是“creating engineering concept space”,它有31个关键词,轮廓系数为0.855,该聚类最活跃的引证文献是Chen HC于1996年发表在《IEEE TRANSACTIONS ON PATTERN ANALYSIS AND MACHINE INTELLIGENCE》上的“A Parallel Computing Approach to Creating Engineering Concept Spaces for Semantic Retrieval:The Illinois Digital Library Initiative Project”。第三个聚类是“users behaviour pattern”,它有30个关键词,轮廓系数为0.942,该聚类最活跃的引证文献是Chen YN于2013年发表在《ONLINE INFORMATION REVIEW》上的“An Analysis of Users’ Behaviour Patterns in the Organisation of Information a Case Study of Citeulike”。第四个聚类是“semantic retrieval”,它有27个关键词,轮廓系数为0.942,该聚类最活跃的引证文献是Kherfi,ML于2007年发表在《IEEE TRANSACTIONS ON MULTIMEDIA》上的“Image Collection Organization and Its Application to Indexing,Browsing,Summarization,and Semantic Retrieval”。以上聚类是既是国外馆藏数字资源语义化领域现有研究的重点,也是未来研究需要继续深化拓展的方向。

5 结 语

语义网为数字图书馆资源深度聚合提供了新的途径和方法,为了弄清楚目前国外馆藏数字资源语义化研究的现状,本研究对WOS数据库该主题领域文献进行了计量分析,得出以下结结论:1)从发展趋势来看,国外馆藏数字资源语义化研究已经过20多年的发展,但研究进展缓慢,相关研究成果还处于早期积累阶段。2)从研究成果的地域分布来看,不同国家间的研究差别很大,美国和欧洲优势明显,主要研究力量也集中于此。3)从核心作者发文量和作者合著网络来看,该领域高影响力的作者总体偏少,还未形成稳定的核心作者群,研究合作还有待进一步加强。4)通过研究热点分析,发现该领域内容繁杂,立足基础研究之上的数字图书馆、信息检索、用户行为模式、元数据管理、本体理论及方法等是该领域研究热点,该领域在理论基础和方法技术方面还有很大的发展空间。总体而言,该领域的研究以理论构建为主,研究方法相对单一。理论框架仍然比较模糊,理论分析还不够深入,研究内容缺乏系统性与综合性。学者们已经认识语义化为馆藏数字资源建设和利用带来的美好前景,对本体、关联数据等语义化技术应用也进行了实证探索,但大多基于传统信息计量学和文献外部特征元数据而展开,计量本体及其基础上的计量语义化应用还有一定的局限。

无论是在技术实现层面,还是在实践应用层面,都有学者进行了探索和研究,但相比其他传统学科,语义网的基础理论体系尚不健全,鲜有研究专门对其进行梳理、界定和阐释[21]。因此,馆藏资源语义化依然任重道远,建立能够很好地揭示并序化文献实体和属性之间的关系的语义化的、统一的、规范的馆藏数字资源组织与检索方式,不仅是图书馆应对大数据时代挑战,提高知识服务能力的必然要求,也是学者们应该继续关注的重点。未来研究不仅要关注基础研究,还应该注重应用研究,同时,还要进一步进行多学科交叉研究,在模型构建和研究方法方面做出更大努力。本研究展示国外馆藏资源语义化研究现状,能为学者们进行深入研究提供一些参考,但未能进行深入系统的讨论,希望后续学者补充完善,在丰富相关领域研究成果的同时,为我国馆藏数字资源建设和有效利用提供必要的指导。

猜你喜欢
发文馆藏语义
馆藏
现代装饰(2022年6期)2022-12-17 01:07:32
10条具体举措! 山东发文做好返乡留乡农民工就地就近就业
今日农业(2020年14期)2020-08-14 01:10:16
语言与语义
博物馆的生存之道:馆藏能否变卖?
艺术品鉴(2019年11期)2019-12-27 09:06:18
知还印馆藏印选——古印篇
校园拾趣
爷孙趣事
以牙还牙
“上”与“下”语义的不对称性及其认知阐释
现代语文(2016年21期)2016-05-25 13:13:44
认知范畴模糊与语义模糊