基于元数据仓储的统一检索系统研究*

2014-01-01 02:54:16张宏伟齐明明
图书馆学刊 2014年9期
关键词:检索系统数据源统一

张宏伟 齐明明 史 磊 李 杨

(黑龙江中医药大学图书馆,黑龙江 哈尔滨 150040)

1 引言

统一检索也叫异构数据源整合检索,是以多个分布式异构数据源为对象的检索系统[1],可以实现不同规模、不同类型资源库的资源整合与一站式检索服务,实现检索结果的统一展现和知识关联发现。系统向用户提供统一的检索接口,将用户的检索要求转化为不同数据源的检索表达式,并发地检索广域网上和图书馆本地的多个分布式异构数据源,并对检索结果加以整合,在经过去重和排序等操作后,以统一的格式将结果呈现给用户[2]。

统一检索系统是针对图书馆内部来源不同的数字资源进行数据整合与检索的一站式搜索与知识发现服务系统[3]。基于元数据仓储的统一检索系统除具备异构数据源检索分发、结果页面分析、结果去重合并、结果集统一和分类展示等功能外,其重大改进在于实现多数据源的元数据本地化采集、存储和管理,实现基于本地元数据仓储的资源整合检索与全文获取服务[4]。因此,基于元数据仓储的统一检索系统不仅仅是一种统一检索系统,更是一种本地化的知识发现与服务系统[5]。

2 元数据仓储平台建设

元数据仓储平台是实现图书馆数字资源整合与利用的最有效手段,它的主要工作是采集各异构数据源的元数据信息,构建的难点在于元数据的采集、存储管理及数据同步。

2.1 元数据采集

建成一个良好的元数据仓储,是信息服务的基础,只有拥有规范的、高质量的元数据,才有可能建成灵活实用的资源服务体系。元数据采集设计示例如图1所示。

图1 元数据采集设计示例

2.1.1 采集对象分析

元数据采集的主要对象为能够提取元数据信息的数据库。一般有本地自建数据库、分布式自建数据库以及外购数据库。

2.1.2 本地自建数据库

本地自建数据库是图书馆对内部资源进行加工整理而形成的专题或特色数据库,其表结构等数据库详细信息均可获得,因此对于该部分数据库的元数据获取相对容易。

行业数据库的建设应遵循一定的指导原则,应具有可使用性、互操作性和可持续性。这样在后期的使用、升级或者构建其他服务时才能顺利进行。

2.1.3 分布式自建数据库

分布式自建数据库为其他机构建立的数据库,其对象数据不在本地。这部分数据与行业数据库类似,可以抽取出元数据信息,但是其数据库不在本地,所以其对象数据调用服务过程与行业数据库会有所不同。

当用户向本地Web服务器发送检索请求时,查找到自己想要信息并调用其详细内容时,如果对象数据在本地,则直接在本机构内数据库中获取数据返回到发布页面;如果不在本地的话,可以直接从异地数据库中取回数据返回到本地发布端,此过程并不会把异地数据库中的数据取回来放在自己的服务器上,而是同步显示在发布端。

2.1.4 外购数据库

外购数据库一般都是封装好的,我们无法获得其元数据信息。但是对于少数可以提供其元数据信息表的,我们提供导入工具。

数据库可以按照特定格式导出数据库内容。对于不同性质的数据库,如图书、期刊数据库,可以分别按照其元数据必备字段要求导出,支持的格式包括xls、txt、dbf、xml等,但是建议最好是xml文件,这样易于统一管理。

对于外购电子资源,根据电子资源供应商提供的服务方式,可以通过开放Z39.50协议、Web Service接口、相关API接口等获取该电子资源供应商授权的元数据信息。

2.2 元数据库存储与管理

2.2.1 元数据存储架构

数字图书馆需要整合大量的馆藏资源、外部电子资源与网络资源。因此,从数据存取效率和存储安全性方面考虑,建议元数据仓储采取架构在多个物理服务器之上的分布式服务,支持数据分布以及负载均衡两种基本分布方式,并支持两种方式的组合运用。

方式一是根据数据分类、功能不同,把内容分开存储。将整个元数据仓储的数据根据内容不同分为两类,分别存放于数据库(a)和数据库(b)中,(a)(b)内容不同。

方式二是内容相同,数据不分开,只是每套数据分别存储在不同的数据库中,数据库(a)和数据库(b)内都存放全部元数据仓储内容,(a)(b)内容相同。

资源调度服务器分发任务的方式可以根据网络流量、检索并发或者来访IP地址来进行任务分发。

元数据仓储数据库集群系统服务模式如图2所示。当用户向元数据仓储平台Web服务器发送检索请求时,其请求可能会被资源调度服务器分配到检索集群中的任意一个检索服务器,如分配给(a),(a)检索后并从原数据库中取回检索结果,资源调度服务器在发布集群中选择一个发布服务器,如(b),则(b)选择接受数据,并返回结果,将结果页面以一定方式显示给用户。

图2 数据库集群服务模式

2.2.2 元数据库管理

构建元数据库仓储一样要有很好的维护性。元数据仓储管理重点在于其中的数据,所以当数据有了新的变化,增加或减少,元数据仓储管理端都应该能够方便地进行处理。

①当自建原数据库内数据发生变化时,元数据库需要随之变化。②当增加新的自建数据库时,元数据库需要增加同步的数据库量。③数据库增加新内容或者增加新的数据库,由于网络环境不能实现同步,可通过表单提交元数据信息。

2.3 元数据同步更新

元数据同步更新可以分为实时和非实时。非实时同步可以通过查看数据库表的关系得到。其操作步骤一般为:①查看数据库表的关系;②在源机器上根据表的关系导出数据;③在目标机器上根据表的关系使用命令删除数据;④在目标机器上根据表的关系使用命令导入数据。

但是这种方式有很大的时间损耗,数据不能实时更新,因此我们采用实时同步的方式。元数据实时同步分为两种方式,一种为主动的,一种为被动的。主动的元数据同步:元数据库服务器定时查找对象数据库是否有更新,如果有更新,则进行增量同步。被动的元数据同步:对象数据库更新后,定期上传更新数据到元数据服务器。

由于机构内各个专题库数据库结构各异,如果要设定数据库对元数据仓储服务器的自动上传,需要对每个数据库进行改造,因此我们采用主动的元数据同步方式,由元数据服务器定期检测对象数据库,进行增量同步。

3 基于元数据仓储统一检索系统设计

检索服务是统一检索系统的主要功能。为了具备更好的用户体验,采用简洁的检索入口(类似Baidu的一框式搜索),通过元数据内容全文索引来检索和返回结果,对结果进行合并、排重、排序等处理,并通过全文调度引擎分析全文链接,提供全文获取服务。基于元数据仓储统一检索系统架构如图3所示。

图3 基于元数据仓储统一检索系统架构

3.1 简单检索

统一检索系统为用户提供简单检索入口。用户在检索前,可以选择资源类型进行检索,如期刊、图书、学位论文、会议、报纸等。每种资源类型还可以选择相应的元数据字段,以进一步缩小检索范围。用户也可以直接输入检索词进行检索,系统默认在所有资源元数据中进行检索。

系统将用户的检索请求转化为统一的检索表达式,并发送到本地的元数据仓储中,根据检索范围分发到对应的元数据库索引中进行检索。检索结果通过处理引擎进行合并、排重、排序等操作后,以统一的格式将结果呈现给用户。

统一检索提供一站式的检索入口和检索结果展现,能够减轻用户学习检索不同数据源的负担;采用多元数据库分布式全文检索,能够有效提升检索效率,节省用户检索时间;检索结果合并,为用户呈现格式统一、分类聚合、多种排序的检索结果,大大方便用户的浏览和选择。

3.2 高级检索

统一检索系统提供高级检索功能。用户可以对选中的多个数字资源同时进行检索,可以输入复杂的组合检索条件来提高检索精度,包括组配检索、日期限制、排序限制以及字段内部的截词和逻辑检索等。

3.3 检索结果展示

统一检索系统提供统一的检索结果展现方式,包括检索结果概览和细览,用户可以在一个页面中浏览不同资源库中检索出的结果信息。可以浏览每条结果的详细信息,甚至直接下载全文。

检索结果概览支持多库结果的统一展现,同时提供不同资源库的检索结果集分类和分面展现。这些展现方式都可以在一个页面上集中体现,方便用户根据自己的需要选择性查看。

3.4 全文获取

结果细览页面提供该检索结果的全文获取方式。不同资源类型所提供的全文获取服务不同,从总体上来看,资源全文获取服务可以包括以下几部分。

①电子资源服务,包括电子资源全文下载和电子资源在线阅览。电子资源全文下载需具有电子资源访问权限。电子资源在线阅览分为两种,一种为常见的非结构化文档,如Word、PDF、PPT、Excel、HTML、图片等,可以提供格式转换和在线查看;另一种为电子资源。

②馆藏服务,查看各个参与图书馆的馆藏信息,并提供图书馆藏状态查看、预借、续借服务(需要与图书馆OPAC系统集成)。一般显示3个有此馆藏的图书馆名称,点击“更多”可以展开该页面,显示全部有此馆藏的图书馆列表(需要与馆际互借和文献传递系统集成)。

③互联网服务,互联网公共搜索引擎,如百度新闻、百度文库、豆瓣书评等,需要进行统一检索配置。互联网专业搜索引擎,如国家知识产权局专利检索、标准技术网标准搜索等,需要进行统一检索配置。

④文献传递服务,虚拟参考咨询要与本馆虚拟参考咨询系统集成,馆际互借要与馆际互借和文献传递系统集成。

4 结语

文献资源的检索与利用是科研工作的重要组成部分,基于元数据仓储的统一检索系统能够整合图书馆现有数据库资源、外购的各种数据资源以及互联网搜索引擎资源,提供资源的一站式检索与服务。可以实现不同规模、多种资源库的资源整合与检索,实现检索结果统一展现,缩短了读者查找文献的时间,延长了读者科研的寿命。

[1]徐荣华.基于元数据仓储的资源整合应用[J].图书馆杂志,2012(4):67-73.

[2]李洪梅.数字图书馆异构资源统一检索研究[J].图书馆学刊,2013(2):49-53.

[3]葛川,陈洪梅,刘岚.数字资源统一检索系统的设计与实现[J].现代情报,2011(4):49-52.

[4]蒋继平,姚倩.文献资源整合中的统一检索系统应用研究[J].大学图书馆学报,2011(1):72-76.

[5]邓晓音.统一检索平台评价标准及比较研究——以CALIS“外文期刊网”及交大图书馆“思源探索”检索平台为例[J].情报科学,2012(12):1844-1848.

猜你喜欢
检索系统数据源统一
坚持严管和厚爱相统一的着力点
活力(2021年6期)2021-08-05 07:23:54
碑和帖的统一,心和形的统一,人和艺的统一
艺术品鉴(2020年6期)2020-08-11 09:36:34
统一数量再比较
收录《信号处理》的检索系统及数据库
信号处理(2018年1期)2018-09-03 07:53:04
收录《信号处理》的检索系统及数据库
信号处理(2018年5期)2018-06-28 02:16:02
本刊被以下检索系统及数据库收录
信号处理(2018年4期)2018-06-27 03:34:16
本刊被以下检索系统及数据库收录
信号处理(2018年3期)2018-06-27 03:30:18
Web 大数据系统数据源选择*
基于不同网络数据源的期刊评价研究
基于真值发现的冲突数据源质量评价算法