王冠华,危 红
2010年中国科学技术信息研究所启动《汉语主题词表》 (工程技术版)(以下简称“《汉表》”)的修订,2013年基本完成。新《汉表》是建立在网络环境下的在线《汉表》,是由基础词库、核心词库、叙词词库等构成的知识组织系统,采用在线平台进行编制,提供基于知识组织的术语服务,加强与用户的交互,并建立动态变化的专业知识体系更新与维护机制,其智能化和可视化技术提供了更多人性化的应用方式[1]。
新《汉表》 的基础词库来源包括80余种的中文叙词表,截止2010年6月的全国科学技术名词审定委员会公布的科技术语,1600余种的术语标准,约200种的理工类词典(含百科),约300万条万方中文期刊、学位论文关键词、维普中文期刊关键词以及约100万条的网络百科词汇。按词形查重后总计360万条。其中,约30万条无法归类,主要为网络词汇,330万条词汇有分类;161万条词汇有英文译称,27万条词汇有注释,21万条词汇有用/代关系,32万条词汇有属/分关系,10万条词汇有相关关系[2]。不同来源的数据、概念的合并和关联都会加大概念体系的复杂度。如何合并相同概念,构建同义词群;如何区分叙词的等级关系;如何注意到等同关系、等级关系、相关关系之间既有语词客观的联系,又有很大的人为性,且相互间不是绝对的,是可以相互转换的;如何在多人协同工作模式下,使叙词的词间关系得以控制,是词表修订工作中词间关系建设质量的体现。
等同关系用于同义词或近义词之间,即一般的异形同义词、同一概念的不同译名之间、旧称与新称之间、俗称与学名之间、中文全译名与外文缩写词之间、别名与产品型号名之间;还用于准同义词之间,即一般准同义词之间、部分反义词之间,用于泛指叙词与专指叙词之间,须将使用频率低的专指词归纳到所从属的泛指叙词。准同义词的词义不同,但从文献处理与情报检索方面考虑,需要将它们作为同义词来处理,以免分散文献[3]。
虽然新《汉表》在线平台对库中词汇有同义词推荐功能,方便了同义词的词群建立,但新《汉表》的海量词汇,致使推荐的同义词建群的准确率不太高,真正等同关系的建立,还是依赖于编表人员的判断。一般来说,同义词群是一个概念的多个表达词汇的汇集。这个词群中所包括的词汇不全是同义词,它可以有准同义词、部分反义词,以及0词频的下位叙词。
图1 以废弃物为叙词的词群
如图1所示,这是具有大量入口词(即非优选词)的词群,词频的高低是叙词(即优选词)选取的依据之一,废弃物作为这个词群中词频最高的词,可选做优选词;废物作为同义词、三废作为准同义词、零废品作为反义词,因其词频低于废弃物,可作为入口词;中级废物、二次废物、次生废物等在词义上具有上下位关系,但因其0词频,则采用用代关系,而不是属分关系。废弃物作为叙词具有唯一性,其它词均作为非叙词(即入口词、非优选词)。
如图2所示,按词群的词频看,SBR法的词频最高,但叙词是序批式活性污泥法。序批式活性污泥法是环境工程专业名词,按中华人民共和国环境保护标准《环境工程 名词术语》(HJ 2016-2012)的定义:英文定义为sequencing batch reactor activated sludge process(缩写SBR);中文定义为在同一反应池(器)中,按时间顺序由进水、曝气、沉淀、排水和待机5个基本工序组成的活性污泥污水处理方法,简称SBR法。SBR法是序批式活性污泥法的简称,是一种按间歇曝气方式来运行的活性污泥污水处理技术。项目组规定,对于以英文缩略语、中英文组合、中英文缩略语组合的叙词,应列出相对应的全中文叙词,与原有叙词之间可建立用代关系。而序批式活性污泥法为国家标准的名称术语,是在文献标引与检索中用于表达文献的主题而规范化的词,可作为叙词,其外文缩写词或相同概念的不同表达方法的词汇做非叙词,以用代关系来表达。
图2 以序批式活性污泥法为叙词的词群
构建同义词群还需注意多个合成词组成的复杂概念叙词,由于合成词位置不同而出现的不同词形叙词,需要认真甄别是否是同一概念。比如,安全生活与生活安全;安全系统与系统安全,按词义看,前者可作为同义词来建群,后者则分别为两个词族的下位词。
严格意义上的概念等级关系中,表达涵义较为宽泛的上位概念的外延包含属于上位词的较小的、更为专指的下位概念的全部外延,即属种关系。从传统纸质检索系统发展到现在的网络和电子信息检索系统,检索主体和客体都发生了转变,知识组织工具为适应这种转变,在对概念语义关系的揭示上也在不断拓展和演化。美国标准ANSI/NISOZ39.19在2005年的第4版中等级关系拓展到3种不同的逻辑关系,即属种关系、实例关系、整部关系,该标准沿用至今。
中国标准中对叙词间等级关系只规定了2种类型,即通用属分关系与整体部分属分关系。通用属分关系是以概念之间是否具有包含关系为基础;事物的整体与部分之间一般不构成属分关系,只有特定的整体部分关系可作为属分关系处理,即表示行政区划、地理区域的词,表示人体、生物体的系统与器官的词,表示某些行政与社群结构的词。
新《汉表》词间等级关系的建立,实际上就是构建一系列词族,即以词族形式显示等级关系。其等级关系包括属种关系、整体与部分关系、实例关系(通常用专有名词表示)。需要注意的是,切勿把分类法中所列的某些类目名称,移植到族首词的等级关系中,因为在分类检索语言体系中,用来揭示文献主题内容的标识符是分类号,而不是类目名称,其所显示的每一级分类号都是受学科体系分类等级控制的。多数情况下,孤立的类名是看不出这些层次关系的。在叙词检索语言体系中,标识符就是叙词。每个叙词概念的等级,都定位在该叙词所在词族的属分关系链中,通过叙词属分关系链就可确定其级别。所以,严格按叙词概念的本质属性,建立属分等级关系就显得特别重要。
典型的属种关系包括相同属性的事物(实体)、相同属性的活动(过程)、相同属性的状态(形态)、相同属性的形状(尺度)、相同属性的特征(特性)、相同属性的学科(理论)、相同属性的结构(系统)、相同属性的组织(社会机构)[4],如图3、图4、图5所示。
图3 相同属性的事物
图4 相同属性的活动
图5 相同属性的结构
在词族加工过程中,很多词汇的等级关系并不明显,有些介于等级关系和相关关系之间,有些类似分类法“类”的关系。如果按严格的等级关系,一些词语具有某种等级关系,却又游离在“分类”和“词族”两种等级之外,进不了词族[4]。因此在建立等级关系时,需要编表人员仔细分析、判断、归纳,可考虑进行必要的变通,比如涉及一些与机理(原理、机制、理论)、工艺(技术、加工、生产、制造)、方法、性质等相关的语词,可根据词量的大小来设定建等级关系还是等同关系或相关关系。比如,废水处理、废水处理工艺、废水处理方法、废水处理技术就建为同义词群。有些独词,不适合建立参照关系,则可以考虑作为最相关词的下位词,这种变通对查词、自动标引有利,也不会引起歧义。
图6 不典型的等级关系
当一个概念在逻辑上可以隶属于多个不同的族类,这种关系称为多等级族关系,此类关系的存在是基于对概念词汇的不同角度建立属分关系而形成的。即在不同词族中,会同时出现一个概念的叙词,或在同一词族中也会出现叙词多属的情况。比如废液分工业废液、黑液、酒精废液等等,工业废液又分轻工业废液、化工废液、皮革废液等等,轻工业废液又分制浆废液、食品工业废液、染色废液等等,制浆废液又分制浆黑液;而黑液又分制浆黑液,其中制浆黑液,既属于制浆废液,又属于黑液,它同时分属于两个不同的上位概念,且还是同一词族废液下分的叙词多属。
新《汉表》的编制过程中,建立叙词的属分关系必须要明确相关叙词的概念大小与等级关系,否则,将造成属分关系的混乱。比如某某设施、设备、装置等叙词,如何区分这些叙词的概念大小,项目组给出的参考是:装备>设备>机械>机器>装置>机构;组件>器件(零件)>部件>元件;系统≈设备(采油系统、采油设备);系统≈装置(检测系统、检测装置);系统≈机构(启动系统、启动机构);系统≠机械、装置、机构(管理系统、管理装置、管理机构)。但在实际编制过程中,并不能完全按上述给出的参考来完成叙词的等级关系,如果一个概念的前方匹配一致,只是设备或装置的词不同,且词频低,词族聚词又太少,这时的等级关系可转化为等同关系,某某设备或某某装置可按同义词来构建词群。
图7 安全设备、安全设施
图8 防雷装置
如图7所示,安全设施和安全设备的词频都不低,且词族聚词也不少,各自均有下位词,因而可分为两个词族。图8所示,防雷设施和防雷设备并没有分为两个词族,虽然它们的词频也不算太低。因为防雷系统、防雷设施、防雷设备几乎没有不同下位词的词族聚词,所以可与防雷装置构成同义词群,根据词频及下位类词,选择防雷装置为叙词。
正确理解等同、等级关系的构建原则是建立等同、等级关系的前提条件。尤其需要注意那些容易出错的典型的字面成族、分类法的从属派生关系与叙词法的属分关系混淆不清,如事物与方面、整体与部分关系等,泛指概念属专业概念,即小帽子大身体。对于复合概念,保留词频较高的词汇,并注意其多属特征,删除词频较低的词汇。在同一词族,要注意叙词中的部分词汇的词形相同。在构建词间关系的过程中,大多数的前方一致检索是构建等同关系的重要手段,大多数的后方一致检索则是构建等级关系的重要手段,以相同词尾结束的词语,有相当一部分具有成族性。网络环境下的新《汉表》,不只是单纯的词表,它具备了纸质文献环境下所不具有的动态、开发、便于更改增删和维护等功能。它的词间关系揭示更为深刻,对于用户检索用词和文献主题的准确表达考虑更为充分,实现了叙词表词库与用户检索用词最大限度的一致,从而能为更大范围的人群使用。
[1] 曾建勋,常春,吴雯娜,等.网络环境下新型《汉语主题词表》 的构建[J]. 中国图书馆学报,2011(4):43.
[2] 中国科学技术信息研究所.《汉语主题词表》(工程技术版) 编制方法培训[Z].2011.
[3] G B 13190-1991,汉语叙词表编制规则[S].
[4] 陈树年.词间关系及其处理[Z].2012.