于彤,贾李蓉,刘静,杨硕,董燕,朱玲
中国中医科学院中医药信息研究所,北京 100700
·综述·
中医药学语言系统研究综述
于彤,贾李蓉,刘静,杨硕*,董燕,朱玲
中国中医科学院中医药信息研究所,北京 100700
中医药学语言系统(TCMLS)是由中国中医科学院中医药信息研究所联合全国13家中医药科研单位和高等院校于 2002年开始研制的大型术语系统。它是在统一医学语言系统(UMLS)的基础上,根据中医药领域的语言特点及学科体系特色,采用本体(ontology)的设计理念和方法研制而成。经过10余年的发展,TCMLS的技术体系日趋成熟,相关研究也越来越深入和系统化。通过回顾TCMLS的发展历程,对相关研究文献进行综述,分析存在的问题和未来的发展方向。
中医药;语言系统;中医药学语言系统;本体
中医药学经过几千年的发展,在临床实践和医学研究过程中产生了大量的概念和术语。朝代更迭、语言变迁、地域差异、学科融合等多种因素的综合影响,使中医药学术语体系变得极为复杂。针对中医药文本中大量存在的同物异名、同名异物等现象,中医药工作者往往无法做出正确判断[1]。通过建立一个完整、准确的语言系统,能够有效处理词义模糊、一词多义、一义多词等复杂的语言现象,可以解决长期困扰中医药信息化领域的术语使用不规范、术语组织不系统、信息检索效能低下等问题[2]。为此,中国中医科学院中医药信息研究所(以下简称“信息所”)联合全国13家中医药科研单位和高等院校,从2002年开始研制中医药学语言系统(traditional Chinese medicine language system, TCMLS)。本文回顾了 TCMLS的发展历程,对相关研究文献进行综述,分析存在的问题和发展方向,为中医药学语言系统的研究、编制和使用人员提供参考。
TCMLS原名为中医药一体化语言系统[3]。它是参照统一医学语言系统(UMLS),根据中医药领域的语言特点及学科体系特色,采用本体(ontology)的设计理念和方法研制而成的大型术语系统。其目的在于利用现代信息技术,逐步建立规范化的中医药术语体系,从而支持中医药信息资源的合理组织和有效检索。
TCMLS 主 要 包括语义 网 络 (semantic network)和基础词库两大部分。其中,语义网络定义了中医药领域最基本的语义类型(semantic type)和语义关系(semantic relation),构成TCMLS的顶层框架。基础词库则以概念为单位对中医药术语进行系统梳理和准确诠释,建立科学合理的概念分类体系以及概念之间的语义关系。经过 10余年的研发,TCMLS的技术体系日趋完善,建立了成熟的术语采集系统;组建了由 300多名专家组成的术语加工团队;收录了约 12万个概念、30万个术语和 127万条语义关系,涵盖了中医药学科体系及与之相关的生物、化工、哲学等学科的专业术语,在文献检索、文本挖掘、术语集成等方面得到了实际应用[2,4]。
从 20世纪 90年代开始,本体技术在医学领域得到广泛应用,在知识获取、知识管理和信息检索等方面发挥了积极的作用。UMLS是其中的一个代表性本体,它集合了来自100多个词表中的100多万个概念,用于提高计算机“理解”医学信息的能力,促进医学信息系统之间的互操作。注意到 UMLS在医学领域取得的成功,中医药工作者开始考虑将本体技术引入中医药领域,以中医药学科为主导且遵循中医药发展思路,研发基于本体的大型术语系统。2002年,信息所联合全国 13家单位正式启动了 TCMLS的建设工作。TCMLS从建立之初到目前为止,大体经历了3个阶段。
2.1 建设初始阶段(2002-2005年)
在建设初期,尹爱宁等[5-6]提出了建立 TCMLS的方法学,制定了TCMLS的技术标准。Zhou XZ等[7]则从信息技术角度提出了 TCMLS的技术方案。这些研究为 TCMLS的建设给出了科学合理的顶层设计和路线图,为其长期健康发展奠定了基础。在此阶段,各单位加工人员采用单机版的 Protégé软件分别加工各自的部分,再由信息所统一汇总。这一加工模式促成了多单位数百人协同共建,但所加工的数据难免有所重复和矛盾。
2.2 迅速成长阶段(2005-2009年)
从2005年开始,基于万维网(Web)的加工平台成功部署并投入使用。各单位加工人员得以在统一的网络平台上协同共建,免去了数据汇总的环节[8]。基于网络的协作方式显著提升了加工效率,使 TCMLS的规模得以迅速增长。但加工人员的主观性和专业水平差异等因素造成 TCMLS的数据存在很多质量问题,因此数据质量保证和数据清洗技术成为研究重点之一[9]。在系统建设的同时,学者们也针对系统设计和架构等问题进行了反复研讨,提出了一系列调整和改进方案[10-12]。
2.3 稳定发展阶段(2009-2014年)
经过上一阶段的大规模数据加工,TCMLS已收集了现代中医药文献中出现的大部分概念和术语,其数据增量开始逐年放缓。在2009年,信息所与维思比科技(北京)有限公司合作,在成熟的商业软件的基础上,搭建了更为稳定的网络加工平台。在完成平台改造和数据清洗等工作之后,TCMLS系统的数据质量得以显著提升。随着 TCMLS的发展成熟,其在文献检索、文本挖掘、术语集成等诸多方面的应用研究渐趋活跃。TCMLS的设计理念和成功经验,也在中医古籍语言系统[13]、传统针灸知识体系语义网络[14]等系统的建设中得以推广。
中医药术语系统具有鲜明的语言、文化和学科特色,没有现成的解决方案可以照搬。在 TCMLS的建设中,从中医药特点和需求出发,开展了许多创新性的研究工作。下面从方法学研究、标准化研究、分析与评价研究以及应用研究等方面,对相关文献进行综合分析。
3.1 方法学研究
学者们针对 TCMLS的建设,开展了系统性的方法学研究。尹爱宁等[5]提出“复杂度约定与限定方法”“多学科交融与碰撞方法”以及“本体论与诠释论关联应用方法”等3种方法,为TCMLS的设计和构建提供了新思路和新方法。尹爱宁等[3,6]还完成了 TCMLS的顶层设计,包括概念分类框架、语义类型以及语义关系等内容。方青[15]、曾召[16]、谢琪[17]也针对 TCMLS的设计理念、设计原则、系统架构和构建方法开展了研究和讨论。
学者们还针对 TCMLS所涉及的信息科学方法与技术开展了研究。Zhou XZ等[7]、方青[15]提出了TCMLS的技术方案,包括系统架构、数据存储、概念编码方式、编辑工具、查询服务等内容。汤萌芽[8]研发了基于 Web的 TCMLS加工平台,支持多单位大量人员的协同加工。Mao YX等[18]针对 TCMLS的管理和维护开展研究,提出了基于子本体模型的本体演化方法,以支持大型本体的重用。崔蒙等[9]研究如何通过自动化方法逐步提升 TCMLS的数据质量,提出了基于语义网络的数据清洗策略。
3.2 标准化研究
为协调多机构大量人员的编审工作,需要建立科学合理的技术标准。早在 2003年,尹爱宁等[6]就为 TCMLS制定了包括收词原则、收词标准、一级类目、语义类型、语义关系在内的技术标准。这项标准在系统建立过程中发挥了重要作用。但其适用范围仅限于 TCMLS,其他中医药本体均不完全符合这套标准,由此造成本体系统之间的异构性。可见,为使一套技术规范具有广泛的影响力和约束力,需要在权威的标准化组织的框架下开展工作。
鉴于此,信息所于2008年,代表我国向国际标准化组织(ISO)健康信息学技术委员会(TC 215)提出了技术规范“Health informatics-Semantic network framework of traditional Chinese medicine language system”的项目提案,致力于在ISO框架下推进TCMLS语义网络框架的国际标准化工作[19]。该项目于 2012年得到成功立项,于2013年3月形成草案并进入评审和投票环节,并于2014正式发布[20]。它在多术语系统融合、术语服务以及术语系统互操作等领域将发挥基础性作用。
3.3 分析与评价研究
学者们针对 TCMLS各方面进行分析与评价研究,以期发现其中存在的问题,促进 TCMLS的发展与完善。例如,贾李蓉等[21]对 TCMLS中语义类型的使用情况进行分析,找出不合理的语义类型并建议删去。杨阳等[10]、贾李蓉[11]、曹莉等[12]针对 TCMLS语义关系进行了深入的分析和探讨。贾李蓉[11]还建议对 TCMLS语义关系进行调整,如增加“开窍于……”“与……相表里”等中医特有的语义关系。李莎莎[22]指出 TCMLS分类框架存在问题,提出了分类指导原则以及改进的分类框架,使 TCMLS词库分类更加合理。贾李蓉等[23]从术语的收词范围、术语完整性等方面对基础词库进行了分析,提出了改进意见。
2012年,贾李蓉等[4]针对 TCMLS开展了较为全面、系统的评价研究。结果表明,该系统学科分类非常合理,语义分类基本合理,系统完整性较好,但语义关联的准确性较差。可见,TCMLS设计合理且具有相当规模,适合开展应用研究,其数据质量问题可在实际使用中逐步完善。
另外,谢琪[17]、曾召等[24]先后对 TCMLS与UMLS进行比较分析。结果表明,TCMLS虽然借鉴了 UMLS的设计方法,但其结构和内容均有鲜明的中医药特色,从而充分肯定了TCMLS的独特性和创造性。
3.4 应用研究
TCMLS作为中医药学规模最大的本体,在中医药信息化的发展中发挥着重要的作用。如何利用如此大规模的术语资源成为现阶段研究的重点问题。TCMLS在文献检索、文本语义关系发现、术语集成等方面已经取得了实际应用,初步验证了 TCMLS的实用性。
3.4.1 文献检索 TCMLS能解决中医药学中同一概念具有不同表达形式、同一种表达形式表达意思不同的问题,从而改进文献检索的效果。贾李蓉等[25]研发了基于 TCMLS的中医药文献检索服务平台,它能提供术语检索、文献检索及互联网资源检索等服务。该平台利用 TCMLS的术语信息实现了同义检索、相关概念检索等高级功能,提升了检索结果的全面性和准确性。
3.4.2 文本语义关系发现 在中医药文献中蕴含着大量的关联性知识,体现为概念之间的关联关系。若能实现从文献中自动抽取语义关系的技术,则可大幅提升知识获取的效率。陶金火等[26]、张小刚[27]、于彤等[28]开展了基于 TCMLS从文本中发现语义关系的一系列尝试。挖掘出来的语义关系可与 TCMLS的语义关系相结合,得到更为全面、准确的语义关系,从而扩充TCMLS的数据。
3.4.3 术语集成 术语系统的应用实践表明,单个术语系统往往难以满足科研或临床应用的需求,多术语系统的融合已成为实现术语系统实用化的先决条件之一。鉴于此,于彤等[29]采用本体技术研发中医药术语集成系统,将 TCMLS、中医古籍语言系统等多个术语系统集成在同一个平台中,通过 Web提供一站式的术语信息检索与访问服务,支持语言学家对语义网络进行归纳、浏览和比较研究。
TCMLS已趋于成熟并取得成功应用,但仍存在许多值得研究的问题。例如,随着 TCMLS系统规模的扩大,如何对本体进行有效管理?如何通过自动化方法提升 TCMLS的数据质量,逐步实现数据规范化?TCMLS等中医药本体皆自成体系、互不兼容,如何实现各系统之间的关联、协调与融合?现就TCMLS加工及应用 2个方面讨论其研究思路及发展方向。
4.1 大规模本体工程协作
TCMLS是由全国多家单位、数百名领域专家合作加工的大型本体系统,如何支持多机构的大规模协作始终是一个重要的技术问题。TCMLS建设之初,使用Protégé进行加工[7]。Protégé是由斯坦福大学研制的一款本体编辑软件,具有开源免费、安装方便、用户界面友好等优点,因此得到了广泛使用。但它是一款单机版的软件,需要各单位人员分别加工,再将数据统一汇总,这一加工方式导致数据合并时出现大量重复和不匹配的问题。随着系统规模逐渐扩大,这个问题变得越来越严重。
2005年,浙江大学研发了基于Web的TCMLS加工工具,使各单位人员可以通过网络进行实时同步加工,从而提升了加工效率和数据的一致性[8]。此后,网络化加工工具经过多次升级,与之配套的审校机制也不断完善,形成了相对成熟的虚拟协作模式。
在未来的研究中,可将单机版 Protégé与 Web平台相结合,进一步优化大规模本体工程的协作模式。未来可实现 TCMLS的模块化,使用 Protégé开发独立的本体模块,使用 Web平台维护共享的本体框架。用户可将个人开发的本体模块导入 Web平台中,与共享本体相融合;也可从平台中导出本体模块,通过 Protégé进行编辑、推理和查询。简单知识组织系统(simple knowledge organization system, SKOS)为本体在 Web上的发布和交换提供了一项推荐标准,能支持上述目标的实现。将TCMLS转换为SKOS本体,为在Web平台上完成本体发布、导入导出、本体融合等任务奠定了基础[30]。
4.2 推进中医药学语言系统实际应用
TCMLS在中医药信息化中具有巨大的应用潜力。中医药领域已积累了大量的数据库和海量文献,但仅提供简单的检索功能。如何基于 TCMLS整合中医药数字资源,建立一站式知识服务平台,面向中医药工作者和社会大众提供完整、准确、智能的知识服务,是TCMLS应用研究的核心问题。
近年来,谷歌知识图谱(Google knowledge graph)的巨大成功,使“知识图谱”成为知识服务领域的新的研发热点。TCMLS的大型语义网络为构建大型中医药知识图谱奠定了基础。在今后的研究中,可基于 TCMLS将中医药领域主要的术语系统和数据库集成在一起,形成以“语义网络”为骨架的大型知识图谱。知识图谱是 TCMLS的一种自然的扩充,其知识内容更加丰富,因此更具服务价值。
在知识图谱的基础上,可进一步搭建语义维基系统,面向网络用户提供百科全书式的知识服务;并参考维基用户的编辑结果和反馈意见,不断完善和丰富 TCMLS的内容,进而实现一站式的知识检索服务,为用户提供异构数据库和文献库的统一检索。在此基础上,可逐步实现知识推荐、知识地图、知识问答、决策支持、关系推理等高级服务。
TCMLS是基于本体技术研制的大型术语系统,它对中医药领域的概念和术语进行了系统梳理,为中医药术语规范化提供了基础性工具。目前,TCMLS已初具规模,其应用推广工作也在稳步进行之中。TCMLS的建立是一项创新性工作,对于中医药术语标准化以及信息数字化的实现具有重大意义。TCMLS的成功表明,本体能很好地处理中医药领域中各种复杂的语言现象,是构建中医药术语系统的有效手段。在国内外尚缺乏构建本体的成熟流程、方法和技术规范的情况下,TCMLS也为本体工程方法学的发展与完善做出了贡献。
[1] 朱建平.中医术语规范化与中医现代化国际化[J].中华中医药杂志, 2006,21(1):6-8.
[2] 贾李蓉,于彤,崔蒙,等.中医药学语言系统研究进展[J].中国数字医学,2014,9(10):57-59,62.
[3] 尹爱宁,张汝恩.建立《中医药一体化语言系统》[J].中国中医药信息杂志,2003,10(3):90-91.
[4] 贾李蓉,朱玲,董燕,等.中医药学语言系统评价体系的研究与建立[J].中国数字医学,2012,7(10):13-16.
[5] 尹爱宁,张汝恩.建立中医药学一体化语言系统的方法学研究[J].中国中医药信息杂志,2003,10(9):90-92.
[6] 尹爱宁,张汝恩.《中医药一体化语言系统》技术标准[J].中国中医药信息杂志,2003,10(7):92-94.
[7] ZHOU XZ, WU ZH, YIN AN, et al. Ontology development for unified traditional Chinese medical language system[J]. Artif Intell Med,2004,32(1):15-27.
[8] 汤萌芽.中医药本体工程及相关应用[D].杭州:浙江大学,2007.
[9] 崔蒙,胡雪琴.中医药语言系统中的数据清洗策略研究[J].中国数字医学,2010,5(5):17-19.
[10] 杨阳,崔蒙,李园白.语义关系在语言系统中的作用及现状分析[J].世界科学技术—中医药现代化,2009,11(4):604-607.
[11] 贾李蓉.中医药学语言系统语义关系初探[D].北京:中国中医研究院,2005.
[12] 曹莉,韩佩玉,陈颖,等.中医药一体化语言系统中语义关系的探讨[J].时珍国医国药,2006,17(3):444-445.
[13] 朱玲,尹爱宁,崔蒙.中医古籍语言系统构建的关键问题与对策[J].中国中医药信息杂志,2010,17(4):98-99.
[14] 朱玲,崔蒙.传统针灸知识体系语义网络的构建探讨[J].中国数字医学,2010,5(5):47-49.
[15] 方青.基于本体论的中医药一体化语言系统[D].杭州:浙江大学, 2004.
[16] 曾召.本体论在中医药学语言系统中的应用研究[J].中华医学图书情报杂志,2007,16(1):4-6.
[17] 谢琪.基于本体方法构建中医药概念信息模型的方法学示范研究[D].北京:中国中医科学院,2011.
[18] MAO YX, WU ZH, TIAN WY, et al. Dynamic sub-ontology evolution for traditional Chinese medicine web ontology[J]. Journal of Biomedical Informatics,2008,41(5):790-805.
[19] 李海燕,崔蒙,任冠华,等.ISO/TC215传统医学信息标准化工作进展[J].国际中医中药杂志,2011,33(3):193-195.
[20] 于彤,崔蒙,李海燕,等.中医药学语言系统的语义网络框架:一个面向中医药领域的规范化顶层本体[J].中国数字医学,2014,9(1):44-47.
[21] 贾李蓉,董燕,田野,等.中医药学语言系统中的语义类型分析[J].世界中医药,2013,8(5):563-565.
[22] 李莎莎.中医药学语言系统超级叙词表分类原则和构架的探讨[D].北京:中国中医科学院,2011.
[23] 贾李蓉,李海燕,于彤,等.中医药学语言系统基础词库分析[J].中国数字医学,2014,9(2):66-67.
[24] 曾召,王小平.UMLS与中医药一体化语言系统的建立[J].中华医学图书情报杂志,2006,15(3):1-3.
[25] 贾李蓉,刘丽红.基于中医药学语言系统的文献检索服务平台[J].医学信息学杂志,2012,33(1):54-56.
[26] 陶金火,陈华钧,胡雪琴.中医药文献语义关系图发现[J].计算机科学,2011,38(3):213-217,251.
[27] 张小刚.基于中医药本体的语义关系发现及验证方法[D].杭州:浙江大学,2010.
[28] 于彤,贾李蓉,张竹绿,等.面向中医药文献的语义关系发现方法研究[J].中国中医药图书情报杂志,2014,38(6):1-5.
[29] 于彤,刘静,杨硕,等.中医术语集成系统研发[J].中国数字医学, 2014,9(9):81-84.
[30] 于彤,崔蒙,张竹绿.从中医药学语言系统到简单知识组织系统本体的转换研究[J].中国中医药信息杂志,2014,21(12):38-41.
Research Overview on Traditional Chinese Medicine Language System
YU Tong, JIA Li-rong, LIU Jing, YANG Shuo*, DONG Yan, ZHU Ling
(Information Institute of Traditional Chinese Medicine, China Academy of Chinese Medical Sciences, Beijing 100700, China)
Traditional Chinese Medicine Language System (TCMLS) is a large-scale language system which has been developed by Information Institute of Traditional Chinese Medicine of China Academy of Chinese Medical Sciences combined with 13 TCM research institutes and colleges and universities since 2002. Based on Unified Medical Language System (UMLS), TCMLS was developed according to the language features and subject system characteristics of TCM field. Then by using the design philosophy and method of Ontology, TCMLS has been finally established. With more than a decade of development, the technical system of TCMLS has reached maturity, and the related researches were getting increasingly in-depth and systemic. This article reviewed the development history and related literature of TCMLS, and analyzed existing problems and future development directions.
traditional Chinese medicine (TCM); language system; traditional Chinese medicine language system (TCMLS); ontology
10.3969/j.issn.2095-5707.2015.06.016
2015-04-01)
(
2015-04-08;编辑:魏民)
北京中医药科技发展资金面上课题专项经费(JJ2014-61);中国中医科学院基本科研业务费自主选题(ZZ070804)
于彤,助理研究员,研究方向为中医药信息学。E-mail: yutongoracle@hotmail.com
*通讯作者:杨硕,副研究员,研究方向为中医药信息学。E-mail: y1y6y3@hotmail.com