基于大数据环境下读者决策的图书采购模型研究

2019-06-13 00:52:30杨永权
河南图书馆学刊 2019年2期
关键词:高校图书馆大数据

杨永权

关键词:大数据;读者决策采购;高校图书馆

摘 要:文章介绍了多种图书采购模式的特点,分析了大数据和数据挖掘技术在读者决策采购中的应用情况,探讨了如何利用大数据思维构建新的读者决策采购模型,以期为高校图书馆创新资源采购模式提供理论参考。

中图分类号:G250文献标识码:A文章编号:1003-1588(2019)02-0085-04

随着互联网技术在各个行业的深入渗透,大数据和云计算技術改变了人们的生活方式,推动了社会的变革。高校图书馆作为文献信息中心,面临着馆藏资源利用率低、经费逐年下降、读者参与荐购热情低等问题。在这种情况下,如何快速转变服务模式、提升有限经费的利用率、优化传统的购书流程,已经成为高校图书馆亟须解决的问题。读者决策采购(PDA)作为一种新型的图书采购模式,能有效优化高校图书馆的购书制度和流程,提高高校图书馆购书经费的利用率,满足读者的实际需求,在欧美等国家的高校图书馆得到了广泛运用,并取得了一定成效。

1 图书采购模式

相关统计数据显示,2017年我国出版的新版图书多达255,106种,因此,如何选购合适的图书已经成了高校图书馆亟须解决的难题。笔者根据大部分高校图书馆的做法,提出了以下几种图书采购方式:①依靠采访编目部工作人员的经验采购图书。采访编目部工作人员按照学校的专业设置、馆藏情况及长期从事该项工作的经验,进行有计划的图书采购。但是,由于该采购方式受个人经验的限制,具有一定的主观性。②组织现场选购图书。高校图书馆按照书商提供的书目,组织部分馆员、教师和学生参加大型图书展会或到购书中心进行现场选购图书,控制不同学科图书的比例。该采购方式能够优化馆藏结构,满足师生读者的阅读需求,受到了他们的欢迎。但是,现场选书会产生交通等费用开支,进而提高采购成本。③网络推荐采购图书。读者可通过e-mail、QQ、微信及OPAC自带的图书推荐系统等网络推荐方式进行图书推荐,高校图书馆根据读者推荐的图书进行采购,满足读者的个性化需求。虽然该采购方式受到读者的欢迎,但是所推荐的图书可能在教学辅助方面的针对性不强。

由于高校图书馆工作人员没有及时将图书采购情况反馈给荐购人,上述图书采购方式不能很好地激发读者的参与热情。此外,由于缺乏科学的评判标准,是否进行购买推荐的图书馆由采访人员决定,人为因素起到了决定性作用。

2 PDA采购模式

读者决策采购(Patron Driven Acquisitions,简称PDA),又称需求驱动采购(Demand-Driven Acquisitions,简称DDA),是指图书馆基于读者对某一本书的实际阅读或浏览情况(如读者的点击次数、阅读停留时间等),预设一定的参数,当达到相应条件(如点击人数超过10次、图书单价低于200元等)时,自动触发购买某一文献指令的一种资源采购模式。

2.1 PDA的历史

PDA起源于20世纪60年代美国的图书纲目购书计划,主要指图书馆与书商在选书和加工方面的协调互动[1]。我国学者将国外产生PDA的原因归结为两个方面:一是美国经济不景气,购书经费被大幅度压缩,藏书与读者的实际需求相脱节,导致文献利用率低下。二是随着信息技术的发展,人们的阅读行为发生了改变,电子阅读逐步成为时代潮流,图书馆需要与出版商进行业务系统对接。PDA是馆际互借的衍生物,美国巴克内尔大学图书馆在1990年开始实施PDA项目。由于馆际互借的成本较高及借阅时间所限,该校图书馆尝试将PDA用于馆际互借,只要是达到一定的请求次数或符合馆藏建设标准的图书,图书馆将考虑购买这些图书。因此,PDA从最初只是为满足馆际互借需求的一项拓展服务,到后来逐渐演化为馆藏资源建设的一种模式[2]。

2.2 PDA的工作流程

根据不同的使用环境,PDA的工作流程可能会有所不同,但是其基本原理是以读者的阅读行为(如点击浏览量、推荐量及试读次数等)为触发条件的,系统会自动判断是否达到相应的参数阈值,从而触发购买或借阅行为的发生。其中,触发类型可以细分为图书馆联机目录(OPAC)触发型、馆际互借触发型和网络书店触发型。笔者以OPAC触发型为例,构建了纸质图书PDA的工作流程图。

首先,高校图书馆根据馆藏原则拟订纸质或电子图书的书目,要求出版商提供符合预设文档图书的MARC数据。其次,图书馆将书商提供的符合标准的MARC数据导入书目管理系统中,并与原有馆藏MRAC进行匹配[3],筛选冗余数据。读者通过OPAC检索书目信息,如果图书馆藏有所需的图书,系统就自动弹出书目信息;如果图书馆没有收藏所需的图书,系统就会自动链接书商的服务器,弹出相关资源的信息。最后,当点击浏览量或请求文献次数达到设定的阈值时,系统就会触发购买命令或试读电子图书[4]。根据高校图书馆的文献资源建设标准及图书供货原则,图书的触发机制可能会有所不同,如图书的价格、种类、出版年限及是否符合学校的专业建设要求等。如果达到一定的条件,读者就可以获取所需图书的电子版,但仅能浏览所需图书纸质版的简介和大纲。

在这种模式下,读者能发出采购指令,在不知情的情况下参与荐购,高校图书馆也不需要再向读者进行人工推荐或宣传。有些书商还提供先试用后购买的服务,与图书馆的OPAC进行对接,当图书馆没有相关图书时,读者可点击书商提供的链接直接阅读,当点击的次数、浏览时间达到图书馆预设的指标后,系统将自动触发向书商租用或购买该书的行为。另外,PDA系统具有相对健全的查询功能,可以及时提供购买情况和跟踪信息,激发读者参与荐购的热情,PDA系统还可以不断优化参数和标准,在很大程度上减少工作人员的主观预测,进而满足读者的个性化需求。

3 基于大数据的读者决策采购模型研究

3.1 大数据和数据挖掘技术的概念

大数据是指无法在一定时间范围内用常规工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。大数据具有5V特点,即大量(Volume)、高速(Velocity)、多样(Variety)、低价值密度(Value)和真实性(Veracity)[5]。数据挖掘技术是一种可以将隐藏在大量数据信息中的有用信息以规则、概念、规律和模式等形式提取出来的技术。大数据时代,高校图书馆经过多年的信息化建设,已经累积了大量的业务数据。高校图书馆应对累积的大数据进行整理,分析文献的利用情况,挖掘有价值的信息,如学生的阅读兴趣、图书的借阅率等,进而为管理人员或图书采购人员提供科学依据,避免人为主观因素的影响,为馆藏资源建设提供更加科学、准确、全面的分析与预测。因此,以数据挖掘技术为基础的图书馆服务模式正逐步改变人们的管理理念,传统的人工服务模式受到了严峻的挑战。

3.2 图书馆大数据的来源

数据表示形式可分为结构化数据(用二维表结构表达实现的数据形式,通常存储在关系型数据库和面向对象数据库中)、非结构化数据(如视频、图片、图像和声音等)和半结构化数据(介于结构化和非结构化之间,如邮件、报表和HTML等)。高校图书馆经过多年的信息化建设,其大数据的主要来源有以下两种。

3.2.1 结构化数据的来源。①读者利用馆藏资源的记录。流通系统能自动记录读者的借阅信息,如读者的个人信息、借阅历史和借还时间。②读者利用馆藏电子资源的历史记录。图书馆一般都会购买或自建学术数据库、特色资源数据库、电子期刊、数字报刊和电子图书等数据库,这些资源的类型多样、数据量大、增长速度快,它们都是图书馆大数据的重要来源。读者下载或查看这些电子资源的信息能被系统详细记录,这些信息大多属于结构化数据,它们的结构相对单一。

3.2.2 非结构化和半结构化数据的来源。网络时代,读者在通过智能手机、平板电脑等设备获取图书馆资源的过程中,必然会留下相应的痕迹,进而产生大量非结构化数据,如读者的访问时间、访问位置、访问习惯、检索历史和登录方式等。高校图书馆在资源建设过程中不仅要重视结构化数据,还要特别重视非结构化数据,可以利用数据挖掘技术对这些数据进行整理收集、挖掘和分析,获取读者的兴趣偏好,满足读者的个性化和多样化需求。

3.3 运用大数据提升图书采购效果

PDA模式虽然已经取得了良好的效果,但是也存在一些不足,如经PDA推荐购买的图书是否符合馆藏体系,读者是否存在滥用选书权利的现象,经费使用是否合理等。有学者指出,通过PDA购买的图书只有30%是有购买价值的,高校图书馆不能单纯购买读者喜欢的图书,否则容易造成馆藏图书结构的不平衡。因此,为了避免类似问题的发生,图书馆需要利用数据挖掘技术对读者的阅读偏好、阅读行为和馆藏资源的利用情况等数据进行收集与分析,预测读者的偏好规律,进而设置科学的PDA参数,使PDA决策与馆藏规划方向一致,避免读者的即时性与盲目性选书造成文献流通量低下,同时还可以完善馆藏特色资源建设。

3.4 系统模型的构建

笔者结合数据挖掘的流程,利用数据挖掘技术构建知识库的流程。构建知识库的流程包括数据源采集、数据预处理、数据仓库形成、数据挖掘算法和形成知识库等步骤。

3.4.1 数据源采集。基本数据源采集是形成数据仓库并进行数据挖掘的基础,可采集的数据包括馆藏书目信息、读者个人信息、流通借阅信息、读者的檢索日志及其他半结构化数据或非结构化数据。

3.4.2 数据预处理。数据清洗是检测和去除数据集中的噪声数据和无关数据,处理遗漏数据,去除空白数据域和知识背景下的白噪声,分为有监督清洗和无监督清洗两类。数据集成是对不同来源、格式、性质的数据进行有机集中,删除冗余数据。数据变换是在对数据进行统计分析时,要求数据必须满足一定的条件,找到数据的不变式。数据规约是将图书馆数据库中的大量数据进行合并或压缩,减少数据量,但规约后的数据仍保持原始数据的完整性,有助于提高数据挖掘的性能和效率。

3.4.3 数据仓库形成。图书馆通过对基本数据的预处理,将大量异构、无序和冗余的数据整合为具有一定主题、相对稳定、易于分析挖掘的标准化数据。

3.4.4 数据挖掘过程。高校图书馆应以构建的数据仓库为基础,从读者的基础信息、阅读兴趣、馆藏利用等维度进行挖掘,主要包括以下几个方面:一是根据借阅历史记录表对每类图书的借阅频率和借阅量及读者的检索情况等进行分析,获取用户对每类图书的实际需求。二是分析每类图书的续借情况及归还时间。三是根据读者信息记录表对读者的基本情况进行分析,如读者的专业、读者的文化程度等。四是根据检索历史记录表分析读者对每类图书的检索情况。五是以年或季度为时间单位统计各类图书的购买情况及馆藏结构变化情况,分析读者对各类图书的需求情况。六是运用数据挖掘技术对读者的阅读兴趣进行挖掘[6]。图书馆可采用多种数据挖掘算法进行挖掘,如:基于借阅数据运用关联规则算法,基于读者兴趣运用协同过滤挖掘法,基于不同的读者群体运用聚类挖掘法及预测挖掘法等。

3.4.5 形成知识库。图书馆应将数据挖掘得出的规则置于知识库中,使它们在改进后的PDA模型中起到智能推荐的作用。

3.5 改进后PDA推荐模型

在原有PDA基础上,图书馆引入经过数据挖掘后的知识库,重新构建了PDA工作流程(见图2):一是图书馆根据学校的专业设置、经费预算和馆藏原则等情况,制定一系列采购标准,如图书的单价、种类及出版日期等,形成科学、合理的采购制度。二是书商提供MARC记录,并与图书馆现有的馆藏数据进行匹配,删除冗余数据,进而与图书馆OPAC进行有效对接。三是读者登录图书馆OPAC系统检索文献,当图书馆没有需要的文献时,可选择书商提供的检索入口进行检索。四是PDA系统根据读者的借阅历史和检索记录,计算出读者的阅读兴趣,向他们推荐感兴趣的资源,由读者决定是否荐购;当读者发出采购请求时,PDA系统能自动检测推荐资源是否符合要求,在某种程度上尽量减少无意义荐购行为的发生。五是当以上荐购信息满足预设条件时,可触发购买命令的执行,采编人员下单完成。

由工作流程图可以看出,新的PDA系统加入了数据挖掘的功能,能获取读者的兴趣偏好,判断是否符合采购条件,进而减少读者的无意义荐购。新的PDA系统也能根据读者的阅读兴趣向读者推荐资源,提升读者的使用体验。新的PDA系统还可根据实际反馈情况对设置的参数进行调整,逐步提高读者荐购系统的推荐效果。

4 结语

与传统的图书采购模式相比,PDA采购模式以读者需求为驱动,能有效提升图书利用率。因此,高校图书馆在看到PDA所带来的效果的同时,还应该综合考虑馆藏特色及馆藏多样性,充分发挥传统采购模式和PDA采购模式的优势,从而使馆藏资源建设更加科学化、合理化和特色化。

参考文献:

[1] 贾丽君.基于PDA的图书资源采购云平台构建分析[J].图书情报工作,2016(4):67-72.

[2] 唐吉深.我国读者决策采购(PDA)研究述评[J].图书馆学研究,2015(2):22-28.

[3] 胡小菁.PDA:读者决策采购[J].中国图书馆学报,2011(2):50.

[4] 王芙蓉.大数据环境下基于读者决策的图书馆文献资源采购模型研究[J].图书馆学研究,2017(12):54-59.

[5]大数据[EB/OL].[2018-12-06].http://www.czs.gov.cn/tjj/tjzs/content_610979.html.

[6] 宋宇.基于数据挖掘的图书采购模型研究[J].图书馆学研究,2014(17):53-55.

(编校:孙新梅)

猜你喜欢
高校图书馆大数据
高校图书馆阅读推广案例分析
科技视界(2016年21期)2016-10-17 19:32:37
微信公众平台在高校图书馆信息服务中的应用研究
科技视界(2016年21期)2016-10-17 19:25:20
高校图书馆阅读推广活动研究
商(2016年27期)2016-10-17 06:38:27
试论高校图书馆在网络环境冲击下的人文建设
商(2016年27期)2016-10-17 06:30:59
大数据环境下基于移动客户端的传统媒体转型思路
新闻世界(2016年10期)2016-10-11 20:13:53
高校图书馆阅读推广实践探讨
科技视界(2016年20期)2016-09-29 13:17:57
高校图书馆电子资源的宣传与推广
科技视界(2016年20期)2016-09-29 11:22:45
基于大数据背景下的智慧城市建设研究
科技视界(2016年20期)2016-09-29 10:53:22
数据+舆情:南方报业创新转型提高服务能力的探索
中国记者(2016年6期)2016-08-26 12:36:20