基于关联数据的数字图书馆个性化信息推荐系统

2013-09-23 01:27:42
图书馆学刊 2013年4期
关键词:项集数据挖掘关联

付 兵

(湛江师范学院基础教育学院图书馆,广东 湛江 524037)

数字图书馆就是数字化的信息资源库[1],其主要功能是为用户提供信息服务。随着Internet技术及信息技术的快速发展,信息资源内容丰富、形式多样,但质量却良莠不齐,信息的“爆炸”式增长使得信息的利用率反而降低,出现“信息超载”现象。如何从浩如烟海的信息海洋中快速找到自己所需的优质信息资源,是广大信息用户面临的主要难题。随着Lib2.0技术的出现和应用,个性化信息推荐服务逐渐成为数字图书馆新型服务模式的主流,其改变了传统图书馆的被动服务方式,能根据用户的兴趣爱好主动为其推荐信息,从而提高了数字图书馆信息服务的质量。个性化推荐系统的主要算法有基于内容的推荐、基于协同过滤的推荐、基于关联规则的推荐、基于用户统计信息的推荐、基于知识的推荐等[2],个性化推荐在图书馆的研究应用主要是针对图书的推荐,因此笔者设计了一个基于关联规则数据挖掘技术的数字图书馆个性化信息推荐系统。

1 关联规则数据挖掘

关联规则是数据挖掘的主要技术之一[3]。所谓关联规则,就是寻找描述数据库中数据项(属性、变量)之间存在或潜在的相关性。利用关联规则的数据挖掘技术,可以找出大量数据之间未知的相互依赖关系[4]。由于关联规则形式简洁、易于解释和理解并能有效捕捉数据间的重要关系,因此从大型数据库中挖掘关联规则已成为近年来数据挖掘领域的一个热点。目前关联规则数据挖掘技术已经广泛应用于电子商务、人工智能、信息检索、统计学、数据库等众多领域,并取得了一定的研究成果。

1.1 关联规则的有关概念[5]

设I={i1,i2,…,im}是事务数据库D中数据项的集合,则I称为项集。含有k个数据项的项集称为k-项集。事务T是项集I中的一些元素组成的集合,即T⊆I,在关系数据库中相当于记录。事务数据库D是所有事务T的集合。关联规则是形如 A⇒B 的蕴含式,其中,A⊂I,B⊂I,并且 A∩B=Ø。若规则A⇒B在事务集D中成立,则具有支持度(support)s和置信度(confidence)c,其中s是D中事务包含A∪B(即A和B二者)的百分比,c是D中包含A的事务同时也包含B的百分比。同时满足最小支持度阈值(min_sup)和最小置信度阈值(min_conf)的规则称作强规则,这些阈值可以由用户或者专家设定。项集的出现频率是包含项集的事务数,如果项集的出现频率大于或等于min_sup与D中事务总数的乘积,则称项集满足最小支持度min_sup。如果项集满足最小支持度,则称它为频繁项集。频繁k-项集的集合通常记作Lk。

关联规则数据挖掘可分为两个步骤:第一步,找出数据库中支持度大于最小支持阈值的所有频繁项集;第二步,由这些频繁项集中产生满足最小置信度的强关联规则。从两个步骤中寻找所有频繁项集是关键问题,它决定着关联规则的整体性能。寻找频繁项集的算法很多,下面我们介绍由Agrawa和Srikant提出的Apriori算法。

1.2 Apriori算法

Apriori算法是一种最有影响的挖掘关联规则频繁项集的算法,它的主要思想是利用逐层搜索的迭代方法,来寻找数据库中的频繁项集。算法描述如下:

算法 1(Apriori)[5]:使用逐层迭代找出频繁项集

输入:事务数据库D;最小支持阈值min_sup。

输出:D中的频繁项集L。

方法:

①L1=find_frequent_1_itemsets(D);//找出频繁 1-项集的集合L1;

②for(k=2;Lk-1≠Ø;k++){;

③Ck=apriori-gen(Lk-1,min_sup);//用 Lk-1产生候选 Ck;

④for each transition t∈D{//找出事务中是候选的所有子集,并对每个这样的候选累加计数;

⑤Ct=Subset(Ck,t);

⑥for each candidate c∈Ct;

⑦c.count++;

⑧};

⑨Lk={c∈Ck|c.count>=min_sup};

⑩};

⑪return L={所有的 Lk}。

2 个性化信息推荐系统设计

2.1 设计思路

数字图书馆个性化信息推荐系统构建的最终目的是能够在实际中得以应用,因此在设计时应当遵循易操作性、完整性、可更新性、可扩展性以及针对性的原则[6]。

首先,对数字图书馆中的各种信息资源数据库进行分析,统计出信息资源的使用情况。同时,不同用户群具有不同的特点和喜好,因此可以通过对信息资源的聚类分析,找到不同用户群所需的信息资源,为个性化信息推荐提供参考。

其次,对用户进行聚类分析。在数字图书馆的用户中,由于专业背景、从事行业、兴趣爱好等的不同,所需信息也不尽相同。因此,可以把具有相似专业背景、工作行业、兴趣爱好等特点的用户聚在一起,为同一类用户推荐相似的信息。通过对用户的聚类分析,可以了解用户对数字图书馆信息资源的使用程度,为不同的用户提供针对性的服务。

最后,分析信息资源之间的关联性。例如,大多数对资源A感兴趣的用户对资源B也感兴趣,当用户在使用资源A的时候,可以将资源B推荐给他。也可以根据用户的信息资源使用情况,将相关的资源推荐给用户。

2.2 系统结构

个性化信息推荐系统主要包含3个层次,即数据存储层、数据挖掘层和用户界面层,如图1。

图1 个性化信息推荐系统结构

2.2.1 数据存储层

数据库是数据挖掘的基础,数据存储层就是数字图书馆的各种数据库,包括资源数据库(馆藏书目数据库、电子资源数据库)、用户数据库等。

2.2.2 数据挖掘层

数据挖掘层是个性化信息推荐系统的核心,主要是对数据进行处理,利用数据挖掘技术对信息资源和用户信息进行采集和挖掘,对挖掘结果归纳分析后,针对不同用户推荐其感兴趣的信息。该层的主要功能模块包括数据采集模块、数据挖掘模块以及信息推荐模块。

2.2.3 用户界面层

用户界面层主要提供系统和用户之间交流的平台界面,是个性化信息推荐系统的输入输出层。用户可通过该界面进行注册、登录,输入各种个人信息、个性化信息要求、评价反馈信息等;系统可通过此界面展示数字图书馆信息资源,向用户输出个性化信息推荐结果。

2.3 系统功能模块

2.3.1 数据采集模块

该模块包含信息资源采集模块和用户信息采集模块。信息资源采集模块从数字图书馆信息资源数据库中获取资源数据,为用户提供各种信息资源的详细信息(如资源的题名、作者、来源等)。用户信息采集模块收集用户个人注册以及兴趣爱好等信息,并将用户的历史使用行为记录、评价反馈等录入用户信息数据库。

2.3.2 数据挖掘模块

此模块对信息资源和用户信息进行挖掘,找出强关联规则,建立规则库,并对用户进行聚类分析(可根据用户所学专业、从事职业等聚类),找到各类用户群。由于需要处理的数据量很大,非常耗时,所以该模块主要是采用离线处理的工作模式。离线处理不会影响推荐结果,因为强关联规则结果是通过对大量的用户历史记录进行挖掘的结果,在一定的时间段内新增的数据量相对较少,对挖掘结果的影响是很小的,等达到了一定的时间,并积累了一定量的新记录后,再重新加入数据进行挖掘计算,定时更新,所以关联规则的离线发现是科学合理的。离线数据挖掘的工作流程是:首先把挖掘所需的所有存储在数据库中的用户历史使用行为记录导出;其次把导出的原始数据按照挖掘规则删除各种噪声数据、空值数据以及不需要的数据,合并同类数据;最后将清理过的数据进行聚类和关联规则挖掘,将挖掘结果进行结构化存储,写入规则数据库,以供推荐使用。

2.3.3 信息推荐模块

通过用户登录获取其专业背景、兴趣爱好、历史使用行为以及正在浏览的信息,将这些信息与规则数据库中的规则进行匹配,最终得到针对性很强的推荐结果,并将结果推荐给用户。

3 个性化信息推荐过程

3.1 获取信息

系统通过显式和隐式两种方式获取用户信息。对用户的基本信息,如性别、年龄、学历、专业、职业、兴趣爱好等,采用显式方式获取,在用户注册时,要求用户填写。用户的历史浏览、借阅、下载、评价反馈等信息,系统隐式地记录下来。系统将对获取的用户信息进行加工处理,提取用户个体特征描述词,动态地更新到用户信息数据库中。用户信息的准确性和完整性将直接影响到信息推荐结果的质量。

3.2 匹配信息

用户登录系统后,系统将描述用户的特征词与规则数据库中的规则进行匹配,将符合用户个性化信息需求的信息资源检索出来,并按照匹配度降序排列,将“TOP-N”个资源作为推荐结果。

3.3 推荐信息

系统可以通过网上实时推荐、电子邮件或手机短信等友好的方式,将推荐结果主动推送给用户。用户可以对推荐结果提出评价意见,系统根据用户反馈的意见调整推荐结果,以更好地满足用户的个性化信息需求。

4 结语

个性化信息推荐系统涉及数据获取、数据处理、算法选择、参数优化、反馈信息收集、效果测试和改进等,不仅仅是一个或几个推荐服务新的功能开发,还需要长期维护和改进,需要专业的团队和持续的投入才能完成[7]。笔者采用关联规则的数据挖掘技术,对数字图书馆的信息资源和用户数据进行挖掘,并以此设计了个性化信息推荐系统。图书馆利用此系统,可以有效获取用户的个性化信息需求,变被动服务为主动推送服务,最大限度地提高信息资源的利用率。另外,数据挖掘结果还可为图书馆建立科学、合理的馆藏资源结构提供重要的参考依据。

[1] 徐文伯.关于数字图书馆的几点认识[J].情报资料工作,2001(3):16-17.

[2]刘飞飞.基于多目标优化双聚类的数字图书馆协同过滤推荐系统[J].图书情报工作,2011(7):111-113.

[3]Mehmed Kantardzic;闪四清,等译.数据挖掘:概念、模型、方法和算法[M].北京:清华大学出版社,2003.

[4] 蔡会霞,朱洁,蔡瑞英.关联规则的数据挖掘在高校图书馆系统中的应用[J].南京工业大学学报,2005(1):85-88.

[5]JiaweiHan,Micheline Kamber;范明,等译.数据挖掘——概念与技术[M].北京:机械工业出版社,2001.

[6] 杨静.电子商务中个性化推荐模型的研究[D].天津:天津师范大学,2006.

[7] gary.推荐系统五大问题[EB/OL].[2012-10-26].http://www.resyschina.com/2010/03/five_problems_of_resys.html.

猜你喜欢
项集数据挖掘关联
探讨人工智能与数据挖掘发展趋势
“一带一路”递进,关联民生更紧
当代陕西(2019年15期)2019-09-02 01:52:00
奇趣搭配
基于并行计算的大数据挖掘在电网中的应用
电力与能源(2017年6期)2017-05-14 06:19:37
智趣
读者(2017年5期)2017-02-15 18:04:18
一种基于Hadoop的大数据挖掘云服务及应用
关联规则中经典的Apriori算法研究
卷宗(2014年5期)2014-07-15 07:47:08
一种频繁核心项集的快速挖掘算法
计算机工程(2014年6期)2014-02-28 01:26:12
基于GPGPU的离散数据挖掘研究
语言学与修辞学:关联与互动
当代修辞学(2011年2期)2011-01-23 06:39:12