石油信息垂直搜索引擎技术

2014-03-08 23:12:48景瑞林胜利石油管理局信息中心
油气田地面工程 2014年3期
关键词:搜索引擎网页检索

景瑞林 胜利石油管理局信息中心

1 系统架构

石油信息垂直搜索引擎由搜索器、索引器、检索器和用户接口四个部分组成,将这四个部分又分为三层:信息提取层、信息处理层以及用户、管理决策层。

(1)信息提取层。通过应用网络蜘蛛算法实现从互联网上搜索到有关专业信息的网页。

(2)信息处理层。实现了对网页信息的处理,它对网页进行结构分析,将网址、网页信息放到URL数据库中,并对网页中的文本信息进行词法分析,建立与之对应的索引表,同时将从网页中提取的信息结构化并存入数据库。

(3)用户、管理决策层。实现了两方面的内容,一方面实现了用户对信息的搜索,系统将根据用户输入的关键字,对其进行语义分析,通过检索模块检索出用户需要的信息,并通过网页返回给用户。另一方面,为企业决策层提供有价值的潜在信息,对数据库中的信息建立数据模型,然后在数据模型上进行OLAP分析,从而分析出有效信息。

2 系统功能

2.1 网页搜索功能

(1)实现对http、https、ftp等网页文件的Internet搜索,可以对网页中的不同文件格式的内容进行处理,包括常见的html、pdf、doc、jsp、asp、php等文件格式。

(2)能够将搜索到的网站或网页的URL自动索引插入到关系数据库中,从而为索引查询提供连接地址。

(3)网站镜像,最大深度索取,基于网站深度的文件统计并建立纯文本数据库。建立原始网页文件存储系统的数据结构和专业知识数据库。

(4)对文件的信息抽取处理是基于语义识别技术,从而可以更好地对抽取的文件信息进行分类。

(5)文件的信息抽取能够识别出网页的编码格式以及语言的区别,支持对多国语言的搜索技术。

(6)索引服务器对Web前台提供服务,对于Web服务器,索引请求返回的是本地缓存网页和数据库中对应的公网URL。

(7)由多台服务器组成的网页索引存储单元网格,集中处理网页文件存储单元的文件。对于网页文件中的中文进行分词及信息解析索引;对于网页文件中的英文则进行索引,索引的结果通过Web服务器给客户提供搜索服务并提供不同语言的不同接口。

(8)搜索结果支持按照相关度、点击率和更新时间排序。

2.2 图片搜索功能

图片搜索功能可对石油行业的图片进行抓取、处理并建立索引,通过检索功能供用户对图片进行检索。

2.3 新闻搜索功能

新闻搜索采用基于标签的网页分析方法,这种方法对网页内容的提取非常准确,能给用户提供更高的检索精度,帮助用户找到最需要的新闻。新闻搜索实时采集指定网站上的新闻,增量保存到本地供用户进行查询。用户既可以根据标题搜索新闻又可以根据内容搜索新闻,对于得到的搜索结果,用户可以根据自己的意愿进行排序。

3 应用效果

通过对垂直搜索引擎相关技术的研究及算法的改进,使搜索引擎在信息准确率、内容相关性、更新及时率三个方面有了很大的提高。基于石油知识库行业词汇进行语义信息检索,使检索信息更准确,质量更高,解决了领域词汇“一词多义、一义多词、歧义词”等问题。石油搜索引擎面向石油行业定向搜索,比通用搜索可提前抓取到更多的石油信息,搜索的内容也比较全面。

油田网搜索有以下效果:①解决了油田网无搜索引擎及搜索不便的问题,可以按网页、新闻、论坛、图片4类进行搜索;②提供了历史网页保存,可随时以快照形式提供信息;③按照信息发布单位和IP精确检索;④对油田网检索的信息进行安全管理和敏感词的监控。

系统研发成功后在胜利油田得到全面应用,半年内油田网搜索引擎已获得网页URL地址约95万个,抓取网页92万个,处理网页58万个,有效网页38万个,建立索引网页38万个;图片搜索提取出图片地址11.6万个,处理获得有效图片7.6万张,建立索引图片7.6万张;油田网新闻搜索抓取获得有效新闻1.9万条,信息分别来自75个不同站点。通过提供搜索接口,系统在胜利信息网“胜利导航”和生产经营中进行了移植。用户访问量稳步上升,从最初每天30~50次访问,增加到1个月后每天1000~1500次访问。现在的访问量已经稳定在每天3200次左右,说明了实际的需求和系统的实用性。系统推广使用价值体现在:①研究并开发的知识库可以应用于石油应用领域的智能系统、数据挖掘、信息处理等;②垂直搜索技术在油田内各种资料查询、信息检索、敏感信息监控等都能发挥重要作用,特别是全文检索技术,对于文本信息的不确定性模糊查询能发挥较大的作用;③项目研究中的大量统计资料和数据,如词频、热词、专业词汇相关性、网页量等,对于开展油田的信息管理和分析具有一定的指导作用。

猜你喜欢
搜索引擎网页检索
2019年第4-6期便捷检索目录
基于CSS的网页导航栏的设计
电子制作(2018年10期)2018-08-04 03:24:38
基于URL和网页类型的网页信息采集研究
电子制作(2017年2期)2017-05-17 03:54:56
专利检索中“语义”的表现
专利代理(2016年1期)2016-05-17 06:14:36
网页制作在英语教学中的应用
电子测试(2015年18期)2016-01-14 01:22:58
网络搜索引擎亟待规范
中国卫生(2015年12期)2015-11-10 05:13:38
基于Nutch的医疗搜索引擎的研究与开发
10个必知的网页设计术语
广告主与搜索引擎的双向博弈分析
国际标准检索