景瑞林 胜利石油管理局信息中心
石油信息垂直搜索引擎由搜索器、索引器、检索器和用户接口四个部分组成,将这四个部分又分为三层:信息提取层、信息处理层以及用户、管理决策层。
(1)信息提取层。通过应用网络蜘蛛算法实现从互联网上搜索到有关专业信息的网页。
(2)信息处理层。实现了对网页信息的处理,它对网页进行结构分析,将网址、网页信息放到URL数据库中,并对网页中的文本信息进行词法分析,建立与之对应的索引表,同时将从网页中提取的信息结构化并存入数据库。
(3)用户、管理决策层。实现了两方面的内容,一方面实现了用户对信息的搜索,系统将根据用户输入的关键字,对其进行语义分析,通过检索模块检索出用户需要的信息,并通过网页返回给用户。另一方面,为企业决策层提供有价值的潜在信息,对数据库中的信息建立数据模型,然后在数据模型上进行OLAP分析,从而分析出有效信息。
(1)实现对http、https、ftp等网页文件的Internet搜索,可以对网页中的不同文件格式的内容进行处理,包括常见的html、pdf、doc、jsp、asp、php等文件格式。
(2)能够将搜索到的网站或网页的URL自动索引插入到关系数据库中,从而为索引查询提供连接地址。
(3)网站镜像,最大深度索取,基于网站深度的文件统计并建立纯文本数据库。建立原始网页文件存储系统的数据结构和专业知识数据库。
(4)对文件的信息抽取处理是基于语义识别技术,从而可以更好地对抽取的文件信息进行分类。
(5)文件的信息抽取能够识别出网页的编码格式以及语言的区别,支持对多国语言的搜索技术。
(6)索引服务器对Web前台提供服务,对于Web服务器,索引请求返回的是本地缓存网页和数据库中对应的公网URL。
(7)由多台服务器组成的网页索引存储单元网格,集中处理网页文件存储单元的文件。对于网页文件中的中文进行分词及信息解析索引;对于网页文件中的英文则进行索引,索引的结果通过Web服务器给客户提供搜索服务并提供不同语言的不同接口。
(8)搜索结果支持按照相关度、点击率和更新时间排序。
图片搜索功能可对石油行业的图片进行抓取、处理并建立索引,通过检索功能供用户对图片进行检索。
新闻搜索采用基于标签的网页分析方法,这种方法对网页内容的提取非常准确,能给用户提供更高的检索精度,帮助用户找到最需要的新闻。新闻搜索实时采集指定网站上的新闻,增量保存到本地供用户进行查询。用户既可以根据标题搜索新闻又可以根据内容搜索新闻,对于得到的搜索结果,用户可以根据自己的意愿进行排序。
通过对垂直搜索引擎相关技术的研究及算法的改进,使搜索引擎在信息准确率、内容相关性、更新及时率三个方面有了很大的提高。基于石油知识库行业词汇进行语义信息检索,使检索信息更准确,质量更高,解决了领域词汇“一词多义、一义多词、歧义词”等问题。石油搜索引擎面向石油行业定向搜索,比通用搜索可提前抓取到更多的石油信息,搜索的内容也比较全面。
油田网搜索有以下效果:①解决了油田网无搜索引擎及搜索不便的问题,可以按网页、新闻、论坛、图片4类进行搜索;②提供了历史网页保存,可随时以快照形式提供信息;③按照信息发布单位和IP精确检索;④对油田网检索的信息进行安全管理和敏感词的监控。
系统研发成功后在胜利油田得到全面应用,半年内油田网搜索引擎已获得网页URL地址约95万个,抓取网页92万个,处理网页58万个,有效网页38万个,建立索引网页38万个;图片搜索提取出图片地址11.6万个,处理获得有效图片7.6万张,建立索引图片7.6万张;油田网新闻搜索抓取获得有效新闻1.9万条,信息分别来自75个不同站点。通过提供搜索接口,系统在胜利信息网“胜利导航”和生产经营中进行了移植。用户访问量稳步上升,从最初每天30~50次访问,增加到1个月后每天1000~1500次访问。现在的访问量已经稳定在每天3200次左右,说明了实际的需求和系统的实用性。系统推广使用价值体现在:①研究并开发的知识库可以应用于石油应用领域的智能系统、数据挖掘、信息处理等;②垂直搜索技术在油田内各种资料查询、信息检索、敏感信息监控等都能发挥重要作用,特别是全文检索技术,对于文本信息的不确定性模糊查询能发挥较大的作用;③项目研究中的大量统计资料和数据,如词频、热词、专业词汇相关性、网页量等,对于开展油田的信息管理和分析具有一定的指导作用。