爬虫技术在WAP网站内容监测中的应用

2010-04-17 01:52:10邹一心范海平

电信科学 2010年1期

关键词：爬虫管理器违规

邹一心，范海平

（1.中国电信上海研究院上海 200122；2.北京微智信业科技有限公司北京 100080）

爬虫技术在WAP网站内容监测中的应用

邹一心1，范海平2

（1.中国电信上海研究院上海 200122；2.北京微智信业科技有限公司北京 100080）

本文提出了一种WAP网站内容监测的网络爬虫系统，该系统可以自动遍历WAP网站，并且对网页进行规范性检查，网页内容进行违规检查。

WAP网站；内容监测；网络爬虫；WML

1 引言

为了规范WAP服务提供商（SP）的行为和业务内容，确保增值业务的服务质量，为手机用户提供一个安全、监控的业务环境，需要对WAP网站的内容和业务逻辑进行自动监测和核查。如果仅依靠人工手动的检查和审核WAP网站，不仅检查的成本高而且效率低下。本文提出了一种WAP网站内容监测的网络爬虫系统，通过该系统可以自动遍历整个WAP网站，下载每个WAP网页，并且进行相应的网页规范性检查和内容违规检查，当发现网页不规范或者含有违规内容的时候，可以把错误和违规记录到数据库中，审查人员可以通过内容监测平台查看检查结果，及时通知SP对其WAP网站进行整改。

2 网络爬虫系统架构

2.1 网络爬虫的简介

网络爬虫（crawler）是一个自动采集网页的程序，它从一个或者若干个初始网页的URL开始，获取初始网页的URL，在抓取网页的过程中，不断地从当前网页上抽取新的URL添加到抓取队列中，直到满足一定的停止条件。网络爬虫通过周期性地自动编译给定的WAP网站，检查网站的内容，从而避免了手工检查的种种不便。

2.2 工作流程

网络爬虫遍历网站的过程可以分解为三个部分，如图1所示。

（1）网页的抓取；

（2）网页的分析；

（3）网页中新链接的提取。

网页的抓取过程如下：网络爬虫先向WAP网站服务器发送一个HTTP请求，然后从服务器接收一个HTTP响应。如果成功获取网页，则网页的内容包含在这个HTTP响应中。因此网页的抓取过程就是一个基于HTTP的客户端与服务器之间的交互过程。

当网络爬虫成功获取网页后，就要对该网页进行分析。目前WAP网页有两个格式：一种是基于WAP 1.X的WML格式；另一种是基于WAP 2.0的XHTML格式。这两种格式的网页都是XML文档，因此可以使用DOM解析器来解析WAP网页，提取网页中的链接和文本内容，把提取的新链接添加到URL队列中进行遍历，同时进行网页规范性检查和违规检查。

2.3 系统架构

网络爬虫系统主要有内容监测管理平台、任务管理器、网页采集器、网页内容分析器、URL管理器几部分组成，如图2所示。通过内容监测平台，工作人员可以将SP提供的WAP网站入口URL加入到任务队列中。任务管理器从数据库中读取入口URL，使用不同的遍历策略控制各个网页采集器对网站进行遍历。采集的网页内容提交给网页内容分析器进行处理，从网页中提取新的链接，并且检查网页的规范性和合法性。

3 网络爬虫系统的设计和实现

3.1 网页采集器的设计

在网络爬虫系统中，网页采集器负责通过HTTP与WAP内容服务器进行交互，获取网页内容。如果通过无线网络获取一个WAP网页，必须经过WAP网关才能得到WAP内容服务器中的网页。WAP网关的作用是把WAP协议的请求转换为HTTP请求，并且对内容进行编解码。因此，可以通过模拟WAP网关与内容服务器之间的交互来获取相应的WAP页面。

3.2 URL管理器的设计

URL管理器从任务管理器接收入口网址和遍历策略保存到URL列表中。为了保证整个遍历过程的完整性，避免重复采集同一个网页，URL管理器需要具有URL去重功能，即判断新发现的URL是否在URL池中存在。

3.3 任务管理器的设计

任务管理器负责从数据库的任务表中读取任务记录，然后把任务的网站入口地址和遍历的策略发送给URL管理器。此外，它还负责把网页内容分析器检查出的网页违规信息保存到数据库，提供内容监测平台展现给工作人员。

3.4 网页内容分析器的设计

网页内容分析器使用DOM解析器对网页进行解析，提取出网页中的链接和内容进行如下处理：

（1）从网页中提取的新链接发送给URL管理器添加到URL列表中；

（2）对于网页内容进行规范性检查（是否包括运营商信息，是否含有交叉链接等）；

（3）对于网页的文字内容使用多关键词匹配技术进行违规检查；

（4）对于图片使用涉黄图片识别技术进行违规检查；

检查出的违规和不规范的网页记录发送给任务管理器保存到数据库中。

4 实验与分析

网络爬虫系统在实际使用中可以很好地完成WAP网站的监测和核查任务。我们对300个WAP网站进行站内遍历，并且同时进行规范性和内容检查。

站内遍历时，分别使用1～16个爬虫进行网页采集，每次采集的文件数目大约为10 000个左右，文件平均大小为 1.8 KB，结果见表 1。

进行监测和核查时，为了尽量减少对内容服务器的负荷，不需要使用太多的爬虫线程的数目，一般2～4个就可以了，即使是使用单线程采集也足够完成内容监测任务。

表1 实验结果

5 结束语

为了对SP提供的WAP网站进行有效的监管，采用人工手动方式检查WAP网站会面临审核成本高和效率低的双重压力。本文提出了一种WAP网站内容监测的网络爬虫系统，该系统可以自动遍历WAP网站，并且对下载的WAP网页进行规范性和违规检查，用户通过内容监测平台查看违规的网页，通知SP对其WAP网站进行处理和整改，可以为用户提供一个安全、监控的业务环境。本文的创新点在于通过使用网络爬虫技术可以有效地对SP提供的WAP网站进行自动审核，极大地提高了WAP网站的监测效率。

2010-07-14）