王景中 易路杰
北方工业大学信息工程学院 北京 100144
朴素贝叶斯分类器是贝叶斯分类中一种最常见且原理简单,实际应用很成功的方法。朴素贝叶斯分类器中的“朴素”主要是指假设各属性间相互独立。在文本分类中,假设不同的特征项在确定的类别下的条件概率分布相互独立,这样在计算特征项之间的联合分布概率时可以大大提高分类器的速度。目前,很多文本分类系统都采用贝叶斯分类算法,在邮件分类、电子会议、信息过滤等方面都有了广泛的应用。
贝叶斯定理为:设S为试验E的样本空间,A为E的事件,B1,B2,…Bn为S的一个划分,且有P(A)>0,P(Bi)>0(i=1,2,…n),则有:
贝叶斯文本分类模型是一种基于统计方法的分类模型,是现有文本分类算法中最有效的方法之一。其基本原理是:通过样本数据的先验概率信息计算确定事件的后验概率。在文本分类中的应用为:通过计算给定文本的特征值在样本库中某一确定类Ci中的先验概率,得出给定文本的特征值属于Ci类的后验概率,再通过比较,得出后验概率最大的即为给定文本最可能属于的类别。因此,贝叶斯类别判别式为:
本文采用布尔表示法描述文本,每个文本表示为特征矢量(w1,w2,…w),V为特征词表,为特征词表总词数,V=(B1, B2,…B)。特征矢量中的wi={0,1},1表示特征词表中的第i个词出现,0表示没有出现。
根据贝叶斯公式:
式中P( Ci)为样本集中属于Ci类的概率,为Ci类中给定文本特征词的概率。
式中P( Ci)的值为每个类别在样本集中的频率,即为样本集中属于Ci类的文本数与样本集中的总的文本数的比率。的值计算比较困难,理论上只有建立一个足够大的样本集才能准确得到。如何得出的值也是贝叶斯算法的关键,直接影响分类的性能。目前只能通过估算得出。
由于贝叶斯分类模型的假设,文本特征属性之间独立同分布,因此各属性联合概率等于各属性概率的乘积,即:
式中P(wj/Ci)为Ci类文本中wj的词频与Ci类文本的总词频的比率。在本文中P(wj/Ci)的值估算采用下式:
式中Nwj表示特征词的词频,表示类文本数,B(Ci/dk)={0,1},1表示文本dk属于Ci类,0表示不属于Ci类。
由Friedman等人提出的TAN(Tree Augmented Naive)树状结构模型,使朴素贝叶斯模型独立性假设更符合实际。在应用中的主要思路是采用贝叶斯网络中的表示依赖关系的方法,在其中的各叶节点之间增加一些必要的边,用来表示各属性变量之间的关系,从而放宽了朴素贝叶斯中的独立性假设。
朴素贝叶斯理论的独立性假设即要求每个属性有且仅有一个父节点,为类节点。而 TAN模型中,用节点表示属性,通过有向边表示属性间的关系,把类别属性作为根节点,其余属性作为它的子节点。在具体实现时这些增加的边需满足两个条件,首先,类别变量没有父节点。其次,每个属性变量有一个类变量为父节点和最多另一个属性变量作为其父节点,即
在给定待分类文本中,贝叶斯分类器选择后验概率最大的CNB为该文本所属类别,据(3)式、(4)式得:
式中πwj代表wj的父节点集。增加有向边后πwj具有两种形式:πwj没有非类父节点和πwj有一个非类父节点。因此要计算(6)式就需要估算出三个值:P(Ci)、P(wj/Ci)、P(wj/Ci,ws)。前两个值在上文中已经说明,而P(wj/Ci,ws)为在Ci类中,ws出现时wj的概率。因此这里就考虑了两个词之间的关系。P(wj/Ci,ws)的值等于Ci类文本中出现ws的文本中wj的总词频与Ci类中出现ws的文档的总词频的比率。即:
目前,人们最常用的评价分类性能的指标是查准率(精确率)和查全率(召回率)。查准率是指分类器正确判别为该类的测试样本数与分类器判别为该类的测试样本总数的比率。查全率是指分类器正确判别为该类的测试样本数与该类的总测试样本数的比率。以上两个指标体现了文本分类质量的两个方面,需要综合考虑,因此有F1测试作为综合评估指标。
实验选取中文自然语言处理开发平台提供的语料库的文章,选择六类文本进行测试,分别是计算机、农业、经济、艺术、环境、政治,共1800篇,每类300篇。其中从每类中选取200篇为训练样本文档,余下100篇为测试文档。测试结果见表1。
表1 实验结果
从表1可看出,在所取测试集中,平均查准率达到0.80,平均查全率达到 0.79,平均F1测试值达到 0.79。基本达到了文本分类的效果。
上述朴素贝叶斯分类算法基本实现了文本分类,但是还存在着一些问题。首先 TAN结构虽然考虑了两两属性间的关联,但文本中属性之间可能存在的其他更多的关联并没有考虑到,因此适用范围还是有一定的局限性。还有在计算特征词属于某一确定的类的概率时,由于训练集的选择不同,或者训练集不足够大,这会有某些不常见的特征词在训练库中不出现,而朴素贝叶斯判别式是一个乘积的值,这样就会对结果影响很大。这些问题在以后的工作中还需要不断的改进。
[1] 陈叶旺,余金山.一种改进的朴素贝叶斯文本分类方法[J].华侨大学学报(自然科学版).2011.
[2] 陈欣,张菁,李晓光.一种面向中文敏感网页识别的文本分类方法[J].测控技术.2011.
[3]张玉芳,陈剑敏,熊忠阳.一种改进的贝叶斯文本分类方法[J].华侨大学学报(自然科学版).2007.
[4] 史瑞芳.贝叶斯文本分类器的研究与改进[J].计算机工程与应用.2009.
[5] 王潇,胡鑫,三种分类算法的比较[J].石河子大学学报(自然科学版).2005.
[6] 石洪波,王志海,黄厚宽.贝叶斯文本分类方法研究[J].山西大学学报[J].2002.
[7] 安艳辉,董五洲,游自英.基于改进的朴素贝叶斯文本分类研究[J].河北省科学院学报.2007.
[8] 刘沛骞,冯晶晶.一种改进的朴素贝叶斯文本分类算法[J].微计算机信息.2010.
[9] 梁宏胜,徐建民,成岳鹏.一种改进的朴素贝叶斯文本分类方法[J].河北大学学报(自然科学版).2007.
[10] 余芳,姜云飞.一种基于朴素贝叶斯分类的特征选择方法[J].2004.