夏贞丽
【摘要】贝叶斯判别法是假定对研究对象已有一定的认识, 并且它是常用先验分布来描述,取得样本之后,就可以是样本来修正原先的先验概率分布,得出后验概率分布。本文将使用贝叶斯判别方法对数据集iris进行分类。
【关键词】贝叶斯判别 R语言 多分类问题
一、贝叶斯判别方法的理论基础
贝叶斯判别的其实是找到一种判别方法, 当平均误判损失达到最小时,也就是相应的概率达到最大.
假设样本共有K类,分别是,X1,X2…Xk,相应的先验概率为,p1,p2…p3,并假设所有错判损失相同,因此相应的判别准则为
程序分别考虑了总体协方差阵相同和协方差阵不同的情况。输入变量TrnX表示训练样本,其输入格式是矩阵(样本按行输入)或数据框。TrnG是因子变量,表示训练样本的分类情况,输入变量p是先验概率,默认值均为1.输入变量Tst是待测样本,其输入格式是矩阵(样本按行输入),数据框或向量(一个待测样本)。如果不输入TstX(默认值),则待测样本是训练样本,输入变量var.equal是逻辑变量,var.equal=TRUE表示认为总体协方差阵相同:否则(默认值)是不同的。函数的输出是由数字构成一维矩阵,数字表示相应的类。
三、贝叶斯判别法的结果分析
数据:Iris数据集有四个属性,萼片的长度,萼片的宽度,花瓣长度和花瓣宽度,数据共有150个样本,分为3类,前50个数据是第一类——Setosa,中间的50个数据是第二类——Versicolor,最后50个数据集是第三类——Virginica。
分析:从计算的结果可以得到,只有第71,73,84号样本错判,回带的判别正确率为147/150=98%.
参考文献
[1]薛毅,陈立萍.R統计建模与R软件[M].清华大学出版社.
[2]张亚萍,胡学钢.基于K-means的朴素贝叶斯分类算法的研究[J].计算机技术与发展,2007:33-35.
[3]周颜军,王双成等.基于贝叶斯网络的分类器研究[J].东北师大学报(自然科学版),2003,(2):25-31.endprint