摘 要: 在中文微博产品评价分类算法中,由于常规SVM分类器在对少量标记数据的样本进行训练时,泛化能力无法满足要求,无法直接应用于微博文本的数据挖掘中,而传统的半监督TSVM算法的改造是通过对未标记数据增加惩罚函数完成的,这样会产生非凸函数优化问题。因此该文研究一种半监督高斯混合模型核的支持向量机分类算法。使用高斯混合模型对已标记和未标记数据进行训练,求取概率分布。最后通过一个对于iPhone手机的评价实例进行分析,验证了该文研究方法的优势。
关键词: 微博; 产品评价; 数据挖掘; 支持向量机; 半监督学习
中图分类号: TN911⁃34; TP393 文献标识码: A 文章编号: 1004⁃373X(2016)14⁃0077⁃03
Product evaluation and classification algorithm based on Chinese micro blog
ZHANG Yan
(College of Educational Science, Xinjiang Normal University, Urumqi 830017, China)
Abstract: The evaluation and classification algorithm of Chinese microblog products is studied in this paper. Because the conventional support vector machine (SVM) classifier cannot satisfy the requirement of the generalization ability when the samples are trained with a small amount of labeled data, it cannot be directly applied to the data mining of the micro blog text. And the improvement of the traditional semi supervised TSVM algorithm is accomplished by increasing the penalty function to the unlabeled data, but this will produce a non convex function optimization problem. Therefore, a semi⁃supervised kernel SVM classification algorithm based on Gauss mixture model is studied in this paper. The Gauss mixture model is used to train labeled and unlabeled data to obtain the probability distribution. SVM classification algorithm can make use of the clustering information with unlabeled data as far as possible. Finally, the advantages of this research method are verified by analyzing an example of evaluation for iPhone mobile phone.
Keywords: microblog; product evaluation; data mining; support vector machine; semi⁃supervised learning
0 引 言
随着计算机和互联网的普及,人们越来越多的在网络中分享、交流、获取信息。互联网社交平台的出现丰富了人们分析、获取信息的途径。人们可以在互联网社交平台上真实地表达自己对于某种产品的观点、评价和立场等,这些观点评价等信息涵盖了大量的情感信息;因此对于这些情感信息进行挖掘,能够帮助企业商家分析人们对于产品的评价,了解产品动态,及时做出有效整改,帮助监管部门进行监督和民意调查等[1⁃3]。
微博是近几年快速兴起的互联网社交平台,其特点是信息传播速度快,范围广,用户量大等。人们越来越依赖微博,越来越愿意在微博中发布自己对于购买商品的评价,因此通过微博对于产品情感评价信息的数据挖掘,能够获取大量有意义的产品评价信息[4⁃6]。
1 基于中文微博的产品评价方法
在对产品评价和情感分析的数据挖掘领域中,使用比较广泛的方法之一是机器学习方法。机器学习方法主要包括神经网络、支持向量机等监督学习方法,对于已标记数据能够达到极高的分类准确率,但是数据的标记过程是限制其应用的主要因素。非监督学习方法不需要大量的标记数据进行分类,但是技术不够成熟,因此本文使用一种半监督型机器学习方法:半督导SGSVM算法,进行微博中对产品评价信息的挖掘和分类[7⁃9]。
对于微博中对产品评价信息的挖掘和分类流程如图1所示。
首先,需要对微博、评论及转发的文本进行分词、标注词性等预处理。然后以特征向量形式表示文本,将数据分为训练样本集和测试样本集,使用训练样本对分类模型进行训练。之后使用训练后得到的分类器对测试样本集进行测试。最后对分类结果进行评价[10⁃11]。
2 基于半监督高斯混合模型核的支持向量机分
类算法
SVM分类器是一种性能优良的分类模型,但是仅限于训练样本为已标记数据样本,对于未标记或部分标记的训练样本集,SVM分类性能仍有待提高。使用高斯函数生产样本中心分别在(1,1)和(-1,-1)的两类测试样本,对其中10个样本进行标记,剩余190个样本未进行标记,使用SVM分类器进行分类得到分类界面如图2所示。
可以看出,由于标记数据样本过少,使用这样训练样本训练后得到的SVM分类器的泛化能力很弱,因此无法使用这类督导机器学习算法直接应用于微博文本的数据挖掘中[12]。督导学习算法优化问题如下:
式中:[C]是惩罚函数;[fH]是H范数,能够表示f在再生核希尔伯特空间H上的光滑程度;[Ω]是正则化函数,主要对待求函数进行假设空间约束;
为了同时对已标记和未标记数据进行训练,将优化问题转变为:
式中:[H]是同时涵盖已标记和未标记数据的再生核希尔伯特空间。
传统的半监督TSVM算法的改造是通过对未标记数据增加惩罚函数完成的。这样会产生非凸函数优化问题,因此本文研究一种半监督高斯混合模型核的支持向量机分类算法。
定义可见变量[x,x′]的核[Kx,x′]:
式中:[v∈V]表示隐含变量,[V]表示隐含变量集合;[Kzz,z′]为核函数;[Pvx],[Pv′x′]为后验概率。
高斯混合模型能够较好在概率空间上对样本矢量分布特征进行描述,因此使用高斯混合模型对已标记和未标记数据进行训练,求取概率分布。空间结构概率模型表示为:
式中:[qxv,μv,Av]表示[μv]为第[v]个中心,[A-1v]为协方差矩阵的高斯分布,有:
可将联合核重新表示为:
式中:[I·]表示标记函数。
可以得到半监督高斯混合模型核为:
定义式(8)表示半监督高斯混合模型的再生核希尔伯特空间距离为:
[Dx,x′=Kx,x+Kx′,x′-2Kx,x′] (8)
通过上述改进,可以使SVM分类算法尽可能使用未标示数据的聚类信息[13]。
定义核函数负荷Mercer核条件,那么会有一个再生希尔伯特核空间和[x→Φx]映射函数,满足:
为了减小样本中噪声样本的干扰,使用下面的惩罚因子对各个已标记样本的惩罚因子进行计算:
式中:[C]是惩罚因子值;[Ex]是后验概率熵。
本文研究的半督导SGSVM算法的流程[14]:
Step1:对高斯混合模型中成分数进行确定,建立高斯混合模型,选取模型初始参数。
Step2:对于输入样本,求出其后验概率[pvx]及核函数。
Step3:将Step1中得到初始模型的核函数以及由标记数据得到的惩罚因子共同输入SVM模型中训练,最终得出SVM模型的决策函数。
Step4:对于新输入的样本,首先求出核函数值,之后使用决策函数进行分类。
3 实例分析
本文使用200条对于iPhone 6手机的相关感情评价的微博、转发以及评论的文本构建评价单元7 235条,通过特征项提取,人工标记为强积极、积极、弱积极、弱消极、消极以及强消极6类。随机抽取其中140条微博,共计5 162个评价单元用于对分类模型的训练,剩余60条微博,共计2 073条评价单元用于对分类模型的测试。本文使用常规SVM算法和半督导TSVM算法与本文研究的半督导SGSVM算法进行比较研究。
3.1 实验1:比较不同标记数量对分类的影响
首先通过第一个实验来比较对不同数量数据标记的情况下,不同算法的分类正确率。分别将训练数据中20%,40%,60%,80%,100%的数据作为已标记数据,使用三种算法进行训练,得到三种算法在不同标记数据个数下的分类正确率如图3所示。
从图3可以看出,三种算法在具有较少的标记数据量时分类正确率均较低,随着标记数据量的增多,分类正确率逐渐升高,并且SVM算法的分类正确率要低于另外两种半监督SVM算法,当达到100%的标记数据量时,三种算法的分类正确率达到一致。说明半监督SVM算法在有较少标记数量情况下,具有相对较好的分类性能。
3.2 实验2:使用测试数据对不同算法进行测试
随后通过第二个实验验证三种不同测试数据的分类效果。使用测试数据对以训练的常规SVM算法和半督导TSVM算法与本文研究的半督导SGSVM算法模型进行分类实例分析,其中用于训练的数据中已有60%为已标记数据。使用综合评价指标F1作为评价标准,表示为:
式中:[Pj]表示查准率;[Rj]表示查全率。
使用三种算法得到的F1比较见表1。可以看出SVM算法的分类效果最弱,而两种半监督SVM算法对于不同分类各具优势,但总的来说,本文研究的半督导SGSVM算法的分类效果最好。
4 结 论
本文研究一种半监督高斯混合模型核的支持向量机分类算法对微博中产品评价信息进行挖掘和分类。使用常规SVM算法和半监督TSVM算法与本文研究的半督导SGSVM算法进行比较研究。研究结果表明:本文研究的半监督方法算法能够较好地进行信息分类,有效降低对标记数据样本的要求,提高了算法效率。
参考文献
[1] 张学超.基于中文微博的产品评价分类及推荐算法研究[D].大连:大连理工大学,2014.
[2] 万丹琳.基于中文微博的用户倾向挖掘与分析[D].北京:北京邮电大学,2015.
[3] 田耕.基于关系和内容的推荐算法研究[D].北京:北京交通大学,2015.
[4] 杨东辉.基于情感相似度的社会化推荐系统研究[D].哈尔滨:哈尔滨工业大学,2014.
[5] 纪雪梅.特定事件情境下中文微博用户情感挖掘与传播研究[D].天津:南开大学,2014.
[6] 杜爱玲.基于混合推荐算法的微博网络广告推荐研究[D].青岛:中国海洋大学,2014.
[7] 刘楠.面向微博短文本的情感分析研究[D].武汉:武汉大学,2013.
[8] 温源.互联网文本信息挖掘与个性化推荐的研究[D].北京:北京交通大学,2014.
[9] 刘红玉.网络舆情情感分析系统的设计与实现[D].成都:电子科技大学,2013.
[10] 康浩.微博文本情感分类方法与应用研究[D].长沙:国防科学技术大学,2012.
[11] 彭蔚喆.面向中文微博文本的情感识别与分类技术研究[D].武汉:华中师范大学,2014.
[12] 陶新民,曹盼东,宋少宇,等.基于半监督高斯混合模型核的支持向量机分类算法[J].信息与控制,2013,42(1):18⁃26.
[13] 曹盼东.基于图模型的半监督SVM分类算法研究与应用[D].哈尔滨:哈尔滨工程大学,2012.
[14] 周文刚,赵宇,朱海.基于混合高斯模型和空间模糊度的支持向量机算法研究[J].计算机应用研究,2015(5):1319⁃1321.