吴锐妍 李夏永 才兆奕
(河南大学数学与统计学院,河南 开封 475004)
一般情况下,大众很少对于互联网上正在发生的事情利用关键字检索。整合相关新闻主题的综合信息,包括新闻背景、当前进展、不同的观点讨论,不仅能为用户提供更好的体验,也有利于平台对于用户群体需求进行分析,优化升级。传统新闻信息整理是由网站编辑手动操作的,十分费时费力,因此也很难做到实时更新。
以某公众平台账号对于为例,其自定义菜单栏的内容推送只能由运营人员手动添加超链接跳转到单一的推送消息,未能针对相关信息进行自动整合。新闻在跨越更长的时间后,价值大大降低。手动添加固定数量的新闻信息繁琐而耗时,很多情况下只能选择阶段内相对重要的信息进行展示,无法体现新闻的时效性。
若利用算法自动收集整合相关新闻的所有信息,将其提供给用户,将会大大提升工作效率。但算法的实用性以及准确性也需要一定的保证。现如今,数据已经成为新闻报道的驱动力。数据资料作为研究基础,利用科学方法来分析处理数据,解构它将是我们的目标。希望能够在实践中学习并利用SVM即支持向量机理论进行中文短文本分类,并能够对处理结果进行总结。
SVM,即支持向量机理论对于处理微型样本问题和非线性分类问题等多种复杂问题有其独特的技术优点。人们把能使两类数据准确分离且分离距离最优的平面称为最优超平面,当数据是线性可分离时,最优超平面距离两类点的边距最大;当数据不是线性可分离时,利用损失函数对越过超平面的点进行惩罚或使用核变换,将非线性可分的数据转化到高维度以便找到线性判定边界。
SVM 尝试寻找一个最优的超平面使得两类样本到这个平面的距离最大。样本中距离超平面最近的一些点,决定超平面的选取,将这些点称为支持向量。
任意超平面可以用下面的线性方程描述:
所有支持向量到超平面的距离可以写为
两类支持向量到超平面的距离之和为
由于原式中有不等式约束条件,因此需要满足KKT 条件,即
对数据是非线性的情况,无法找到一个超平面使两类样本点完全分开,则利用软间隔,相比于硬间隔的严格要求,我们允许个别样本点越过超平面,即允许部分样本点不满足约束条件
本项目使用搜狗实验室开放的搜狐新闻数据(SogouCS)的完整包进行该实验。数据是xml 文件,需要用正则表达式筛选出我们需要的新闻标题和新闻类别。新闻类别可以从url 中获取,比如,http://gongyi.sohu.com 的url 前缀对应的新闻类型就是“公益类”。
完整包中总计141196 篇新闻,一共18 个类别,但是经过筛选发现有些类别的新闻数量较少,因此,我们选择了以下7 个类别进行实验。
在这七个类别中随机抽取20000 篇文章作为训练样本,随机抽取5000篇文章作为测试样本。
再对新闻标题使用jieba 分词将标题划分为若干个名词。因为名词在文本类别中起到主要作用,因此要停用一些与类别无关的通用词。
接着再利用TF-IDF 对分词后的标题进行特征抽取。利用sklearn 里的TfidfVectorizer 对标题进行TF-IDF 特征提取。
本项目利用sklearn 里的SVM 模型,对预处理好的标题和类别加载SVM 模型进行训练,分别使用了多项式核,高斯核,sigmoid 核,线性核进行训练,并且评测训练的正确率,预测正确率最高的是线性核,达到了0.8762。结果如图:
表1 训练结果
对于新闻分类系统模型,还需要长久的算法优化与测试。随着网络传播的发展,互联网新闻分类研究仍是具有很高的研究价值。结合群体极化、网络暴力等现象分析,对网络环境进行监管,研究舆论传播规律。此方面研究能为新闻工作者、用户提供诸多便利。希望能够利用互联网新闻分类系统与优化后的SVM 模型结合,使新闻信息更清晰直观地呈现给用户,提升工作人员对于新闻信息整合的效率,减少冗余数据对用户的干扰,对于缩小城乡数字鸿沟具有研究价值。