钟 磊 宋香荣 孙瑞娜
(1.新疆财经大学 信息管理学院 乌鲁木齐 830012;2.新疆财经大学 统计与数据科学学院 乌鲁木齐 830012)
根据中国互联网络信息中心统计报告显示,截至2020年3月,中国网民规模已经达到9.04亿,互联网普及率达到64.5%,移动互联网用户达13.19亿[1]。网络成为人们日常生活中交流信息不可或缺的手段。在网络信息传播中,“意见领袖”扮演着非常重要的角色。各种“意见领袖”在社会生活的各个方面对网络民意产生了重要且深远的影响。从已有的研究来看,“意见领袖”可以对网络社区用户的行为产生正面或者负面的作用,但无论是正面还是负面的影响,都会左右他人的决策和选择[2]。“意见领袖”对网络民意具有强大的引导作用。一个好的“意见领袖”可以使网络社区成为人们交流和互相促进的和谐空间,引导网络“正能量”。而一个负面的“意见领袖”则可能引起用户的思想冲突,经过网络放大之后,甚至可能形成汹涌的舆论浪潮,引发现实世界中的冲突。因此,识别网络社区中的“意见领袖”;认识其特征和规律,并通过“意见领袖”引导网络社区的发展,促成网络空间的和谐成为了诸多学者关心和研究的课题。
1.1意见领袖定义及其识别研究所谓“意见领袖”是指网络社区中积极的意见传播者和思想与观点的提供者[3]。网络社区“意见领袖”将自己的信息经过加工处理,传播给其他参与者,影响他人对事物的观点和态度,进一步影响他人的行为决策。
国内学者刘志明等人在用户活跃度和影响力的基础上,建立了一套微博意见领袖的识别指标。运用层次分析法归纳意见领袖的特征,并利用粗糙集理论进行微博意见领袖的识别[4]。王君泽等学者利用信息发布数量、关注数量、粉丝数量和用户是否认证等指标进行识别微博意见领袖的多维建模,提出评价用户重要性的公式,并用实证分析来验证模型的有效性[5]。
蔡淑琴等学者将个人情感因素纳入到用户评价指标中,提出了一种基于情感词判别的识别意见领袖的模型,使用这种情感词判别模型得出用户的重要度,再利用人工神经网络进行意见领袖的识别[6]。马宁等学者运用动态网络分析法和评价指标体系,识别出以下6种具有不同特征的网络舆论意见领袖:关键词独占人、信息互动独占人、信息传播人、潜在活跃人、行为活跃人和热点人物[7]。阙文晖等学者采用滑动窗口和段落划分的方法,分析网络社区用户之间的文本影响关系,利用数学方法判断联系的强度,建立网络社区用户关系网络,然后利用一种类似PageRank的算法对网络用户节点的重要度进行计算,从而识别意见领袖[8]。郭勇等学者利用舆情场势理论、群际关系理论和社会认同构建、系统动力学等理论,对舆情网络意见领袖的作用、动因等进行了分析,构建网络舆情用户重要度评价指标体系,并利用变权重灰色关联度模型进行意见领袖的识别[9]。许睿等学者构建出虚拟学习社区网络,分析各用户的中心性和社会网络角色特征,选取入度、出度、介数、特征向量中心性、用户活跃度、用户贴子转发量、用户贴子评论量等7个特征值作为筛选条件,提出基于K-means算法的意见领袖识别模型。将该识别模型应用于某虚拟社区,根据各个聚类子类的特征向量,提取理论意义上的意见领袖集合[10]。
1.2网络节点重要性图理论的早期研究包括AGM[11]、FSM[12]、GSAPN[13]、FFSM[14]等为复杂网络的理论和应用研究奠定了基础。一个复杂社会网络图由网络节点和边构成。每个网络节点代表参与社会生活的组织或个人,边代表人与人或人与组织之间的关系[15-16]。常用的复杂网络节点重要性评价指标为中心度。节点、边、子网络甚至是整个网络都可以是中心度的主体。目前常用的中心度指标包括接近中心度、节点中心度、介中心度等[17-18]。Google著名的网页重要度算法—PageRank,就是一种类似特征向量中心度的算法,它们都是具有反馈机制的算法。本文利用改进的PageRank算法来衡量网络社区用户节点的重要性。
1.3本文研究与已有研究的不同本研究范畴属于图理论在网络信息传播中的应用研究。该方面的图应用研究主要包括:网络社区发现、标签传播、用户影响力等。网络社区意见领袖发现和识别就属于用户影响力的研究范畴。用户影响力的研究大部分是通过建立评价指标,用指标体系对用户影响力进行评价。一些研究建立一套能够反映用户影响力的评价指标体系,而另一些研究则采用相关理论和方法推导单一的指标进行评价。在研究结果方面更注重识别方法的创新性和识别的准确性,而对方法的适用性和稳定性以及结果的实际应用考虑不多。
本文将上述两种方式结合,用BP神经网络方法进行识别和预测,以网络论坛数据进行实验,取得了很好的识别效果。实验中还发现,在不考虑新增网络节点的情况下,随着网络社区传播信息量的不断增加,最终形成一个稳定的网络图,并利用该网络进行深入挖掘,得到具有实践意义的信息。为提高用户活跃度,提高用户黏性,改进用户互动体验等应用提供支持。
2.1模型构建总体流程整个模型的构建及应用框架流程如图1所示,主要包括四个步骤:
第1步,获取网络社区用户的信息交互文本,经过分词处理,然后计算每个用户交互文本中词的TF-IDF值,并计算用户文本之间相似度。
第2步,以网络社区用户为节点,建立一个网络图,然后计算每个用户的LeaderRank值。
第3步,将每个用户的LeaderRank值及其他指标代入BP神经网络进行训练和识别。
第4步,利用LeaderRank和其他数据进行深入分析。
图1 模型构建及其应用框架
2.2社区网络结构的定义首先我们把网络用户映射到图模型中,其具体定义如下:
定义1 设V={V1,V2,…,Vi,…,Vn}为网络社区用户集合,无序偶对(Vi,Vj)是用户Vi与用户Vj之间的边,表示用户Vi与用户Vj之间的联系,如果两个网络用户之间有发贴行为,即代表存在这种联系。G(V,E)是以V为用户集合,以E⊂{(Vi,Vj)|Vi,Vj∈V}为联系集合的有向图。
定义2 用户Vi的度Di是指与其他用户相关联的边数,Di=|{(Vi,Vj)|Vi,Vj∈E,Vi,Vj∈V}|。
2.3计算网络社区用户连接强度先将网络社区用户的信息文本进行分词和词性标注处理,然后进行去停用词处理,只保留基本的名词、动词和形容词,最后计算词的TF-IDF值。TF值代表词频,其计算如公式(1)所示,其中分子代表一个词在一个文本中出现的频数,分母代表整个文本的总词数。用来代表该词在文本中的重要程度。
tfi,j=ni,j/∑knk,j
(1)
IDF值代表逆向文档频率,其计算如公式(2)所示,其中分子代表某个语料库中全部文本的个数,分母代表某个词在所有文本中的不重复出现的次数,结果取对数即得到IDF值。
(2)
将TF值与IDF值相乘即得到TF-IDF值,如公式(3)所示:
tfidfi,j=tfi,j×idfi,j
(3)
得到词的TF-IDF值后,根据公式(4)和公式(5)得出网络社区用户的连接强度。其中tfidfV1代表网络用户节点V1的信息文本特征向量,tfidfV2代表网络用户节点V2的信息文本特征向量。通过计算两个向量的余弦相似度来代表用户节点间的连接强度W。以W为权值建立的加权网络G(V,E,W)如图2所示,图中用边的粗细来代表节点间连接强度的大小。
(4)
W(v1,v2)=cos (tfidfv1,tfidfv2)
(5)
图2 社区用户网络图
2.4用户在社区网络结构中的重要度计算计算用户在社区网络中的重要度(即社区网络中用户顶点的半径大小),就是将网络中节点的重要程度表示为一个具体数值,其原理与Google著名的Web页面链接分析算法PageRank的思想类似。PageRank的计算结果简称PR值,其取值范围为[0,10],也可以使用[0,1]区间进行度量,这并不影响其原理。PR值越高说明网站在网络中的重要程度越高。参照Google的PageRank算法思想,本文提出计算网络社区用户重要度的计算方法,其计算方法如公式(6)所示:
(6)
使用前面定义的G(V,E,W)表示网络社区有向图,对于一个给定的网络节点Vi,In(Vi)表示给该节点发送信息的节点集合。Out(Vj)为接受节点Vj发送信息的节点集合,即Vj的出度。w表示两个节点之间的连接强度。LR(Vi0表示该用户节点在社区网络中的重要程度,即LeaderRank值,其取值范围为[0,1],这个值越大说明该用户在社区网络中的重要程度越高。α称为阻尼系数,其取值范围为[0,1],一般设置为0.85。 我们设每个网络社区用户的初始LR值为1/N,N为网络节点总数。然后根据公式(6)进行迭代计算,直到所有用户节点的LR值收敛为止,然后就可以根据最终得分对网络节点的重要程度进行排序。加入节点重要度的网络如图3所示,节点越大表示节点的LR值越大,其重要程度越高。
图3 社区用户重要度网络图
2.5使用BP神经网络训练用户网络我们使用用户发送信息数量、转发数量、点赞数量,LR值作为BP神经网络的输入。输出为二分类变量,1代表是意见领袖,0代表不是意见领袖。本文假设粉丝数为500以上的用户为意见领袖。可以按照公式(7)计算出神经网络的隐藏层神经元个数N。
N=
(7)
其中,m为输入层神经元个数,n为输出节点个数。
可以选择样本中80%~90%的数据作为训练集训练BP神经网络,10%~20%的样本作为测试集用来实验。
3.1实验过程本文以某知名网络论坛作为数据采集源,爬取论坛讨论贴子链接,如果一个用户回复了一个主题贴,则该回复用户和发贴用户之间建立一条边。在实验中,最终获取贴子数据986条,实际用户数量为72。按照前面所述的方法计算用户节点连接强度,计算用户节点的LR值,最后建立一个有72个节点,246条边的用户网络图(如图4所示)。
图4 实验样本用户重要度网络图
使用该样本中90%的数据作为训练集,训练一个BP神经网络,训练该BP神经网络的Matlab核心代码如下:
核心代码:用户BP神经网络训练程序.
(1) k=rand(1,72);
(2)[m,n]=sort(k);
(3)in=data(:,1:4);
(4)out =data(:,5);
(5)in_train=in(n(1:57),:)';
(6) out_train=out(n(1:57),:)';
(7) (in_test=in(n(58:72),:)';
(8)out_test=out(n(58:72),:)';
(9) [inputn,inputps]=mapminmax(in_train);
(10) net=newff(inputn,out_train,4,{'logsig' 'logsig'});
(11)net.trainParam.epochs=500;
(12) net.trainParam.lr=0.05;
(13)net.trainParam.goal=0.0000001;
(14) net=train(net, inputn, out_train);
(15)inputn_test=mapminmax('apply',in_test, inputps);
(16)BPout=sim(net,inputn_test);
(17) BPout(BPout<0.5)=0;
(18)BPout(BPout≥0.5)=1。
图5 LR值、预测值和实际值对比图
运行程序后,输出的意见领袖预测值、真实值和计算所得的LR值对比结果如图5所示。从图5中可以看出,在15个样本中,神经网络正确识别出了3个意见领袖和8个非意见领袖,总体识别正确率达到了接近70%的水平。图中,LR值较高的用户有6个,分别是第2个、第8个、第9个、第10个、第12个和第14个用户。涵盖了神经网络所识别的3个“意见领袖”。图6是由15个样本节点组成的局部网络图,由图6可知,这6个LR值较高的用户都处于局部网络的核心位置,其相应贴子的被收藏数、点赞数和转发数也较高,我们认为这6个用户节点是该局部网络的“意见领袖”。因此,相较于神经网络,LR值多识别出2个“意见领袖”,具有更高的识别率。
图6 15个样本节点的局部网络图
3.2 LR值对网络社区信息传播的影响我们将用户节点数据进行纵向和横向的对比,纵向对比是以时间为单位,观察一个网络社区内部的数据变化情况。横向对比是观察多个网络社区之间的数据情况。在纵向对比中,我们观察和收集了一个版块连续50天的用户数据,把每天的数据统计、计算和整理后,结果如图7所示。
图7 每日平均LR值与发贴数对比图
我们发现随着发贴量的增加,每日平均LR值先增加,然后降低,后期在0.4左右趋于稳定。这说明后期网络结构基本定型,形成一种较稳定的结构。在数据的横向对比中,我们收集整理了8个不同主题论坛版块在某一个时间点的相关用户数据,包括意见领袖人数、意见领袖平均发贴数、平均LR值等,经过整理和计算后,结果如表1所示。从表1中我们可以看出,并不是LR值越大,总发贴数越高,总发贴数与用户的平均LR值似乎关系不大,这和我们初始的设想不符,仔细考虑,其实这并不奇怪,因为在一个社区内部,平均LR值才对发贴数起作用,高的发贴数对应了高的平均LR值,正如图7中所示,最大的LR值基本出现在发贴数最大的时刻。
表1 8个社区版块相关用户数据汇总和对比
而在几个论坛的横向比较中,由于论坛主题不同,人群不同,LR值并没有横向的可比性,不代表一个平均LR值高的论坛就一定比一个平均LR值低的论坛发贴数高。如图8(a)所示,图8(a)进行了不同论坛平均LR值与总发贴数的比较。图8(b)表示的是意见领袖人数和总发贴数的关系,从图中我们可以看出,论坛意见领袖参与人数和总发贴数具有较强的相关性,参与意见领袖人数越多,发贴量越大。图8(c)表示,意见领袖平均发贴数与发贴总数也有较强的相关性。意见领袖平均发贴数越大,论坛总发贴数越高。
图8 8个论坛版块总发贴数、平均LR值、意见领袖人数与意见领袖平均发贴数对比图
本文利用网络社区用户文本大数据计算出用户间的连接强度,再结合PageRank算法的主要思想原理,设计了一种LeaderRank算法,用来评价网络社区“意见领袖”的重要程度。经过实验证明用该方法识别网络社区“意见领袖”是行之有效的。相较于神经网络,该方法计算所使用的数据量较小,计算时所需迭代次数少,具有更高的识别率,即使用在小型网络中也有较好的效果。利用该方法建立实际的用户网络图时,我们发现随着网络社区信息量的不断增长,LeaderRank趋于收敛,即最终将形成稳定的用户网络结构。同时将LeaderRank结合其他指标观察发现,在网络社区内部意见领袖的LeaderRank、参与程度对发贴量有着重要影响。而在社区之间,较高的平均LeaderRank值不代表就会具有较高的发贴量。本方法可以配合其他指标进行灵活运用,具有良好的扩展性、适用性和稳定性。进行相应扩展后可以方便的应用于其他一些研究工作:
a.可以利用该方法进一步监控网络舆情的发展情况、预测网络舆情风险和预防以及应对网络舆情突发事件。
b.该方法可以进一步与机器学习方法相结合,既可以提高识别的准确率,也可以增强算法的可拓展性和适应性。
c.结合大数据和其他指标,用来发现团队体育运动中的核心运动员、识别犯罪团伙重要成员以及发现金融网络中的洗钱和欺诈行为等。