电子商务中基于潜在类回归模型的农产品个性化推荐方案

2017-09-16 08:36:15彭洁徐剑晖陈超
江苏农业科学 2017年12期
关键词:电子商务

彭洁+徐剑晖+陈超

摘要:针对现有电子商务中农产品个性化推荐方案精度较低的问题,提出一种基于潜在类回归模型(latent-class regression model,简称LCRM)和组群偏好的个性化推荐方案。首先,收集农产品的评价信息,进行预处理,提取出每个评价者的特征-意见值对。然后,利用LCRM根据整体与特征评价,将具有相同爱好的评价者进行分组,构建组群偏好,并计算单个评价者的偏好。最后,通过计算用户与组群偏好的相似度来定位组群,通过计算用户与该组群中评价者偏好的相似度来定位农产品,最终列出推荐表。结果表明,该方案能够准确为用户推荐所需的农产品,推荐列表中农产品的命中率达到了83%,同时具有较低的计算复杂度。

关键词:电子商务;农产品个性化推荐;潜在类回归模型;组群偏好

中图分类号: TP391文献标志码: A文章编号:1002-1302(2017)12-0274-05

现今,利用网络进行日常商业交易的互联网用户越来越多,许多公司利用网络来销售他们的商品和服务。由于冷藏运输条件的改善,水果、蔬菜等农产品也开始融入到电子商务中[1]。在电子商务中,对于一个特定的商品,顾客面临多个选择,常处于困惑和迷失状态。对于网站管理员而言,评估提供的商品和服务是否迎合用户,为用户提供感兴趣的个性化商品推荐单至关重要[2]。

目前学者提出了多种电子商务推荐方案,例如Huang提出了一种基于知识决策支持的推荐方案,将推荐问题转化成约束满意问题,通过知识库检测商品和用户偏好的匹配度,查找与用户首选最接近的商品来生成推荐列表[3]。然而,这种方案仅依靠评价特征词出现的频率来定位商品,准确率较低。Krohn-Grimberghe等提出了一种基于评价特征分析的推荐方案,从众多评价中提取特征,采用多关系矩阵分解(multi-relational matrix factorization,简称MRMF)来搭建用户对商品和特定特征观点之间相关性的模型,从而预测客户所需商品的可能性[4]。然而,这种方案的局限性在于并没有强调新用户“不完全偏好”现象。Jain等提出了一种基于线性回归模型(linear regression model,简称LRM)的推荐方案,利用评价者评论形成评价者偏好,根据用户和该偏好的相似度来定位商品[5]。然而,该方案仅匹配用户与单个评价者的偏好,没有考虑其他用户评价中的商品潜在信息,一定程度上影响了推荐精度。另外,现有的推荐方案主要是应用在电影、图书、电子产品等商品,对农产品的个性化推荐研究较少。郑云飞等设计了一种农产品协同过滤推荐系统[6],但主要侧重于软件系统的构建,对推荐方案的描述较少,且效果不佳。将高效的个性化推荐技术应用到农产品推荐中,将会有助于农产品电子商务和农业地区经济的发展,具有重要的意义[7-8]。

偏好模型基于多属性效用理论(multi-attribute utility theory,简称MAUT)[9],根据用户偏好,利用匹配工具将所有商品进行排序从而给出推荐。然而,传统偏好模型尽管可以基于交互式偏好技术来了解买家的需求,但所得出的偏好不完整且不准确。另外,现有基于偏好模型的推荐方案中,大多仅考虑根据单个评价者对商品的评价信息建立偏好,没有充分挖掘商品评价中其他客户有价值的评价信息,不能很好地为新用户进行推荐。

为此,本研究针对农产品的个性化推荐应用,提出一种基于潜在类回归模型(latent-class regression model,简称LCRM)的推荐方案[10]。利用LCRM根据整体与特征评价,将具有相同爱好的评价者进行分组,构建组群偏好,并计算单个评价者的偏好。通过计算用户与组群偏好的相似度来定位组群,通过计算用户与该组群中评价者偏好的相似度来定位农产品,最终给出推荐列表。结果表明,本研究方案能够准确地为客户推荐所需的农产品。

1方案架构

根据现有的偏好启发式技术,可以推导出当前新买家对农产品特征的偏好,并基于多属性效用理论进行模型化:prefu={(fi,wui)|1≤i≤n}。其中prefu表示用户偏好;fi表示从所有评价中提取的第i个特征;wui表示特征fi对应的偏好权重,但是,由此推导出的偏好事实上并不完整[11]。因此,为了生成当前买家的精确推荐,其核心理念是:区分买家固有偏好与农产品评价者间的相似性。其中,亟待解决的问题有:(1)根据买家提供的评价信息来恢复评价者的多特征偏好;(2)建立当前买家和评价者间的偏好相关性;(3)预测买家的完整偏好,并作出推荐。

纯粹地计算评价中特征的发生频率并不能真实地体现评价者的偏好权重,因此,须要引入更先进的学习方法,用以综合考虑评价者的整体评价和特征级意见。此外,单个评价者生成的信息是有限的,所以提出方法中须包含多个评价者,生成它们的偏好相似性,并构建组群的偏好。

本研究的基本思想是,根据所有评论信息(包括整体评价和特征观点评价),首先将评论者分组创建无监督集群,目的是建立组群偏好来代表1个组群评论者的共同喜好。同时,使用组群级偏好调整评论者级偏好。在下一次迭代循环中,再使用评论者级偏好来改善组群结果。当2种类型的偏好都稳定不变的时候,迭代终止。然后通过计算机用户与组群偏好和评价者级偏好的相似度来定位农产品。本研究推荐系统的工作流程主要由三大步骤构成,如图1所示。

步骤1:对评价进行预处理,进行特征级意见挖掘,用以确定每个評价者的特征-意见值〈feature,opinion_value〉对。意见(opinion)表示评价者对特征的积极、中性或负面的评价。

步骤2:利用潜在类回归模型生成评价者组群的偏好(组群级偏好),然后推断出评价者的权重偏好(评价者级偏好)。该模型集成了4个评价元素:评价者对农产品的整体评价;评价中每个特征相关联的意见;特征发生频率(作为1种先验知识进行建模);评价者推荐的农产品。endprint

步骤3:根据步骤2输出的评价者级偏好和组群级偏好,计算用户偏好和组群偏好的相似度,再计算用户偏好与组群中评价者偏好的相似度,最终定位相关农产品,并返回排名前N的农产品。同时通过评价任务测试当前买家的目标选择(即买家打算购买的农产品)是否存在反馈农产品列表中。该步骤通过组群偏好机制,来解决仅依靠单个评价者偏好所产生的不稳定性。文中相关符号及说明如表1所示。

2预处理:提取特征-意见值对

在推导评价者权重偏好前,须先对原始评价文本进行预处理, 转化生成特征-意见值〈feature,opinion_value〉对。本表1涉及的符号及说明

符号含义REV={rev1,…,revM}表示M个评价者的集合P={p1,…,p|P|}P个农产品的集合SREV×P评价者-农产品对的集合,其中(revi,pj)∈S表示一个评价者revi对农产品pj发表的评价F={f1,…,fn}表示从所有评价中提取的不相同特征rijrij表示评价者revi给农产品pj的评价Rij评价者revi给农产品pj的整体评价等级Xij=[xij1,…,xijn]在评价rij中关于特征F的观点值Wrevi=[wi1,…,win]评价者revi的权重偏好,其中wi1是特征fi∈F的权重,若评价者对该特征没有评价,则权重为0c=[c1,…,ck]评价者的k个组群Wck=[wck1,…,wckn]组群ck的偏好,其中wck1是特征fi∈F的组群权重偏好z=[z1,…,zM]具有M个评价者的组群,zi=k时表示评价者revi属于组群ck

研究实施2个步骤来生成特征-意见值对:

步骤1:从评价中提取特征并对同义词特征进行分组。本研究中使用Core-NLP包的词性标记(part-of-speech,简称POS)来提取常见的名词和名词短语,用以识别潜在的候选特征。此外,评价者常常用不同的词表示相同的农产品特征,为此,本研究定义了种子词集合,利用WordNet工具[12],通过计算词汇与种子词的相似度来对同义特征进行分组。这种处理有助于识别可靠的特征表述,并有效地对词汇进行分组。

步骤2:量化意见值。本研究评估每个意见词的情绪强度(也叫做极性值),为此,研究中对每个意见词s提供3种极性值:积极性、消极性、客观性,分别记为Pos(s)、Neg(s)和Obj(s),范围从0.0到1.0,并满足Pos(s)+Neg(s)+Obj(s)=1。然后,将3种分值综合为单一的情感评分:Os=Neg(s)×Rmin+Pos(s)×Rmax+Obj(s)×Rmin+Rmax2。其中,Rmin和Rmax分别表示最小和最大规模。设置Rmin=1、Rmax=5;Os范围为从1到5。

3基于潜在类回归模型的计算偏好

通常,一些畅销农产品有多个评价,因此,单一评价者提供的信息是非常有限的。在基于传统回归模型的方法中,稀疏现象可能会导致过度拟合问题,因为评价者权重偏好的绝对偏差完全取决于自身评价。此外,根据传统回归模型推导的权重偏好值的范围处于多元高斯分布均值μ附近,由于输出结果受到均值μ的约束,所以不能充分反映评价者的真实偏好。为此,本研究利用潜在类回归模型,通过固有偏好与其他评价者之间相似性的比较,来准确地估计评价者的权重偏好。

3.1LCRM简述

LCRM起源于市场营销领域,用于市场细分工作,致力于寻找潜在客户。根据他们的偏好,划分为相对较小的同质组群。具体来说,LCRM方法假设整个族群可以通过有限数量的划分进行定义(每个划分代表了市场分割中的1个消费者组群),所以LCRM的首要目标是按组群级来评估每个划分的回归模型[13]。因此,LCRM可以根据单一实体的回归值相关知识(例如:来自单个消费者),利用整个族群结构生成组群。当实体具有最高的隶属概率时,将其分配给唯一的组群。

本研究利用LCRM同时获得所有评价者的偏好和组群级偏好,不仅要考虑评价者的自身信息,还将其与其他评价者间相似的固有偏好进行合并,解决仅依靠单一评价者信息带来的不准确性问题。

3.2计算组群级和评价者级偏好

根据LCRM模型,首先假设将所有的评价者划分为k个组群C={c1,c2,…,ck}。整體评级Rij的似然概率函数定义如下:

Pro(Rij|Xij,F)=∑kk=1πkPro(Rij|Xij,ck)。(1)

其中:F表示所有参数集;πk表示组群ck的先验概率;Xij是与评价者revi的F特征相关联的意见值向量。在公式(1)中,Pro(Rij|Xij,ck)给出了整体评价Rij的条件概率,其中revi属于组群ck:

Pro(Rij|Xij,ck)=Pro(Rij|Xij,Wrevi)·Pro(Wrevi|ck)。(2)

式中:Wrevi表示评价者revi的权重偏好;Pro(Rij|Xij,Wrevi)给出了Wrevi的似然度和特征意见向量Xij。这里,可以从组群级偏好分布中推导得到评价者级偏好。该偏好可能是一种均值为Wck(组群级偏好)、协方差为∑k的多元高斯分布:

Pro(Wrevi|ck)=Pro(Wrevi|Wck,∑k)~N(Wrevi|Wck,∑k)。(3)

此外,组群级偏好分布N(Wrevi|Wck,∑k)具有不确定性,基于KL散度模拟如下:

Pro(Wck,∑k)=exp{-ψ·KL[N(Wck,∑k)|N(μ0,I)]}。(4)

其中,μ0表示评价中特征发生频率的集合。

由于整体评价Rij已知,因此,可以估计评价者属于某一组群的概率。

qk(revi)=∏(revi,pj)∈S πjk·Pro(Rij|Xij,ck)∑ch∈Cπjh·Pro(Rij|Xij,ch)。(5)endprint

此外,可以合理假设,推荐相同农产品的评价者中,谁的偏好相关性更高,因此,推荐农产品pj的分布πj={-πj1,…,πjk}可作为模拟的先验概率,其中revi属于确定的组群。所有观察S(收集的评价者-农产品对)的完全混合对数似然度定义如下:

L(Φ|S)=∑(revi,pj)∈Slog (∑kk=1πk·Pro(Rij|Xij,ck))。(6)

进一步推导公式(7)、(9),分别用于推导组群级偏好和评价级偏好:

W^ck=(Nk∑k-1+ψ·I)-1(∑k-1∑Mzi=kWrevi+ψ·I·μ0)。(7)

∑^k=1ψ∑Mzi=k(Wrevi-Wck)(Wrevi-Wck)T+(Nk-ψ2ψ)2I1/2-Nk-ψ2ψIT。(8)

W^revi=1N(revi)∑(revi,pj)∈S(XijXTijσ2+∑k-1)-1(Rij-WTreviXij)σ2+∑k-1Wck。(9)

上式中,N(revi)为评价者revi提出的评价数。

然后,通过期望-最大化(expectation maximization,简称EM)算法估计参数集:Φ={z1,…,zM,Wc1,…,Wck,∑1,…,∑k,Wrev1,…,WervM},通过以下2步迭代过程确定最大对数似然度。

3.2.1期望步骤(E)根据个体评价者偏好Wrevi,更新评价者组群分配、组群级偏好分布和组群先验概率。

(1)组群分配zi(如果评价者revi属于组群revi,则zi=k),公式:

zi=arg maxkqk(revi)。(10)

式中,qk(revi)与公式(5)相关。只有当获得最高概率时,评价者才分配给组群。

(2)对于每个组群,组群级偏好Wck用公式(7)进行更新。

(3)组群的先验概率(即,πj={-πj1,…,πjk})可视为多项分布,并通过拉普拉斯平滑更新:

πjk=∑(revi,pj)∈SIzi=k+λN(pj)+K×λ。(11)

式中,N(pj)表示農产品pj的评价数,平滑参数变化范围λ∈[0,1]。

3.2.2最大化步骤(M)在该步骤中,旨在通过公式(9)更新评价者偏好Wrev1。

重复E和M步骤,直到方程(6)收敛。最终,将所有评价者划分为k个不相交组群,并获得每个组群生成的组群级偏好Wck和每个评价者的评价级偏好Wrevi。

4基于偏好相似度生成推荐

本研究通过2个步骤来精确生成当前买家推荐:(1)计算买家与评价者组群的相似度,将买家分类到最相关组群;(2)计算买家与该组群中评价者的相似度来定位农产品。买家和组群间的偏好相似度计算如下:

sim(Wu,Wck)=11+∑i=1n[wfi(u)-wfi(ck)]2。(12)

式中,Wu表示买家声明的权重偏好;Wck表示组群ck的组群级偏好。

为买家选择具有高相似度值的组群。在该组群中对应的评价者级偏好中,寻找与当前买家最相似的k个评价者。评价者和当前买家间的相似度计算公式:

sim(Wu,Wrevi)=11+∑wfi∈Wu[wfi(u)-wfi(revi)]2。(13)

式中,wfi(u)是基于特征的当前买家权重偏好fi;wfi(revi)是第i个评论者。

然后,由这k个评价者生成得到农产品池,计算得到农产品pj的预测评分,其匹配程度表明了买家的潜在兴趣:

PredictionScore(u,pj)=∑revi∈ci⌒K^(revi,pj)∈Ssim(Wu,Wrevi)×Rij∑revi∈ci⌒K^(revi,pj)∈Ssim(Wu,Wrevi)。(14)

式中:ci表示最相关组群;K表示k最相近评价者集合;Rij为评价者对农产品的整体评价;sim(Wu,Wrevi)为买家u和评价者revi间的偏好相似度。将具有较高评分的前N个农产品生成推荐列表,并推荐给买家。

5试验与分析

5.1试验设置及数据集

试验中从1个电子商务网站上获取一些农产品(水果、蔬菜等)的网上销售数据集。对于每个文本,对评价者的评价分配等级为1~5星。首先清理数据集:(1)移除少于4个特征的评价(包括那些太短或没有意义的字符)[14];(2)移除少于10个评价的农产品。清理过程确保每个评价都包含相当量的信息,每个农产品都有充分的评价用于分析[15]。该步骤之后,农产品数据集有122种农产品,一共18 251个评价。其中,每个评价者在农产品上只给出1条评价。数据集的详细信息如表2所示。

5.2性能指标

使用命中率和平均倒数排名(mean reciprocal rank,简称MRR)作为试验指标。

命中率(H@N)主要用于检测所选择目标是否出现在N推荐集中 (试验中,N设置为5、10、20)。 它返回用户选择命

5.3结果与分析

将2种现有商品推荐方案应用到农产品推荐中,并将本研究方案与这2种方案和仅利用评论者级偏好的本研究方案进行比较,4种方案分别为:(1)本研究方案(LCRM+评价者级偏好+组群级偏好);(2)LCRM+评价者级偏好;(3)文献[4]方案(MRMF);(4)文献[5]方案(LRM)。另外,试验中设置推荐列表长度N为5、10、20等3种情况。

由图2可以看出,基于LCRM的方案能够获得较优的性能,因为基于买家和评论者之间的相似关系建立特征偏好,同时也表明LCRM在推导单个评论者特征偏好时比传统回归模型更加精确。然而,文献[5]中传统LRM纯粹依靠评论者自身提供的信息进行偏好提取,在稀疏评论的情况下,不可避免地存在偏见和过拟合现象,从而影响了推荐精度。endprint

另外,本研究方案比LCRM+评价者级偏好的方案的命中率更高,这是因为本研究方案不仅考虑了评价者级偏好,还考虑了组群级偏好。通过关联志趣相投的评论者,能够更精确地预测买家未声明的偏好。

图3描述了4种方案在MRR方面的比较结果。可以看出,本研究方案获得了优越的性能。这表明,本研究方案不仅能够提高推荐表中客户所需农产品命中的数量,还能提高客户真正所需农产品在列表中排名位置,使其能够更好地呈现在客户面前。4种方案的平均命中率分别为85.5%、79.20%、74.80%、57.00%,本研究方案比其他3种方案分别提高7.95%、14.30%、50.00%;4种方案的MRR分别为0076、0.068、0.062、0.034。

5.4时间复杂度分析

对于算法的时间复杂度,主要是计算偏好中参数估计所消耗的时间。其中,LCRM的期望-最大化(EM)算法中的E步骤耗费O(max(|S|,n)×k×n2)步操作,M步骤耗费 O(k×n3+|S|n2) 步操作,其中k表示组群数;n表示农产品特征数。假设LCRM经t次迭代后收敛,则LCRM的计算复杂度为O(t×max(|S|,n)×k×n2)。

相比之下,传统回归模型要计算协方差矩阵的行列式,花费O(n3)步操作,它的复杂度为O(t×M×n3),其中M为评价者数。由于M远大于k,所以该复杂度要高于本研究LCRM方案。

6结束语

提出了一种基于潜在类回归模型的农产品电子商务个性化推荐方案。利用LCRM将具有相同爱好的评价者进行分组,构建组群偏好。通过计算用户与组群偏好的相似度来定位组群,计算用户与该组群中评价者偏好的相似度来定位农产品,最终给出推荐列表。试验结果表明,提出的方案所生成的推荐列表中农产品的命中率达到了83%,且能够将客户所需农产品排到列表前端。同时,相比于传统回归模型,本研究方案具有较低的计算复杂度。

提出的方案中,集群是不相交的,这意味着每个评论者只能隶属于一个集群。在今后的工作中,将考虑允许存在相交集群,使每个评论者可分配给多个集群,以此进一步提高本研究方案的适用范围。

参考文献:

[1]刘琦,苑金凤,王倩,等. 农产品网购意愿研究综述[J]. 江苏农业科学,2014,42(4):401-403.

[2]王伟,徐平平,王华君,等. 基于概率回归模型和K-最近邻的电子商务个性化推荐方案[J]. 湘潭大学自然科学学报,2016,38(1):97-100.

[3]Huang S L. Designing utility-based recommender systems for e-commerce:evaluation of preference-elicitation methods[J]. Electronic Commerce Research and Applications,2011,10(4):398-407.

[4]Krohn-Grimberghe A,Drumond L,Freudenthaler C,et al. Multi-relational matrix factorization using bayesian personalized ranking for social network data [C]. Proceedings of the fifth ACM International Conference on Web Search and Data Mining. Washington:Seattle,2012:173-182.

[5]Jain G,Mishra N,Sharma S. CRLRM:Category based recommendation using linear regression model[C]. Proceedings of the 2013 Third International Conference on Advances in Computing and Communications. India:Cochin,2013:29-31.

[6]郑云飞,夏帅,谭武坤. 基于用户的农产品协同过滤推荐系统的设计与实现[J]. 农业网络信息,2014,10(9):49-53.

[7]李冰洁,丁疆辉. 冀中南地区农村居民电子商务应用及其空间影响[J]. 江蘇农业科学,2016,44(4):572-577.

[8]王烁. 云环境下个性化农业产销信息匹配推荐系统的研究和实现[D]. 北京:中国农业科学院,2014:18-22.

[9]王崇,李一军. B2C环境下基于多属性效用理论的消费者行为模式[J]. 系统管理学报,2010,19(1):62-67.

[10]Moors G. Ranking the ratings:a latent-class regression model to control for overall agreement in opinion research[J]. International Journal of Public Opinion Research,2010,22(1):93-119.

[11]许棣华,王志坚,林巧民,等. 一种基于偏好的个性化标签推荐系统[J]. 计算机应用研究,2011,28(7):2573-2575.

[12]Gan M. Cousin:a network-based regression model for personalized recommendations[J]. Decision Support Systems,2015,26(8):361-373.

[13]Thiene M,Galletto L,Scarpa R,et al. Determinants of WTP for prosecco wine:a latent class regression with attitudinal responses[J]. British Food Journal,2013,115(2):279-299.

[14]Zhang Y. Analysis and comparative of e-commerce personalized recommendation[J]. Journal of Chemical and Pharmaceutical Research,2014,55(2):6762-6765.

[15]Kuang G,Li Y. Using fuzzy association rules to design e-commerce personalized recommendation system[J]. Telkomnika Indonesian Journal of Electrical Engineering,2014,12(2):321-332.李晨曦,吴克宁,刘霈珈,等. 土地利用变化及社会经济驱动因素——以京津冀地区为例[J]. 江苏农业科学,2017,45(12):279-283.endprint

猜你喜欢
电子商务
2025年我国农村电子商务交易额达到2.8万亿元
今日农业(2021年21期)2022-01-12 06:32:06
《电子商务法》如何助力直销
浅析中小企业电子商务服务外包
电子商务实践能力的提升探析
电子商务
电子商务模式创新的相关研究
关于加快制定电子商务法的议案
跨境电子商务中的跨文化思考
基于AS仿真的电子商务交易系统研究
电子商务人的核心能力