佘朝兵
摘 要:运用数据挖掘技术中的线性回归算法,对上海市61家火锅餐厅在大众点评网的数据进行处理,分析与评分有关的影响因素,帮助火锅餐厅管理者做出决策。数据挖掘结果表明:朋友之间在餐厅中聚餐的次数、口味、服务质量越高、评分越高;家庭在餐厅聚餐次数、提供夜宵次数、餐厅老字号年数越多,评分越低。
关键词:线性回归;影响因素;火锅餐厅
中图分类号:F224.31 文献标志码:A 文章编号:2095-2945(2018)10-0168-02
Abstract: Using the linear regression algorithm in data mining technology, the data of 61 hot pot restaurants in Shanghai on dianping.net are processed, and the influencing factors related to score are analyzed to help the managers of hot pot restaurants to make decisions. Data mining results show that: the higher the number of times, taste, quality of service of friends are in the restaurant, the higher the score is; the larger the dinner times, the number of times to provide supper, the years of running the restaurant are for families in the restaurant, the lower the score is.
Keywords: linear regression; influencing factors; hot pot restaurant
1 概述
在移動互联网时代,客户选择餐饮的决策方式已经悄然发生改变。过去,客户通过同事、朋友的介绍选择餐厅。而今,虽然上述决策方式还产生作用,但是越来越多的客户主要选择利用移动互联网信息选择餐厅,例如依赖“大众点评网”的上其他客户对餐厅的点评信息进行决策。餐厅在“大众点评网”等信息平台上的评分越高,客户选择该餐厅的概率越大。因此在餐饮行业,传统的宣传手段已经无法适应现在的用户的要求。如何提高在“大众点评网”等互联网信息平台上的评分,已经成为餐饮营销宣传的关键问题。众所周知,服务、环境等因素都可能影响客户的评分,哪些因素是影响客户评分的关键因素呢?通过线性回归算法分析影响餐饮行业评分的关键因素,可有利于餐饮行业管理者为营销宣传提供决策依据。上海是全球著名金融中心,全球人口规模和面积最大的都会区之一。以上海市火锅餐厅为例进行分析,可以为其他城市的餐饮评分影响因素分析提供参考。
2 线性回归算法
回归分析是指通过分析已知的大量数据,发现变量之间的统计关系,构建描述这种关系的模型,最终利用构建的模型预测新的数据。回归分析不仅可以通过指定变量的值预测结果,还可以准确描述指定变量影响结果的程度。
2.1 线性回归算法的基本原理
线性回归是利用统计原理来分析变量之间定量关系的一种方法。该算法主要的目的是通过一个变量来预测另外一个变量的值。线性回归分为一元线性回归和多元线性回归两类。前者是指在回归分析中,只包含一个自变量和一个因变量,并且这两者的关系可以通过直线来描述;后者是指在回归分析中,包含多个自变量和一个因变量,并且变量之间的关系也是直线关系。
在实际生活中,一个结果的出现可能与多个因素有关。因此处理实际问题时,一般将多个因素抽象为多个自变量,将结果抽象为因变量,用多元回归分析方法进行处理。
不妨设y为因变量,x1,x2,…,xn为自变量。则多元线性回归方程可表示为y=w1*x1+w2*x2+…+wn*xn+w0;其中w1,w2,…wn表示回归系数,w0是常规项。回归系数wi表示了第i个自变量对因变量的影响程度,系数为正,则该自变量与因变量正相关;系数为负,则该自变量与因变量负相关。多元线性回归分析就是通过大量数据计算多元线性回归的系数。系数的参数估计一般采取最小二乘法来表示,即要求估计的系数得到的预测值与实际值的误差平方和最小。误差平方和的计算公式如(1)所示:
e=∑■■(y(i)-x(i)Tw(i))2 (1)
其中y(i)表示第i个线性方程的因变量的实际值,x(i)是第i个线性方程自变量向量,w(i)第i个线性方程回归系数向量。用矩阵表示如公式(2)所示:
e=(y-Xw)T (y-Xw) (2)
由于采取最小二乘法,因此目标是上述公式中的最小值。通过公式(2)对w进行求导,即可以得到回归系数的公式如下:
w'=(XTX)-1XTy (3)
2.2 算法步骤
线性回归算法的步骤如下:
步骤1:收集数据;
步骤2:预处理数据特别是对数据进行归一化处理;
步骤3:输入训练数据得出回归系数;
步骤4:根据回归系数,分析回归效果。
3 应用实例
3.1 数据来源
本节通过网络爬虫技术,在“大众点评网”收集上海市61家火锅餐厅的数据。数据集包含了61个样本,每个样本包括店名、点评条数、人均消费额、口味、环境、服务、有无团购、有无外卖、有无订座、朋友聚餐次数、随便吃吃次数、刷卡次数、家庭聚会次数、情侣约会次数、夜宵次数、无线上网次数、休息小憩次数、老字号年数、免费停车次数、点评分等属性数据。部分实例数据如表1所示;训练样本中属性的排列顺序如表2所示。
表2 属性排列顺序
3.2 数据预处理
由表1的数据可知,部分属性的数值属于离散型数据,例如有无团购、有无订座、有无外卖三个属性的值是“有”、“无”两个类型。为了计算方便,将“无”用数值0表示、将“有”用数值1表示。其次属性的值得数值差距较大,如点评条数的属性的值的区间是[587,4762],而口味、环境、服务等属性的值在10内。由于属性之间的数值差距较大可能大致求解最优解时迭代多次,收敛速度慢等原因。因此有必要对属性之间的数据进行归一化处理。归一化处理的方法有线性归一化、标准差标准化、非线性归一化等方法。本文采用的是线性归一化方法。该方法的目的是将所有属性值设定在[0,1]区间。具体计算如公式(2)所示。
xnarmalization=■ (4)
3.3 测试结果
本文利用之前的代码,通过对收集的61个样本数据进行預处理后利用线性回归算法进行训练,算法得到回归系数的结果如表3所示。
表3中得到的回归系数可分成三类,第一类是系数值低于5%;其余绝对值高于5%的系数又可分为系数值为正和负两类。回归系数数值低于5%,可认为该系数对应的自变量对因变量的变化的影响忽略不计。由表3可知,回归系数w2、w6、w7、w8、w10、w11低于5%,对应的自变量即人均消费额、有无团购、有无外送、有无订座、随便吃吃次数、刷卡次数等属性对餐厅的评分的影响可忽略。在所有正相关属性中,w9、w5、w3、w16等系数对应的属性值对餐厅评分的影响较大。其他属性值不变的情况下,这些属性值越大,评分越高。这些属性分别是朋友聚餐次数、服务质量、口味、休闲小憩次数。在所有负相关的属性中,w12、w14、w17等系数对应的属性的值对餐厅评分营销较大。其他属性值不变情况下,这些属性的值越大,评分越低。这些属性分别是家庭聚会次数、夜宵次数、老字号年数。
参考文献:
[1]哈林顿.机器学习实战[M].李锐,译.北京:人民邮电出版社,2013.
[2]李瑞,姜新元,秦涛.多元线性回归在大坝变形监测数据处理中的应用[J].黄河水利职业技术学院学报,2017,29(1):17-19.
[3]陈海鹏,卢旭旺,等.基于多元线性回归的螺纹钢价格分析及预测模型[J].计算机科学,2017,44(s2):61-64.
[4]胡继礼,杨松涛.线性回归在糖尿病诊断中的应用[J].河南工程学院学报(自然科学版),2011,23(4):57-61.
[5]田秀芹.基于多元线性回归的粮食产量预测[J].科技创新与应用,2017(16):3-4.
[6]李琦,李华新.基于多元线性回归分析的安徽省金寨县域经济发展研究[J].科技创新与应用,2013(07):266.
[7]石伟,刘爱华,张立忱,等.多元线性回归在密山井水位影响因素分析的应用[J].科技创新与应用,2014(01):294.