刘 毅
(华北水利水电大学数学与统计学院,郑州 450046)
回归分析是广泛使用的统计方法之一,可了解结果与一组协变量的关联。但现代统计分析以高维统计为主,即统计模型中有较多参数,在高维回归分析中表现为自变量的个数远大于样本数。经典的处理方法是充分利用先验信息,如稀疏性来提取最相关的某些变量参数(如Lasso估计[1]、弹性网络、岭回归等)。高维问题的特点是变量较多,但用于研究的目标数据量较少,达不到研究需要的样本量,导致建立的模型或算法在实际应用中难以表现出较好的性能。解决此类问题的有效方法是迁移学习[2],它将一些有用的信息从相似的任务迁移到原始任务,以达到较好的学习及预测效果,即将一些与目标模型相关且样本量足够的数据作为辅助样本进行研究,可有效解决高维回归问题。迁移学习得到了广泛应用,例如在某些生物或医学研究,由于伦理或成本问题难以获得生物学或临床结果,可利用迁移学习从不同但相关的生物学结果中收集信息,提高结果的预测性及估计性。还可用于商品推荐[3],许多网络平台都希望通过预测客户购买可能性来向其推荐个性化商品,但每个客户的历史采购数据有限,可将客户点击数据作为辅助数据,通过迁移学习来对购买任务进行预测。学者对其具体应用进行了深入研究,Pan[4]等研究了其在客户评论分类中的应用,Hajiramezanali[5]等研究了其在医疗诊断中的应用,Wang[6]等研究了拼车平台中的乘车调度问题。Ma[7]等对辅助样本及目标样本的高维问题进行探讨,分析了多源高维线性回归问题。还有人提出了几种L1惩罚或约束的最小化方法,将其用于高维线性回归的预测及估计[8-10]。Bastani[3]等利用高维统计技术提出了一种结合大量辅助数据及少量目标数据的新型两步估计器。Li Sai[11]等考虑在迁移学习的基础上使用一些来自不同但可能相关的回归模型辅助样本及目标模型样本对目标模型进行参数估计及预测分析。Tian[12]等研究了高维广义线性模型(GLM)下的迁移学习问题。本研究分析了处理高维线性回归模型参数估计问题的几种迁移学习算法,对其性能进行评估及比较。
考虑高维线性回归模型中的迁移学习,目标模型可写成:
(1)
(2)
其中,w(k)∈p是第k次研究的真实系数向量,是随机噪声,使得回归系数w(k)未知,且与目标β是不同的。利用目标数据及第k个辅助数据来研究模型(1)。
辅助样本是在对目标模型进行参数估计时提供一些有用信息的样本,因此用于辅助研究的辅助模型与目标模型之间具有一定的相似性。辅助样本具有信息性的前提是该辅助模型与目标模型相似。使用w(k)与β之间的差异稀疏性来表示第k个辅助研究的信息水平。设δ(k)=β-w(k)表示w(k)与β之间的差异性。信息辅助样本是差异性足够稀疏的样本,即w(k)与β之间的差大部分为零。用集合A0来表示信息辅助样本集:
(3)
对于一个向量α=(α1,α2,…,αp)T∈p,定义几种范数如下:为α中非零元素的个数,
弹性网算法是一种综合Lasso回归与岭回归的回归算法。在Lasso回归进行变量选择时,有时会筛掉某些对研究有利的变量,而利用岭回归研究问题则不能保证稀疏假设。故考虑利用迁移弹性网算法来研究高维线性回归问题。该算法利用辅助数据对辅助模型的回归参数进行估计,利用L1与L2惩罚项,利用目标数据及估计出的辅助模型回归参数对目标模型参数进行估计。
算法1:迁移弹性网算法
计算
(4)
令
(5)
其中,
(6)
算法2:Orcale Trans-Lasso算法
计算
(7)
令
(8)
其中,
(9)
算法2通过对辅助模型的回归系数w(k)及其与目标模型的回归系数β之间的差距δ(k)的估计得到结果,但估计量与真实值之间总是存在一定的差距,为了缩小这个差距,引入一个新的量γ(k)=β-w(k)-δ(k),表示w(k)+δ(k)与β之间的差距,将辅助数据与真实数据回归系数之间的差距分为更详细的两部分进行估计,得到更精确的结果。在联合Lasso算法中,信息辅助样本集合更新为:
(10)
算法3:联合Trans-Lasso算法
计算
(11)
计算
(12)
令
(13)
(14)
图2 联合Trans-Lasso、Orcale Trans-Lasso及Lasso的估计误差Fig.2 Estimation error of combined Trans-Lasso, Orcale Trans-Lasso and Lasso
图1与图2的横坐标代表信息辅助样本集A0的不同取值,纵坐标表示各种算法在对模型参数进行估计时产生的均方误差。
由图1、图2可知,与传统的Lasso算法相比,迁移弹性网、Orcale Trans-Lasso、联合Trans-Lasso在对高维回归模型参数进行估计时误差较小,表明这三种算法在处理此类问题时能够表现出较好的性能。且Lasso的估计性能并不随着信息辅助样本集合的改变而变化,三种迁移学习算法的估计误差随着信息辅助样本集合的增大而减小。
其中MSE等于参数β的估计值与真实值的差的平方的平均值,绝对误差等于MSE与LassoMSE之间的差,提升率等于绝对误差与LassoMSE的比值。
从表1可以看出,三种算法与传统的Lasso算法相比都有较高的提升率,其中迁移弹性网算法、Trans-Lasso算法、联合Lasso算法的提升率分别为83.84%、89.58%、90.85%。联合Trans-Lasso算法的提升率最高,说明联合Lasso算法处理高维回归模型的参数估计问题会表现出更好的性能。
表1 Lasso、迁移弹性网、Orcale Trans-Lasso及联合Lasso均方误差对比Tab.1 Comparison of mean square error of Lasso, migration elastic network, Orcale Trans-Lasso and Joint Lasso
研究了在信息辅助样本已知的情况下几种处理高维线性回归问题算法的性能。结果表明,与传统的Lasso估计相比,迁移弹性网算法、Orcale Trans-Lasso算法、联合Trans-Lasso算法的估计误差都远远小于Lasso估计,其中联合Lasso算法的估计误差最小,说明这几种迁移学习算法都能较好地解决此类高维回归问题。但迁移学习在统计学中的应用较少,可考虑在信息辅助样本未知的情况下联合Trans-Lasso算法及其他迁移学习算法,探讨其是否能表现出较好的性能。