改进递推最小二乘支持向量机及在过程建模中的应用

2015-06-08 04:28:47李荣雨王立明
仪表技术与传感器 2015年9期
关键词:航煤离线聚类

李荣雨,王立明

(南京工业大学电子与信息工程学院,江苏南京 211816)



改进递推最小二乘支持向量机及在过程建模中的应用

李荣雨,王立明

(南京工业大学电子与信息工程学院,江苏南京 211816)

针对流程工业存在多变量、非线性和数据动态性等问题,提出一种改进递推最小二乘支持向量机。该算法首先利用K均值算法(Kmeans)将训练样本分类,然后针对各聚类用人工鱼群算法(Artificial Fish Swarm Algorithm,AFSA)对最小二乘支持向量机参数进行优化,以避免人为选择最小二乘支持向量机参数的盲目性,最后在各聚类基础上建立相应在线递推最小二乘支持向量机模型。在加氢裂化反应过程蒸馏塔航煤干点的软测量建模研究中,表明所提出算法的有效性和优越性。

聚类分析;人工鱼群算法;最小二乘支持向量;在线递推;软测量

0 引言

非线性以及在线过程辨识始终是自动化控制领域的研究热点[1-2]。近年来软测量技术在工业过程中获得了广泛的发展和应用,最小二乘支持向量机(Least Squares Support Vector Machine,LSSVM)由于具有良好的有限样本建模能力,且仅需求解线性方程组,因此成为众多学者研究的热点[3-4]。离线建立的模型由于工业过程的时变特性已不能满足要求,在线更新模型成为了现阶段研究的热点[5]。

针对工业过程的非线性和时变性, 一个模型很难至始至终通过自适应改变参数来保证准确运行,而且建立一个模型要想包含所有的样本特征必然导致样本空间偏大,带来计算上的时间消耗,同时削弱在线更新阶段对模型的修正。本文在离线建立模型阶段提出用Kmeans聚类分析算法先对训练样本进行聚类分析,得出几个不同的聚类, 然后在各个聚类中分别用相应的数据进行建模,以此来提高训练样本的代表性。同时针对LSSVM不同的参数对预测结果有很大影响,本文提出运用人工鱼群算法寻找最优的LSSVM参数。最后针对滑动时间窗[5-7]存在诸如:随窗口滑动增/删个别数据,只能适应缓慢变化的工业过程;数据窗口长度的选取没有一个规范等缺点,本文提出当预报误差偏大时向相应聚类样本集加入新特征样本,作为在线更新的前向学习。而在线更新的后向学习时采用样本间的距离和角度信息来选择性删除样本。文中的仿真部分把该模型运用到加氢裂化第一分馏塔航煤干点的预测,实验结果表明该模型有较好的泛化能力和较高的学习效率,具有较高的预报性能。

1 递推LSSVM建模方法

1.1 离线LSSVM建模方法

传统支持向量回归[8]是求解一个受约束的二次型规划问题,计算复杂性较大,Suykens[9]提出了LSSVM,它把支持向量机的学习问题转化为解线性方程组问题,定义如下优化问题:

(1)

式中:x∈R;y∈R;非线性核函数φ(x)将输入空间映射为高维特征空间;λ是惩罚系数,用于控制模型解的光滑度,其值大小代表对误差的惩罚力度。

用拉格朗日乘子法求解这个优化问题,得到拉格朗日函数如下:

(2)

式中:ak∈R,是拉格朗日乘子。

对拉格朗日函数各参数求导得到式(3)

(3)

定义核函数K(xi,xj)=φ(xi,xj)。消去式(3)中的w以及ek, 优化问题可以转化为求解线性方程组(4)

(4)

最后得到非线性模型

(5)

由式(5)知,LSSVM模型的建立在于参数ak(k=1,…,N)和b的确定。离线LSSVM由一组训练样本计算出模型的参数,然后用这个模型对检验样本进行预测,在整个预测过程中模型的参数保持不变。

文中核函数选取径向基函数,其表达式如式(6)所示

(6)

式中σ是径向基函数的核宽度。

1.2 在线递推LSSVM建模方法

在线学习算法的核心是必须在采样周期内完成一次完整的运算,因而必须降低算法的计算复杂度。

将式(4)进行转化,得到式(7)

(7)

(8)

式中:N表示当前模型依靠前N个数据。

当第N+1个数据到来时,将新样本(xN+1,yN+1)加入到模型中,可得式(9)

(9)

根据分块矩阵求逆公式[9],可得:

(10)

代入式(9)可以得到更新后的LSSVM模型参数。

(11)

由式(8)~式(11)看出,LSSVM模型的参数能够以递推的方式更新,而且不需要重复矩阵求逆的运算,运算量明显降低。

2 改进递推LSSVM建模方法

2.1 Kmeans 聚类算法介绍

MacQueen提出了Kmeans算法,算法核心思想是将样本数据集分为k个簇,各簇内样本保持较高的相似性, 而各簇间的样本相似程度较低[10],具体方法如下:

(12)

(4)更新各簇的中心,更新方法如下:

(13)

(5)计算数据集D中所有点的平方误差Ej,并与前一次的Ej-1比较。其中

式中n为每一个聚类的样本数目。

若|Ej-Ej-1|<δ,算法结束,这里的δ为设定的平方误差限。否则转入(2)再次迭代;

(6)输出各聚类的中心以及分类后各聚类包含的样本。

2.2 人工鱼群算法优化LSSVM模型参数

对LSSVM建模过程分析可知,LSSVM的学习性能主要取决于惩罚系数λ和核函数宽度σ,当前常用的LSSVM参数优化算法为[11]:遗传算法和粒子群优化算法等,然而这些算法耗时长、易陷入局部极值。人工鱼群算法[12]具有并行性、收敛速度快、能快速跳出局部极值等优点,本文采用AFSA来优化LSSVM的参数。

(1)觅食行为。设人工鱼i当前状态为Xi,在其视野范围(Visual)内随意选择一个人工鱼j:

Xj=Xi+Visual×rand()

(14)

若Xj状态的解优于Xi,则人工鱼i向着人工鱼j前进一步,设Step为移动步长,可以得到:

(15)

(16)

(4)随机行为。人工鱼随机选择视野范围内一个状态,向该方向移动:

(17)

在AFSA优化LSSVM参数中,各人工鱼的状态Xi分别为一组λ与σ的值,而各人工鱼状态的解是将预测样本代入LSSVM得到的预测值(Ypredict)与真实值(Ytrue)偏差的平方,如式(18)所示:

(18)

2.3 改进递推LSSVM建模方法

首先将训练数据利用Kmeans聚类算法进行分类,得出各聚类中心以及各样本所属的聚类,再初始化LSSVM模型参数(λ,σ )的范围,以聚类为单位,针对各个聚类,分别用人工鱼群算法计算出最优的LSSVM参数λ和σ。

模型在线递推阶段,当过程的实际值(Ytrue)和预测值(Ypredict)的误差超出范围时,即:

e=|Ytrue-Ypredict|>δ

(19)

把(Xk,Yk)作为新的关键节点加入模型,并采用式(9)、式(10)递推更新模型,提高LSSVM模型的稀疏性和泛化能力。当样本集增长到一定程度时,传统的滑动时间窗[13]方法是去掉最旧的样本,但这无法保证去掉的样本给原有模型造成的损失最小。本文提出了一种采用样本间的距离和角度信息来描述样本间的相似度的方法, 即当前待预报新样本Xtest与样本集中样本Xi的相似程度可表示为:

Stesti=ρ‖Xi-Xtest‖+(1-ρ)cos(θtesti)

(20)

式中ρ为权系数。

获得相似度后,进行排序,剔除相似性最小的样本,采用式(11)更新模型参数以限制LSSVM模型的样本规模,降低计算复杂度。

整个在线递推最小二乘支持向量机方法流程图如图1所示。

图1 在线递推最小二乘支持向量机建模步骤

3 仿真研究

常压塔是炼油企业常减压蒸馏过程中的重要装置, 其主要馏分有航空煤油。其中干点是衡量航煤质量的指标, 目前有两种方法获得: 一是采样化验法,时滞性比较严重;二是工业色谱仪分析法,但费用高、维护困难。因此采用软测量模型来预测航煤干点。以某石化公司的加氢裂化装置为研究背景,加氢裂化第一分馏塔示意图如图2所示。

图2 加氢裂化分馏塔示意图

将上图13个变量作为模型的输入变量,以分馏塔的航煤干点作为输出变量,可以建立软测量模型,具体如式(21)所示:

Y=f(Th,Fh,Tj,Fj,Tr,Fr,Ttop,Ptop,Tin,Fin,Tb,Fb,FL)

(21)

对现场数据进行采集,并剔除病态数据,共采集了200组数据。将其中的150组作为训练数据,剩下的50组作为测试数据。

离线建模阶段先将150组训练数据利用Kmeans聚类算法进行分析,其中聚类数目的确定是建立在对历史数据分析以及结合现场工况的基础之上,本文确定聚类数目为3(Cluster1、Cluster2、Cluster3),得出各聚类的样本数见表1。

表1 各聚类样本数目

以聚类为单位,初始化LSSVM模型的参数(λ,σ)的范围:λ=[0,100],σ=[0,20]。各聚类LSSVM模型的参数λ和σ经AFSA寻优后结果如表2所示。

表2 经AFSA计算出各聚类LSSVM模型的参数

若将整个150组训练样本作为一个模型的输入样本,同样用人工鱼群算法优化其参数,则得到LSSVM模型的参数λ=500,σ=2.25。

以分类后属于某一聚类的测试样本为例,进行加氢裂化第二分馏塔航煤干点的预测,图3为单模型LSSVM与Kmeans+LSSVM多模型仿真结果对比图。

图3 单模型与Kmeans+LSSVM多模型仿真结果

从图3可以看出,利用Kmeans划分聚类,然后分块建模可以提高样本的代表性,从而提高航煤干点预测的准确度。

针对模型的在线递推更新,本文提出当过程的实际值Ytrue和预测值Ypredict的误差超出一定范围时,将(Xk,Yk)作为新的关键节点加入模型。同时当各聚类样本数超过设定数目时,根据样本间的距离和角度信息选择性剔除样本,使样本规模保持在合理范围。利用50组测试样本对模型进行测试,模型仿真结果如图4所示。

图4 改进LSSVM模型预测结果与实际值对比

图5为离线LSSVM模型以及基于时间窗的递推LSSVM软测量模型预测结果与实际值对比图。

图5 离线LSSVM以及基于时间窗的LSSVM模型预测结果

为了评价模型预测性能,分别使用预测均方误差(RMSE)和命中率HR(误差为±0.5 ℃)对模型准确性进行分析。表3列出了具体各方法对应的模型性能指标。

表3 各模型性能指标对比统计

从表3和图4、图5可以看出,本文提出的在线递推LSSVM模型与离线LSSVM模型以及基于时间窗的LSSVM模型相比,均方误差更小,命中率更高,更好地反映了航煤干点的变化趋势。在50组检验样本中,采用本文提出的改进LSSVM模型的均方差为0.42 ℃,显示出更高的拟合精度和泛化能力。

4 结论

工业过程原料随批次的波动大,配方和工艺变换频繁,非线性、时变性和不确定性严重,且只能得到有限的质检结果,传统的神经网络和多变量回归等方法难以准确预报。本文提出通过聚类分析划聚类,再针对各聚类分别建立LSSVM模型,并且提出新的在线递推更新LSSVM模型的策略,最后将该模型应用到加氢裂化第一分馏塔航煤干点的预测。和传统的离线LSSVM以及基于时间窗的递推LSSVM模型对比可以发现,本文提出的算法命中率更高,更好地反映了航煤干点的变化趋势,具有更好的泛化能力和学习效率,适合工业过程质量的在线预报。

[1] LJUNG L,HJALMARSSIN H,OHLSSON H. Four encounters with system identification.European Journal of Control,2011,17(5):449-471.

[2] HIMMELBLAU D M.Accounts of experiences in the application of artificial neural networks in chemical engineering.Industrial and Engineering Chemistry Research,2008,47(16):5782-5796.

[3] CHEN K, J J, WANG H,et al. Adaptive local kernel -based learning for soft sensor modeling of nonlinear processes.Chemical Engineering Research and Design,2011,89(10):2117-2124.

[4] SUYKENS J A K,VAN GESTEL T,DE BRABANTER J,et al.Least Squares Support Vector Machines.Singapore:World Scientific,2002,2(11):285-288.

[5] KADLEC P,GRBIC R,GABRYS B.Review of adaptation mechanisms for data-driven soft sensors.Computers & chemical Engineering,2011,35(1):1-24.

[6] LIU Y ,WANG H Q,YU J,et al.Selective recursive kernel learning for online identification of nonlinear systems with NARX form.Journal of Process Control,2010,20(2):181-194.

[7] FORTUNA L,GRAZIANI S,RIZZO A,et al.Soft sensors for monitoring and control of industrial processes.Springer,Berlin,2010.

[8] TAYLOR J, CRISTIANINI N. Kernel methods for pattern analysis.Cambridge,UK: Cambridge University Press,2004.

[9] SUYKENS,VANDEWALE J.Least squares support vector machine classifiers.Neural Processing Letters, 1999,9(3):293-300.

[10] 毛国君.数据挖掘原理与算法.北京:清华大学出版社,2005.

[11] 黄磊,张书毕,王亮亮,等.粒子群最小二乘支持向量机在GPS高程拟合中的应用.测绘科学,2010,35(5):190-192.

[12] 李晓磊.一种新型的智能优化方法—人工鱼群算法:[学位论文].杭州:浙江大学,2003.

[13] TANG H S,XUE S T,CHEN R.Online weighted LS-SVM for hysteretic structural system identification.Engineering Structures,2006,28(12):1728-1735.

Improved Recursive Least Squares Support Vector Machine and Its Applications in Process Modeling

LI Rong-yu, WANG Li-ming

(College of Electronics and Information Engineering, Nanjing Tech University, Nanjing 211816, China)

Considering the problem of multivariable, nonlinear and dynamic date in industry process, an improved recursive least squares support vector machine was proposed. First, the algorithm used Kmeans to divide the training sample into several clusters. Then, for each cluster, this paper separately used artificial fish algorithm to calculate the optimal parameters of least squares support vector machine, avoiding the blindness of selecting the parameters of least squares support vector machine. Finally, online recursive least squares support vector machine model in each cluster was set up. In distillation tower of hydro cracking reaction, the soft measurement modeling of Jet fuel obtained highly precise and effective prediction.

cluster analysis; artificial fish algorithm; least squares support vector; online recursive; soft sensor

2014-10-17 收修改稿日期:2015-06-10

TP273;TP301.6

A

1002-1841(2015)09-0091-04

李荣雨(1977—),副教授,研究方向:工业系统的监控与先进控制。 王立明(1989—),硕士,研究方向:复杂过程的先进控制, E-mail: wlm890522@163.com

猜你喜欢
航煤离线聚类
航煤增长130%
炼油厂增加航空煤油产量技术措施分析
云南化工(2021年12期)2022-01-17 08:42:10
异步电机离线参数辨识方法
防爆电机(2021年4期)2021-07-28 07:42:46
呼吸阀离线检验工艺与评定探讨
浅谈ATC离线基础数据的准备
上海石化首次实现成品航煤直接调和
石油知识(2019年4期)2019-02-13 14:49:37
离线富集-HPLC法同时测定氨咖黄敏胶囊中5种合成色素
中成药(2018年2期)2018-05-09 07:20:09
基于DBSACN聚类算法的XML文档聚类
电子测试(2017年15期)2017-12-18 07:19:27
基于改进的遗传算法的模糊聚类算法
金陵石化新年首船航煤出口韩国