一种改进投影寻踪风险评估函数模型

2019-04-10 08:07:26钱龙霞王红瑞侯太平
应用科学学报 2019年1期
关键词:经验值标准差投影

钱龙霞,张 韧,王红瑞,侯太平

1.国防科技大学气象海洋学院,南京211101

2.北京师范大学水科学研究院,北京100875

影响风险的因子或因素有很多,而这些因子之间又有着极其复杂的联系,难以构建一个能准确反映各个因子之间关系的风险评估模型[1].常用的风险评估模型包括加权综合法[2]、模糊综合评价法[3]、灰色关联分析法[4].这些评估方法从本质上来说是一种线性加权方法,需要确定指标的权重,而赋权过程中无法避免主观性的影响[5-6].文献[7-9]指出:由于评估受数据处理、特殊评估指标、定性评估等多种因素的影响,评估的本质应该是非线性的.为了弥补线性加权法的不足,一些非线性评估方法如数据包络分析法[10]、支持向量机[11]、非正态信息扩散模型[12]逐渐应用到风险评估中.此外,以下一些新的风险评估方法也被逐步引入:基于模糊概率的风险评估模型[13]、一种风险判别分析模型[5]、风险多重积分评估模型[6]、模糊物元模型[14]、非线性模糊综合评价方法[7,15].这些方法丰富并发展了风险评估理论,但是大部分模型需要确定指标与风险之间复杂的数学关系式,如非线性模糊综合评价法需要确定隶属函数的表达式等.这些关系式往往随研究地区或研究内容的不同而需作相应的改变,不但不利于推广而且评估结果也难以进行可靠性验证[1].

针对多维风险评估模型难以构建的问题,文献[16-17]先用投影寻踪模型把高维数据投影到低维子空间上,再以该投影值和系统输出值之间的散点图建立Logistic 函数模型或三次趋势曲线对风险进行预测和评估.投影指标函数的构造是投影寻踪模型的关键步骤[16].文献[8]采用投影值的标准差和投影值与风险之间的相关系数的绝对值乘积作为投影指标函数.只有当投影值序列的均值相等时,才能用标准差刻画序列的变异程度,这是因为标准差不仅受随机序列变动的影响,而且还受序列平均值的影响[18];文献[17]综合考虑投影向量优化中的不确定性,建立基于最大熵原理的多准则投影指标函数,以投影方向平方的熵最大为准则寻找最优投影方向,但不能保证投影值能最大程度地提取原始数据的变异信息.不仅如此,由于很难获取风险的经验值或观测值,根据投影值与风险值之间的散点图确定风险评估函数的形式十分困难.

基于上述讨论,本文拟用投影值的信息熵作为投影指标函数,基于最大熵原理求解最优投影方向,最后根据评估函数的性质建立一种S 型风险评估函数模型.该模型不必对指标赋权就可以避免人为干扰,且对风险观测值或经验值的样本量要求不高.

1 基于最大熵原理的投影寻踪模型的构建

1.1 指标预处理

指标预处理主要包括标准化处理和无量纲化处理,其目的是保持指标的同趋势化,以保证指标间的可比性,同时消除指标的量纲效应.指标往往分成以下类型:成本型、效益型、适度型、区间型.成本型指标是指标数值越小风险越小的指标,效益型指标是数值越大风险越大的指标,适度型指标是数值越接近某个常数风险越大的指标,区间型指标是数值越接近某个区间(包括落在该区间内)风险越大的指标.由于常规评估中以成本型和效益型指标居多,这里仅给出成本型指标和效益型指标的预处理方法.这两类指标的预处理方法主要包括极差正规化和极大极小化.极差正规化处理可以保持数据序列的原始分布,适用于呈正态分布或非正态分布的指标,且不改变处理后数据的分布,指标值在0∼1 之间[19].因此,本文采用极差正规化方法,其计算公式如下:

式中,aij表示第j个指标在i种情形下的原始指标值,bij为处理后的指标值,其中i=1,2,··· ,m,j= 1,2,··· ,n,m和n分别为样本容量和指标数目,bij的范围在0∼1 之间.因此,指标经过预处理后的风险随着所有指标变量的增大而增大.

1.2 指标降维处理

影响风险的因子或因素很多,因此定量分析风险与因子之间的函数关系非常困难,于是先将多维指标转换成一维指标以简化风险与因子之间的关系.文献[20]是一种将高维数据降维的方法,其中投影指标函数的构造是投影寻踪模型的一个关键步骤.文献[16]以投影值的标准差和投影值与因变量之间相关系数的绝对值乘积作为投影指标函数,其中标准差尽可能大是为了最大限度地提取指标序列中的变异信息,相关系数的绝对值尽可能大是为了保证投影值对因变量具有合理的解释性.最优投影方向是从众多投影方向中选择的,因为不同的投影方向会有不同的投影值序列,所以只有当投影值序列的均值相等时才能使标准差刻画序列的变异程度,而且标准差同时受到随机序列变动的影响和序列平均值的影响[18].这意味着当投影值序列的均值不同时,标准差无法准确刻画序列的变异程度.

鉴于此,本文定义投影值的信息熵刻画从原始数据中提取的信息量,选择能使投影值的熵达到最大时(即最大熵原理)对应的投影方向作为最优投影方向.文献[21]认为最大熵原理符合熵增原理、第1 原理、最大多重性原理和一致性要求.不仅如此,就风险评估而言,很难获得风险的经验值或观测值,因此在投影指标函数中考虑投影值与风险经验值或观测值的相关系数有时不太现实.基于以上讨论,本文提出了基于信息熵的投影寻踪模型,其建模步骤如下:

步骤1构造投影指标函数.设预处理后的指标数据序列为{bij|i=1∼m,j=1∼n},其中m、n分别为样本容量、指标数目.首先定义投影函数[28]

根据熵定理[21],可以构造投影指标函数(即投影值的熵)为

式中,c为正常数,一般取于是投影指标函数只随投影方向的变化而变化,不同的投影方向对应不同的数据结构特征[16].

步骤2估计最佳投影方向.根据最大熵原理可知:式(3)越大,式(2)越能反映原始数据的结构特征,提取的变异信息也越大,于是可以通过求解以下的最大化问题来估计最佳投影方向:

为了保证式(3)中对数函数的真数始终大于0,需要增加一个条件,即>0.显然式(4)是一个条件极值问题,可以根据拉格朗日乘数法构建一个拉格朗日函数[21]

最佳投影方向的详细求解过程可参考高等数学相关书籍.

1.3 风险评估函数模型

1.3.1 风险评估函数的建立

将所有指标根据式(1)进行预处理,均转化为值越大、风险越大的类型指标,即风险R随所有指标的增大而增大.根据式(2)及复合函数理论可知,将多维指标投影成一维变量后x后,风险R也随着x的增大而增大,风险评估函数应该是一个增函数.

文献[8]认为:①评估函数应该是单调递增的;②评估函数应该是有界的;③评价结果的增大应是连续平稳的.文献[6]认为评估函数还应该满足性质④:先是越来越快,到达某一拐点后越来越慢.性质③和④的数学含义如下:导函数开始是增函数,到达某一拐点后是减函数,且导函数是连续函数.根据上面的分析可以对风险评估函数R提出如下假设:

1)R是连续函数,且自变量x的定义域为(−∞,+∞).

2)R是有界函数,当x ∈(−∞,a]时,R=0;当x ∈(b,+∞)时,R=M(M >0).

3)V的导函数是连续的,即V是光滑函数.

4)V的导函数在[a,c]上是增函数,在[c,b]上是减函数,即c为V的拐点.

为了简化问题,本文假设导函数是对称的,即c为a和b之间的中点,而S 型函数满足以上4 条性质.根据高等数学相关理论,S 型函数除了满足以上4 条性质外,还需要估计的参数比较少,只有2 个未知参数.因此,S 型函数具有很大优势.一般来说,风险评估包括两种结果:风险值和风险等级值.为保证评价结果的可比性,当需要风险值时,M取1;当需要风险等级值时,M取经验等级的最大值.因此,这两类风险评估函数分别为

1.3.2 参数估计

如果没有风险实验值和风险等级经验值,那么可以通过如下方式估计参数a和b.设最佳投影方向为因为为预处理后的指标值,所以根据式(1)可知:对∀i,j,有0≤bij≤1,即

式中,R(xi)为第i样本的风险计算值或风险等级计算值;yi为第i样本的风险实验值或风险等级经验值;p为选取的建模样本,且p

综上所述,基于信息熵的投影寻踪风险评估模型如图1所示.

图1 基于信息熵的投影寻踪风险评估模型的建模流程Figure1 Modelling process of project pursuit risk assessment model based on information entropy

2 评估实验

2.1 洪水灾情风险等级评估

2.1.1 数据来源

文献[16] 根据文献[23] 中的河南省洪水灾情等级标准随机产生23 个样本点,如表1中序号1—23 所示,数据产生过程详见文献[16].另外表2中序号1950—1984 是河南省1950—1990年中实际发生的9 次大的洪灾损失资料[16].

2.1.2 结果和分析

2.1.2.1 最佳投影方向估计

根据表1可知成灾面积和直接经济损失为效益型指标,指标预处理公式为

式中,aij表示原始指标值,bij为处理后的指标值.将处理后的指标序列代入式(4)获得最佳投影方向,并且比较改进投影寻踪模型和文献[16]提出的投影寻踪模型所计算的投影方向.比较两种投影指标函数的效果(最大熵和标准差),最佳投影方向如表3所示,投影值如图2所示.

表1 河南省洪灾损失资料和风险等级经验值模拟数据[16]Table1 Simulated data of flood losses and risk empirical level values in Henan Province

表2 河南省洪灾损失资料和风险等级经验值[16]Table2 Flood losses and risk level empirical values in Henan Province

表3 2 种模型计算得到的最佳投影方向比较Table3 Comparison of the best projection directions by two models

图2 2 种模型计算的投影值和风险等级经验值的比较Figure2 Comparison of projection values and risk empirical level values by two models

由图2可知改进投影寻踪模型计算的投影值和风险等级经验值的变化趋势更加吻合,而投影寻踪模型的投影值在某些点的变化比较剧烈,如第19—23 个样本点.由表2可知:在改进投影寻踪模型计算的最佳投影方向中,承灾面积明显大于直接经济损失,说明承灾面积对洪灾风险等级影响的程度大于直接经济损失指标的影响程度,而采用投影寻踪模型算出的这两个指标的投影方向值相近.

2.1.2.2 参数估计和模型检验

以表1中序号1—23 的样本点为参数估计的样本,将表2中1950—1990年中实际发生的9 次大的洪灾损失资料作为检验样本.本文提供了风险等级经验值,于是将这23 个样本点的投影值和风险等级经验值代入式(7),其中M为4,求解最小化问题式(9)可以得到参数a和b分别为−0.55 和0.84.将表2中1950—1990年中实际发生的9 次大的洪灾损失资料的投影值及参数a和b代入式(7),得出这9 次洪灾风险等级的计算值如图3所示.文献[16]提出基于投影寻踪的Logistic 风险评估模型,同理可以计算出Logistic 风险评估模型的参数分别为−1.29 和1.51,进而得到这9 次洪灾风险等级的计算值如图3所示.分别计算两种模型的平均绝对误差、平均相对误差、均方误差,如表4所示.

图3 2 种模型计算的洪灾风险等级值的比较Figure3 Comparison of flood risk level values by two models

表4 2 种模型误差的比较Table4 Comparison of errors by two models

由图3和表4可知改进投影寻踪模型计算的风险等级值与经验值更加吻合,且3 种误差值均小于投影寻踪模型的误差值,这表明评估效果更好.进一步观察可以发现改进模型的平均误差与均方误差均大于0.3,这是因为经验等级值都是一些离散的值,如1.0、1.5、2.0、2.5、3.0、3.5、4.0,显然精度较粗;改进模型和投影寻踪模型均得到了连续的洪灾风险等级值,分辨率较高[16],导致平均标准误差和均方差较大,以此作为评价标准显然不够全面.因此,参考平均相对误差更加合理,改进模型的相对误差约为0.11,准确率达到89%.总的来说,与投影寻踪模型相比,改进模型的3 种误差值分别减少了8.8%、7.0%、8.4%,改进幅度虽然不大,但评估效果和精度优于投影寻踪模型.

2.2 海洋环境风险评估

2.2.1 数据来源

建模数据来自于文献[12],主要任务是定量评估大气—海洋环境对作战平台和武器装备的影响,主要风险评估因子为风速、浪高、水平能见度、雷暴可能性、云量,如表5所示.

表5 海上联合作战大气—海洋环境风险仿真实验数据[12]Table5 Simulated data of atmospheric-ocean risk of marine joint operation

2.2.2 结果和分析

2.2.2.1 最佳投影方向估计

根据表5可知风速、浪高、雷暴几率、低云量为效益型指标,指标预处理公式为

能见度为成本型指标,指标预处理公式为

式中,aij为原始指标值,bij为处理后的指标值.先将处理后的指标序列代入式(4)获得最佳投影方向,并比较改进投影寻踪模型和文献[16]提出的投影寻踪模型所计算的投影方向.投影寻踪模型的数据预处理方法见文献[16],最佳投影方向结果见表6,投影值结果见图4.

表6 2 种模型计算得到的最佳投影方向比较Table6 Comparison of the best projection directions by two models

图4 2种模型计算的投影值和风险等级经验值的比较Figure4 Comparison of projection value and risk empirical level by two models

改进模型和传统投影寻踪模型计算的投影值和风险实验值的Pearson 相关系数分别为0.914 和0.839,显著性水平均为0.01.由图4和相关分析的结果可知:改进模型计算的投影值和风险实验值的变化趋势更加吻合,相关程度更高;传统投影寻踪模型的投影值在大部分点处的变化比较剧烈,相关程度一般.

由表6可知改进模型计算的最佳投影方向均为正值,而在投影寻踪模型的计算结果中除了能见度的投影方向是负值外其他均为正值,这是因为本文利用式(11)和(12)对指标进行了预处理,消除量纲效应的同时实现了指标的同趋势化,而传统模型采用标准差化[18]对指标进行无量纲化处理,无法实现指标的同趋势化.

2.2.2.2 参数估计和模型检验

以表4中序号1—18(50%)的样本点为参数估计的样本,将序号19–36 的18 个样本点资料作为检验样本,同理可得参数a和b分别为−0.301 2 和1.764 7.将表4中序号19–36 的样本点资料的投影值及参数a和b代入式(6),计算序号18—36 样本点的风险值如图5所示,同理可以计算文献[16]提出的Logistic 模型的参数分别为0.498 5 和0.724 8 以及序号9—36样本点的风险值,如图5所示.两种模型的平均绝对误差、平均相对误差、均方误差如表7所示.

图5 2 种模型计算的海洋环境风险值的比较Figure5 Comparison of marine environment risk values by two models

表7 2 种模型误差的比较Table7 Comparison of errors by two models

由图5可知改进投影寻踪模型计算的风险等级值的变化趋势与实验值非常吻合,评估效果很好.投影寻踪模型在序号20、21、23、28、29、32、33 这7 个样本点处模拟较好,而在其余11 个样本点处的评估效果很差.由表7可知改进模型的平均误差、相对误差、均方误差分别只有0.07、0.22、0.09,相比于投影寻踪模型,3 种误差值分别减少了52.1%、27.1%、53.9%,改进效果非常显著.总的来说,改进投影寻踪模型具有很高的准确度.

2.3 讨 论

与投影寻踪模型相比,改进模型的评估效果均有一定程度的改进,主要原因如下:

1)指标的预处理方法不同.本文采用的极差正规化处理方法不仅可以保持指标的同趋势化,而且消除了指标的量纲效应,适用于呈正态分布或非正态分布的指标[19].投影寻踪模型[16]采用标准差化方法进行预处理,只能消除指标的量纲效应,且只适用于呈正态分布的指标[19].分别对这两组实验的7 个指标进行正态性检验,所得结果如表8所示.除了能见度、雷暴几率、低云量的正态性检验的显著性水平值大于0.05 外其余均小于0.05,说明只有能见度、雷暴几率、低云量服从正态分布,可见对所有指标变量采用标准差化方法进行预处理是不合适的.

表8 正态性检验Table8 Normality test

2)投影指标函数不同.改进模型以投影值的熵表示投影指标函数,投影寻踪模型[16]以投影值的标准差表示投影指标函数,而标准差只能刻画均值相同的序列的变异程度.基于最大熵原理估计最佳投影方向符合以下4 个原理:熵增原理、第1 原理、最大多重性原理、一致性原理.从图2和4 中可以看出最大熵原理的优越性.

3)风险评估函数不同.S 型风险评估函数除了满足单调性、有界性、变化的连续平稳性外,只需指标投影值序列的最小值和最大值而不必借助风险样本就能估计参数.Logistic 风险评估函数模型需要大量风险样本才能估计参数,但有时很难获得风险的经验值或观测值,因此该模型具有一定的局限性.Logistic 风险评估函数是一个增函数,当评估指标中同时具有成本型指标和效益型指标时,投影寻踪模型采用的标准差化方法无法保持指标的同趋势化,也就无法保证风险值和投影值之间的函数关系是递增的,这也可以解释基于最大熵原理的投影寻踪模型对海洋环境风险评估的改进效果比较明显(27.1%∼53.9%),而对洪灾风险等级评估的改进幅度不大(7.0%∼8.8%).因为洪灾风险等级评估指标均为效益型指标,而海洋环境风险评估中同时具有成本型指标和效益型指标.

需要强调的是:为比较以最大熵和标准差作为投影指标函数的差别,考虑到风险的经验值或观测值很难获取的现实难题,投影寻踪模型中的投影指数函数仅考虑了投影值的标准差,而未考虑投影值和风险经验值的相关系数(文献[16]中考虑了相关系数).

3 结 论

本文建立了基于信息熵的投影寻踪风险评估模型,该模型能定量模拟并刻画风险与指标之间的变化关系,主要建模步骤和目的如下:1)基于极差正规化方法对指标进行预处理,消除指标的量纲效应,保持指标的同趋势化.2)采用投影值的熵表示投影指标函数,基于最大熵原理估计最佳投影方向以便将指标降维,克服了传统投影指标函数无法刻画序列在某些情形下的变异程度.3)分别建立了风险值和风险等级值的S型风险评估函数,该函数具备单调性、有界性、变化的连续平稳性等性质.

两类评估实验表明:与文献[16]中的投影寻踪模型相比,改进投影寻踪模型对洪灾风险等级评估的改进幅度为7.0%∼8.8%,对海洋环境风险评估的改进效果更加明显,改进幅度达到27.1%∼53.9%.

本文研究建立在对指标进行极差正规化处理和降维处理的基础上,而在数据处理过程中难免会丢失一些信息,因此如何构建多维风险评估模型有待于进一步研究.

猜你喜欢
经验值标准差投影
有时觉得自己像NPC
解变分不等式的一种二次投影算法
用Pro-Kin Line平衡反馈训练仪对早期帕金森病患者进行治疗对其动态平衡功能的影响
基于最大相关熵的簇稀疏仿射投影算法
找投影
找投影
学生天地(2019年15期)2019-05-05 06:28:28
基于蓝墨云班课的分子生物技术课程过程性评价的研究
企业专业经验值结构化
盛大网络试行游戏化办公
培训(2015年1期)2015-03-24 13:15:02
对于平均差与标准差的数学关系和应用价值比较研究