唐东跃,唐伟靖
(1.浙江省河海测绘院,浙江杭州 310008; 2.浙江省煤炭测绘院,浙江杭州 310021)
整体最小二乘法在非线性拟合中的若干探讨
唐东跃1∗,唐伟靖2
(1.浙江省河海测绘院,浙江杭州 310008; 2.浙江省煤炭测绘院,浙江杭州 310021)
基于整体最小二乘的思想进行曲线拟合,是整体最小二乘法应用研究的热点之一,它的基本要求是,在曲线拟合时要顾及因变量与自变量的误差,它与普通的最小二乘法相比,是以正交距离的范数最小为约束准则。本文先阐述了整体最小二乘法的原理及基本解算法,并对曲线方程进行线性化,使之能够进行整体最小二乘法求解,最后结合实例说明该方法的可行性和有效性。
整体最小二乘;奇异值分解;最小二乘;非线性回归
长期以来,测绘工作者经过不断的研究与实践,将基于高斯创立的最小二乘理论的经典平差发展成完整的理论体系。在实际工程的测量或实验数据采集过程中,自变量与因变量都是通过一定观测手段或仪器得到,观测值都不可能避免存在误差,在这种情况下,传统的最小二乘法就不再适用了,它是有偏的,难以保证估计结果的最优性,而且偏差的协方差也随着自变量噪声误差的作用而增大。鉴于此,本文引入了整体最小二乘回归问题,它是考虑自变量与因变量同时存在误差的一种求回归方程参数解的方法。
整体最小二乘(Total Least Squares,TLS)的基本思想可归纳为:在观测方程L=Ax中,不仅观测向量L中存在误差vL,同时系数矩阵A中也含有误差vA。此时,可用TLS方法求得参数^x。也就是说,在TLS中,考虑的是矩阵方程的求解。
求解上式整体最小二乘法的最优化准则:
‖•‖F是D的F(Frobenius)范数,求解‖•‖F=min的问题就是整体最小二乘问题。为了得到满足条件的解,通常采用奇异值分解方法进行解算。
将线性相容方程L=Ax改为:
记增广矩阵C=[AL],待求增广矩阵^C=[^A^L],对增广矩阵C进行奇异值分解:
其中,∑=diag(σ1,σ2,…,σn,σn+1),σ1≥σ2≥…≥σn≥σn+1≥0。因σn+1≠0,增广矩阵C的秩为n+1,故方程[AL][xT-1]T≈0为矛盾方程,为求得整体最小二乘解,待求的增广矩阵C的秩应为n。由矩阵定理,矩阵C=[AL]最佳逼近矩阵^C=[^A^L]必然满足:
整体最小二乘改正量满足:
其改正量为:
μn+1,vn+1分别为正交矩阵U和V的第n+1列,注意到,整体最小二乘的改正量[EAEL]的秩为1,有下式成立:
则整体最小二乘解可由增广矩阵右奇异向量的最后一列vn+1得到,即:
2.1 一般方法
设观测值为x的非线性函数:
假定观测值x有近似值x0则可将函数式(7)按泰勒级数在点x0处展开为:
这样,就将非线性函数式(7)化成了线性函数式(10)。
2.2 化曲线回归为直线回归的特殊类型
通常利用直线检验法或一阶表差法检验的曲线回归方程都可以通过变量代换转为直线回归方程,这类曲线方程式有以下几种类型:
显然,式(12)中的各式都是直线回归方程。任取式(12)中一个等式作说明,如:
令:
则式(13)可以表示为:
故式(14)就是普通的一元直线方程。
以文献[3]中139页算例数据作比较分析,共有15组数据如下表1所示。
首先把样本观测数据点使用MATLAB软件作样本数据曲线图,即图1。由图1可以看出曲线很像幂函数y=axb,因此取函数类型为y=axb。对等式两边取对数可以得到lny=lna+blnx。令y′=lny,x′=lnx,b0=lna,那么转化后的数据变量值如表2所示。
图1 样本观测数据曲线
样本观测值 表1
代换后的变量数据值 表2
方法1是以x′为自变量,考虑变量误差的情况下得到的曲线方程,方法2是以为自变量,考虑x′变量误差的情况下得到的曲线方程,比较2个方法,可以看出其解算结果是不一致的。方法3是x′,均存在误差,建立的方程式为=b0+b的情况下计算结果;方法4也是变量x′,y′均存在误差,建立的方程为=c0+c的情况下得到的结果,将它换算为统一的表达形式,方法3与方法4的结果完全相同。因此,在非线性回归的问题中,采用整体最小二乘平差进行解算,其结果也不受方程式的建立方式的影响,得到的曲线方程式是唯一的。表3是4种方法的详细比较。
四种方法的比较 表3
图2 三种拟合方法的曲线图
基于整体最小二乘的思想进行曲线拟合,是整体最小二乘法应用研究的一个热点之一,它的基本要求是,在曲线拟合时要同时顾及因变量与自变量的误差,与普通最小二乘法相比,是以正交距离残差平和最小为约束条件。本章主要介绍了一元非线性函数方程的拟合方法,由图2可以看出,两种方法所得到的拟合曲线方程都很接近;但是,普通最小二乘法对自变量选择不同的拟合方向,曲线方程的拟合结果是不同的。而采用整体最小二乘平差进行解算,其结果也不受方程式的建立方式的影响,得到的曲线方程式是唯一的。
[1] Golub G H,Van Loan C F.An analysis of the total least squares problem[J].SIAM J.Numer Anal 1980,17(6): 883~893
[2] 万保峰,程新文,欧龙.TLS与LS数据处理方法对比研究[J].城市勘测,2007(4)
[3] 费业泰.误差原理与数据处理[M].北京:机械工业出版社,2004
[4] 丁克良.整体最小二乘理论及其在测量数据处理中的若干应用研究[D].武汉:中国科学院测量与地球物理研究所,2006
Discussion about Total Least Squares in Nonlinear Fitting
Tang Dongyue1,Tang Weijing2
(1.ZheJiang Surveying Institute of Estuary and Coast,Hangzhou 310008,China;2.ZheJiang Surveying Institute of Coal,Hangzhou 310021,China)
Curve fitting based on total least squares theory is one of the focus of total least squares application research.Its basic requirement is considering the error between dependent variable and independent variable.Comparing with the common least square,it takes the norm minimum of orthogonal distance as constraint criterion.This thesis discusses the principle and basic solution of total least squares,and linearizes curve equation for solution with total least squares.Finally it illustrates the feasibility and validity of this theory with examples.
Total least squares;singular value decomposition;least square;nonlinear regression
2011—01—13
唐东跃(1985—),男,助理工程师,主要从事河口、海岸水下测绘工作。
1672-8262(2011)05-107-03
P207
B