曲 楠,窦 森
(吉林农业大学资源与环境学院,吉林 长春 130118)
近红外光谱(NIR)分析是一种高效、无污染、可同时进行多组分分析的现代分析技术.而化学计量学是一类采用数学和统计学建立起来的多元数据分析方法.[1]化学计量学方法与NIR技术的结合已经被应用到医疗、制药、食品、农业及化工等诸多领域.[2-7]
土壤是人类赖以生存的自然资源,传统的土壤分析方法通常以化学分析法为主,不但成本高,而且费时费力、污染环境.[8]近年来,随着人工神经网络在化学计量学领域中的应用日渐拓宽,利用人工神经网络对土壤进行NIR分析日益增多.[9-12]运用NIR技术具有无损非破坏的特性,采用人工神经网络对土壤样品的NIR进行特征变量提取及模型建立.通过构建土壤样品的NIR光谱数据和土壤特性间的映射关系,可有效处理强非线性的土壤NIR数据,对预测土壤理化特性,获取相关土壤信息表现出较好的应用前景.[13-14]
土壤有机碳是土壤碳库的重要组成部分,其组成和结构的变化对土壤性质及肥力的改变有着重大影响.[15-16]本文基于NIR技术,利用遗传算法(GA)全局、快速搜索的特点,将GA和径向基函数(RBF)神经网络有机结合起来.通过GA自动优化RBF神经网络结构参数,避免了人工神经网络拓扑结构和系统参数的选择时,较难实现神经网络模型最优化的问题.成功预报了土壤中总有机碳(SOC)及土壤样品中胡敏酸(HA)和富里酸(FA)有机碳的含量.同时,为分析敏感波段的选择对模型预报精度和可靠性的影响,分别构建了全光谱数据神经网络和GA优化的分段光谱神经网络模型.结果显示,由于全光谱中含有大量噪声和干扰信息[17-18],降低了所建网络模型的预测性能.而通过GA优化光谱波段和神经网络结构的网络模型在结果预报中更为准确.因此,建模前进行有效的光谱波长选择是十分必要的.研究表明,采用NIR技术结合GA优化的RBF神经网络的方法有望成为一种非破坏的、同时定量分析土壤样品中有机碳组成的新方法.
仪器:美国PerkinElmer Lambda 950型紫外-可见-近红外分光光度计,附件150 mm积分球,光谱仪的光谱测量范围为175~3 300 nm,分辨率小于0.05 nm为紫外-可见区,分辨率小于等于0.2 nm为近红外区;日本岛津TOC-Vcpn分析仪.
软件:使用的遗传算法、RBF神经网络、NIR波段优化和光谱预处理等计算程序均采用MATLAB R2010a编写.
1.2.1样品采集与化学分析
试验所用土壤样品采自吉林农业大学试验田.从采集的土壤样品中选取109个样品,进行自然风干,挑除草根等杂质,磨碎.然后将土壤样品分为两份,一份用于NIR光谱吸光度的测定;另一份运用传统化学分析方法对土壤有机碳组成进行分析.其中土壤有机碳含量的标准参考值采用重铬酸钾外加热法测定.土壤中HA与FA的提取采用腐殖质组成修改法[19],二者有机碳含量的标准参考值采用岛津TOC-Vcpn分析仪测定.
1.2.2NIR光谱数据的采集
光谱仪光谱测量设置:光谱带宽为12 nm,扫描波长范围为801~2 500 nm,1 nm扫描间隔.测量样品前,取标准板对光谱仪进行校零.为尽可能减少土壤固体漫反射对光谱测量的干扰,将风干的土壤样品研磨后过0.15 mm筛,并装于光谱仪的样品仓内,填平、压实后进行测量.
本次试验中共有109个土壤样品,在建模前将样品划分为训练样品集、监控样品集和预测样品集.随机取70个样品组成训练集,用于神经网络建模;取30个样品组成监控集,用于所建模型的评估;剩余9个样品作为预测集,用于模型验证.
1.2.3模型的建立与评价
将土壤中SOC、HA和FA有机碳含量的测定值与其对应的NIR数据结合,构建RBF神经网络.采用GA搜索最优的RBF神经网络参数,选择敏感光谱及光谱处理方法.以训练集数据和监控集数据共同计算出的均方根误差(RMSE)作为神经网络个体适应度的评价准则.遗传算法采用生物进化策略(选择、交叉和变异等),多代进化后,网络个体的适应度不断提高,当达到设定进化代数时,进化停止,选择群体中的最优个体,得到RBF网络模型.试验中使用各数据集的相关系数(R)和RMSE来衡量模型的优劣.[20-21]R值越接近1,RMSE值越小,说明RBF网络模型越精确,预测误差越小,预报性能越高.本文研究依上述指标选择最优光谱处理方法、敏感光谱区间及RBF网络参数,以确立最优建模条件.
近红外光谱仪测量的土壤样品的NIR原始光谱图见图1.由图1可见,土壤样品的谱图信号较弱,且在不同的波长范围内吸收强度不同.为充分提取NIR测量数据中的有效特征信息,比较不同光谱优化处理方法对模型预测结果的影响,分别尝试运用平滑、MSC和标准正态变量校正(SNV)方法对原始光谱进行预处理.然后分别构建经过预处理后的光谱数据与土壤有机碳组成的RBF神经网络模型.经比较发现,不同预处理方法得到的RBF网络模型的精度不同,其中将原始光谱进行MSC处理后,改善了土壤样品由于颗粒分布不均及大小不同产生的散射对NIR的影响,使其得到的模型预报效果最佳.
基于全光谱数据构建区分不同土壤光谱特征,分析土壤样品有机碳组成的RBF网络模型.由于全光谱波段范围为801~2 500 nm,共记1 700个数据点作为该RBF网络模型的输入变量.在校正模型建立时,为搜索到最优化的RBF神经网络拓扑结构及提高模型的预报精度,采用GA搜索最优的网络拓扑参数.由于网络同时输出SOC、HA和FA有机碳含量,所以RBF网络模型输出层的节点数取为3.
在RBF网络参数优化过程中,应用GA算法随机生成一个初始化的染色体种群,每个染色体对应一个RBF网络的拓扑结构.将染色体进行0和1编码,网络中心使用70位编码,即将训练集数据作为候选的网络中心参数,编码的每一位代表一个训练集数据.若其编码为1,说明该训练集数据被选为神经网络的中心;若编码为0则相反.宽度参数使用8位二进制数编码,而RBF网络的连接权值向量采用最小二乘算法计算,以此建立完整的RBF网络.
实验中GA的关键参数设置:40个染色体种群,400代繁衍代数,80%选择比率,85%交叉概率,变异概率由种群的目标函数均值动态调整.在上述参数下,依据网络个体的适应度值,通过选择、交叉及变异3步遗传操作对染色体种群进行进化,当达到设定的进化代数400代时,进化停止.此时,适应度值最大的个体,即代表最优的RBF网络参数.
图2为基于MSC光谱数据作为网络输入变量时,在算法迭代的过程中最优个体适应度值与进化代数的关系.由图2可知,当进化到185代后,已经得到最优解,到400代后,个体适应度值变化基本趋于收敛.GA对基于MSC光谱的RBF网络隐含层节点数和宽度参数的选择分别见图3和4,从图3和4可以看出,进化到185代时,GA搜索到最优RBF网络的隐含层节点数是56个,宽度参数则是进化到34代后搜索到最优结果为0.195 3.其他光谱模型的最优网络参数如下:原始光谱模型的节点数和宽度参数是42和7.617 2;平滑光谱的是40和12.597 7; SNV的是54和3.222 7.不同光谱数据建立的最优模型中其各数据集的相关系数R值和RMSE值见表1.由表1可知,与其他光谱相比,基于MSC光谱建立的RBF网络模型相关系数R值较大,RMSE值较小,所以本文采用MSC法对原始光谱进行预处理较为合适.
图1 土壤样品的NIR原始光谱 图2 进化过程中RMSE的变化曲线
图3 GA对网络隐含层节点数的选择 图4 GA对网络宽度参数的选择
不同光谱主要成分数据集全光谱模型RRMSEGA波段优化模型RRMSE原始SOC训练集0.96721.07130.97210.9908监控集0.86441.59050.94511.0413预测集0.83431.67360.88731.3670HA训练集0.92170.78850.92170.7883监控集0.86430.92030.85670.9168预测集0.75411.25960.77321.3435FA训练集0.87030.53920.88220.5157监控集0.82400.59350.83950.5410预测集0.75170.50510.76460.4389平滑预处理SOC训练集0.95701.22440.97590.9215监控集0.90911.35530.94891.0595预测集0.87021.52590.91401.4507HA训练集0.88730.93720.93080.7427监控集0.83340.97950.88700.8194预测集0.80521.18050.83251.3377FA训练集0.87730.52690.87760.5250监控集0.82810.56770.83110.5410预测集0.77360.56290.77760.4179SNV预处理SOC训练集0.98420.74680.99280.5066监控集0.96040.85540.97360.7039预测集0.90841.31330.94591.0889HA训练集0.96980.49560.97650.4376监控集0.92570.68350.93440.6335预测集0.82371.14590.85271.0237FA训练集0.91850.43300.93840.3782监控集0.87640.44450.87210.4385预测集0.80290.36210.82280.3398MSC预处理SOC训练集0.98990.59890.99390.4640监控集0.96550.79940.97620.6576预测集0.92611.14260.95480.9156HA训练集0.99390.22470.98350.3672监控集0.92730.69520.94730.5756预测集0.85221.04870.87470.9340FA训练集0.96110.30250.96120.3022监控集0.88370.44310.91710.3774预测集0.81110.33890.84460.5926
敏感光谱波段的选择是建立稳定的校正模型的前提.为分析敏感光谱的选择对模型预报结果的影响程度,进一步简化模型,基于全光谱的RBF网络模型建模流程,建立了GA自动优化光谱波段的RBF网络模型.网络的输入变量取决于GA选择的敏感光谱波长区间.实验中,需将进行光谱波长优选的谱区进行分割,即将1 700个(801~2 500 nm)变量作为选择对象,划分为34个波长区间.每个波长区间作为一个基因,对其进行0和1编码.若编码为1则相应波长区间在建模时被选择;若编码为0则相反.RBF网络参数编码与全光谱相同.在模型优化过程中,依据目标函数自动搜索敏感光谱区间和网络参数.其中,原始光谱经MSC处理后,应用GA自动优化的5段敏感光谱波长区间为801~900 nm,951~1 100 nm,1 301~1 400 nm,1 501~1 600 nm 和1 901~2 050 nm.优化后RBF网络模型总的波长数由1 700降到600个,大大降低了模型的复杂度和缩短了运行时间.最优RBF网络的隐含层节点数为52个,基函数宽度为0.195 3.其他光谱建立的RBF网络模型的敏感光谱区间和最优网络拓扑参数如表2所示.由表1和2可见,GA优化后的RBF模型实现了对土壤有机碳组成含量的较高精度预报,且预报性能均好于全光谱模型.同时,基于MSC光谱所建模型预报效果最好,这与全光谱RBF模型的结果相同.
另外,从模型对不同组分的预报结果还可以看出,遗传算法优化的RBF网络模型可实现对多目标的同时预报,简化了运算过程,提高了计算效率,且对组分含量高的预报效果更优.
表2 RBF模型敏感光谱区间和网络参数
NIR技术结合化学计量学方法实现了对土壤有机碳组成的同时、快速检测.该方法应用GA自动搜索光谱处理方法、敏感波段及RBF神经网络参数,建立的最优RBF网络模型的测定结果与传统化学分析的测定结果吻合度较高,结果令人满意.实验验证了该方法用于土壤有机碳组成定量分析的可行性和优越性.研究表明,NIR技术与化学计量学方法的结合不仅在其他领域成果突出,在土壤分析中也将发挥越来越大的作用.
[参考文献]
[1]张卓勇,光谱学方法结合化学计量学用于癌诊断研究[J].光谱学与光谱分析,2015,35 (9):2388-2392.
[2]LUO Y,LI W L,HUANG W L,et al.Rapid quantification of multi-components in alcohol precipitation liquid of codonopsis radix using near infrared spectroscopy (NIRS)[J].J Zhejiang Univ-Sci B (Biomed & Biotechnol),2017,18(5):383-392.
[3]战皓,方婧,杨滨,等.近红外光谱法测定不同产地独活中蛇床子素和二氢欧山芹醇当归酸酯含量[J].光谱学与光谱分析,2017,37(4):1110-1113.
[4]王徽蓉,李卫军,刘扬阳,等.基于遗传算法与线性鉴别的近红外光谱玉米品种鉴别研究[J].光谱学与光谱分析,2011,31(3):669-672.
[5]章海亮,罗微,刘雪梅,等.应用遗传算法结合连续投影算法近红外光谱检测土壤有机质研究[J].光谱学与光谱分析,2017,37(2),584-587.
[6]谢越,周成,涂从,等.近红外光谱技术定量分析连作滁菊土壤中的阿魏酸含量[J].分析化学,2017,45 (3):363-368.
[7]郭伟良,王羚瑶,李伟伟,等.用近红外光谱法实时监测蛹虫草发酵中胞内多糖的质量浓度[J].吉林大学学报(理学版),2010,48(5):855-859.
[8]申艳,张晓平,梁爱珍,等.近红外光谱分析法测定东北黑土有机碳和全氮含量[J].应用生态学报,2010,21(1):109-114.
[9]张瑶,李民赞,郑立华,等.基于近红外光谱分析的土壤分层氮素含量预测[J].农业工程学报,2015,31(9):121-126.
[10]方利民,冯爱明,林敏.可见/近红外光谱快速测定土壤中的有机碳含量和阳离子交换量[J].光谱学与光谱分析,2010,30(2):327-330.
[11]杨爱霞,丁建丽,李艳红,等.基于可见一近红外光谱变量选择的荒漠土壤全磷含量估测研究[J].光谱学与光谱分析,2016,36(3):691-696.
[12]SUMMERS D,LEWIS M,OSTENDORF B,et al.Visible near-infrared reflectance spectroscopy as a predictive indicator of soil properties[J].Ecological Indicators,2011,11 (1):123-131.
[13]郑立华,李民赞,潘 娈,等.基于近红外光谱技术的土壤参数 BP 神经网络预测[J].光谱学与光谱分析,2008,28(5):1160-1164.
[14]蒋璐璐,张瑜,王艳艳,等.基于光谱技术的土壤养分快速测试方法研究[J].浙江大学学报(农业与生命科学版),2010,36(4):445-450.
[15]董珊珊,窦森.玉米秸秆不同还田方式对黑土有机碳组成和结构特征的影响[J].农业环境科学学报,2017,36(2):322-328.
[16]张鹏,李涵,贾志宽,等.秸秆还田对宁南旱区土壤有机碳含量及土壤碳矿化的影响[J].农业环境科学学报,2011,30(12):2518-2525.
[17]LI H D,LIANG Y Z,LONG X X,et al.The continuity of sample complexity and its relationship to multivariate calibration:A general perspective on first-order calibration of spectral data in analytical chemistry[J].Chemometrics And Intelligent Laboratory Systems,2013,122(5):23-30.
[18]宋相中,唐果,张录达,等.近红外光谱分析中的变量选择算法研究进展[J].光谱学与光谱分析,2017,37 (4):1048-1052.
[19]KUMADA K,SATO O,OHSUMI Y,et al.Humus composition of maintain soil in central Japan with special reference to the distribution of P type humic acid[J].Soil Science and Plant Nutrition,1967,13(5):151-158.
[20]陆婉珍,袁洪福,徐广通,等.现代近红外光谱分析技术[M].北京:中国石化出版社,2001:125-126.
[21]QU N,ZHU M C,REN Y L,et al.Adaptive neuron-fuzzy inference system combined with principal components analysis for determination of compound thiamphenicol powder on near-infrared spectroscopy[J].Journal of the Taiwan Institute of Chemical Engineers.2012,43:566-572.