于龙龙,罗 泽,阎保平
1(中国科学院 计算机网络信息中心,北京 100190)
2(中国科学院大学,北京 100049)
太阳诱导叶绿素荧光(Solar-Induced chlorophyll Fluorescence,SIF)信号是当阳光被叶绿素吸收之时所产生的,属于光合作用生化过程中释放的光学信号.绿色植物特有的叶绿素荧光信号因此成为了反应光合作用强度的一个极为重要的的指标.在生态学中,SIF 信号已成为目前大时空尺度或全球尺度下反应总初级生产力以及碳循环的最主要的数据源之一[1-4].如今全球气候及生态变化引起越来越多的关注,叶绿素荧光数据对于监测兴趣区域生态以及植物生产力的动态具有重要的意义,可以为生态学,水文学或农业相关研究提供关键的数据支撑.近年来一些卫星或者航空飞行器被用来检测SIF 信号,在相关领域引发了一系列不同时空尺度上的研究[5-8],如Global Ozone Monitoring Experiment-2 (GOME-2)卫星提供的全球覆盖的SIF遥感数据.然而GOME-2 现有产品的较低的时空分辨率阻碍了细粒度上SIF 的研究,如使用地表观测来研究SIF 与GPP 之间的耦合关系.从2017年10月开始,TROPO spheric Monitoring Instrument (TROPOMI)卫星产品开始投入使用[9],其空间分辨率约为7×3.5 公里,并且为逐天的数据.这套SIF 卫星数据可以显著的改善由于较低的空间分辨率或者时间分辨率所带来的限制,但其样点式的观测仍然无法提供感兴趣区域内高分辨率的连续数据,而且尚无法提供长期历史SIF 记录来耦合特定兴趣区域GPP 数值.
美国国家航空航天局的轨道碳观测者2 号卫星OCO-2 (Orbiting Carbon Observatory-2)在很大程度上改善了这一现状[10,11].该卫星自2014年9月发射之后就持续提供其轨道上的每天的叶绿素荧光数据观测值.OCO-2 卫星的Footprint 大小为1.3×2.25 km2,其空间分辨率上是截至目前为止可用的SIF 遥感产品中最高的,这样的高分辨率更有利于理解景观的格局和异质性对SIF 的影响以及SIF和GPP 的关系[12-17].但是由于OCO-2 卫星的轨道是条带状的OCO-2 SIF 数据并非全球覆盖,因此之前的研究主要针对恰好落于OCO-2 轨道之下的有限的区域,而且其轨道条带之间具有很大的间隙.对于某一特定的感兴趣区域而言,在特定时间内仅有较少比例的研究区域有可利用的OCO-2 数据,极端情况下甚至无数据可用.OCO-2 卫星的巡回周期为16 天,为了得到感兴趣区域内空间覆盖范围尽可能大的数据集产品,OCO-2 原始叶绿素荧光遥感数据集常被整合成某个时间周期内的空间分辨率为1 度的产品,但是这样使得OCO-2 SIF 产品的高空间分辨率优势不复存在,显著地影响了OCO-2 SIF 在相关研究之中的充分利用.
为了尝试解决全球遥感SIF 数据集的空间不连续性,近来一些全球SIF 数据集重建研究开始着力解决这一问题[18-20].但对于区域或景观尺度上的的研究来讲,一般只关注特定的兴趣区域,全球尺度的数据构建体系尺度过大,其通用的数据重建模型对于特定的兴趣区域来说,叶绿素荧光数据的区域特异性或针对性不够,从而一定程度上影响研究的数据质量.本研究的思路为利用机器学习方法,遥感影像处理技术,在景观生态学专家知识系统指导下,为兴趣区域内的每一种植被类型在每个16 天的时间步长上建立有效模型,这些模型整合在一起形成了特定兴趣区域在特定时间段的叶绿素荧光数据重建框架.本论文以华北平原为例,作为感兴趣区域范围.目标重建数据集的分辨率选为0.05 度,时间周期选为2018年生长峰季(6,7,8月,每16 天).在本实验中用于重建SIF 数据的特征源数据是MODIS 地面反照率数据.
本论文的实验流程包括数据预处理,训练集生成,在生态学原理控制之下的多层感知机人工神经网络训练,兴趣区域内预测与补全,空间连续高分辨率数据集的生成.具体如图1所示.
OCO-2 SIF 为条带状数据,其一个条带上Footprint的形状及分布如图2所示.其Footprint 为不规则的四边形.原始数据集提供了每个Footprint 的中心点和四个角点的地理坐标.由此可以完全确定每个Footprint的位置.
OCO-2 SIF 数据集提供的其他重要属性还有:观测时间,太阳入射角的值,观测模式,757 nm 波段SIF数值(SIF757),771 nm 波段SIF 数值(SIF771),日均矫正因子(daily_corrector),国际陆届生物圈方案(IGBP)土地覆盖类型等.
图1 兴趣区域空间连续的高分辨率叶绿素荧光数据集构建框架
图2 OCO-2 卫星条带状轨道局部及其Footprint 示意图
根据OCO-2 数据集提供的属性说明,其观测模式共有三种:Nadir,Target,以及Glint.其中Nadir 观测模式为卫星传感器近似垂直观测,本模式的数据受测量角度的影像可以忽略不计.因此本研究的采用的目标值为Nadir 观测模式下的叶绿素荧光数值.另外,原始数据集提供了757 nm 以及771 nm 上的叶绿素荧光数据的瞬时值.本实验采用757 nm 波段的数据.由于SIF 瞬时值受观测时间影响较大,在本研究中,具体采用各波段的日均矫正值,而不是瞬时值.SIF 的日均矫正值可以由瞬时值乘以日均校正因子得到.由于OCO-2 Footprint 尺度上的叶绿素荧光数据的观测本身具有一定的误差,为了获得更加稳定的目标值,从而在训练中取得更好的效果,对于某个中心Footprint,我们采用“5 最近邻”Footprint 的平均值作为最后的训练目标值.
这种空间整合实质为空间重采样,经过“5 最近邻”的处理,参考Footprint 的空间分辨率大小,总体来讲可以将源数据的空间分辨率调整至5 公里的平均精度级别上,在中纬度地区折算成纬度跨度约为0.05 度,与目标重建数据集的空间分辨率一致.这种空间整合在牺牲较小幅度的空间分辨率的代价下,对OCO-2 SIF 原始数据较大的噪声误差起到了减弱的作用,更有利于得到更高质量的训练目标数据.根据Frankenberg 等人的研究,当空间重采样过程中单个像元整合的Footprint个数为n时,随机误差或噪声会被减少至原来的n(-1/2),因此5 个最近邻footprint 的整合会将误差大概降至原来的0.4 左右.0.05 度的空间分辨率对于区域性空间连续的叶绿素荧光数据来讲,已属于高分辨率级别,完全可以满足与SIF 相关研究的需要.
接下来的数据预处理步骤为地表反照率特征数据源的预处理.MODIS 地表反照率数据有多个系列.数据集MCD43A4 系列产品提供每天的全球覆盖的地表反照率数据,其分辨率为500 米,可以为逐天的OCO-2 Footprint 提供对应的反照率特征数据.MCD43C4 系列产品的空间分辨率为0.05 度,来源于MCD43A4 逐天的数据,经MODIS 质量控制体系整合到0.05 度的空间分辨率.MCD43C4 产品可以很方便的整合到时间分辨率为16 天的数据,为模型建立之后,生产时间分辨率为16 天,空间分辨率为0.05 度的数据集提供特征数据源.
本研究基于MODIS 卫星地表反照率数据提取模型的训练特集.OCO-2 卫星的分辨率为1.3×2.25 km2,而MODIS 影像的分辨率为500 m,因此会有一定数量的MODIS 像元落在OCO-2 的Footprint 之中.这也为我们建立基于MODIS 反照率的训练特征提供了可能性.
由于OCO-2 SIF 原始条带状的数据为逐天的数据,因此我们采用了MODIS 反照率产品系列中的MCD43A4,该数据为全球覆盖的逐天数据集,可以满足实验要求.
对于每一个Footprint,我们取所有中心点落在其中的MODIS 像元作为对应像元群体,然后取该群体的七个波段各自的均值和方差作为特征集,以此来获取每个MODIS 波段的反照率的平均水平以及方差.因此,该特征集的特征维度为14.该特征集可以反应MODIS 反照率个波段的平均强度和变异性.
为了生成OCO-2 SIF 对应的特征数据集,我们设计了如下算法:
算法1.OCO-2 SIF 特征集构建算法1) 读取某一天的SIF 序列,从文件中读取SIF757 瞬时值,日均值校正因子,中心点坐标,四个角点坐标,土地覆盖类型,将这些变量分别存储为等长向量.2) 读取该日的所有全球MODIS 影像,取出MODIS 左上角顶点坐标,像元长度,以及像元宽度.计算出影像四个角点的范围.建立MODIS 该日的影像地理信息词典,以日期作为词典名,以影像的文件名作为词典的索引,上述提到的其他变量作为词条内容.3) 依次读取读取OCO-2 SIF 向量中的footprint,根据其日期获取对应的MODIS 词典.遍历词典中的词条,判定OCO-2 SIF footprint 的四个角点是否均落在该MODIS 影像之中,如果是,跳出循环,进行下一步.4) 根据MODIS 影像的地理信息,将MODIS 像元的坐标转换为与OCO-2 Footprint 相一致的坐标系(WCG1984).计算出该影像中所有落入Footprint 之中的MODIS 像元的行列号.5) 读取并在训练集中保存目标值日均SIF、Footprint 土地覆盖类型,MODIS 像元土地覆盖类型众数以及相对应的MODIS 波段平均值.
在训练集的生成过程中,我们通过OCO-2 的地理信息查询到与其对应的MODIS 影像的ID,满足要求的MODIS 影像完全覆盖Footprint,如果出现一个Footprint 跨越多幅影像的情况,该Footprint 会被忽略.另外,为了增强对Footprint 土地覆盖类型的判断信心,我们会选择OCO-2 土地覆盖信息和MODIS 像元土地覆盖类型的众数相一致的作为训练样本.这种处理方式适用于空间分辨率不一致的情况,可以有效增加判断信心.
为了建立MODIS 地表反照率与OCO-2 SIF 数值之间的关系,我们建立了多层感知机作为数据拟合和重建的算法.多层感知机是典型的前馈人工神经网络,在多种机器学习任务中得到广泛的应用[21-24].以2018年生长峰季华北地区OCO-2 SIF 数值的全覆盖、高分辨率数据集的重建为例,为了有针对性的完成该任务,我们采取了生态学原理控制下的训练方法.具体的为仅采用华北地区所在的亚洲生物地理分区内的有效训练样本.即2018年生长峰季6月,7月,8月的SIF 数值作为训练目标值,这样可以确保训练得到的SIF 与MODIS 的关系是建立在相应的时空条件下的,从而保证了预测效果与数据的准确性.在进行模型训练的同时,我们采用了MODIS 与OCO-2 同时使用的IGBP 土地覆盖数据划分训练样本,为每种植被类型建立特异化的模型.
本研究所采用的多层感知机的具体的训练策略为通过5 折交叉验证来选取多层感知机神经网络的各个参数,包括激活函数,最大迭代次数,神经网络的层数以及每层的神经元数目,从而在设定的参数空间内寻求最优的参数组合,建立相对最优的模型,用于数据的重建任务,以求尽可能达到更好的效果,保持原有数据的时空分布特征.其中激活函数的寻优空间包含logistic、tanh、以及relu 函数;网络层数的寻优空间为1 至5 层,每层的神经元数目的寻优范围为3 至21之间的奇数,具体如表1所示.由空间分辨率为0.05 度的MODIS 反照率数据集MCD43C4 生成的每16 天的特征数据,提供给训练好的模型用于预测,从而完成目标数据集重建.
表1 多层感知机参数寻优范围
本文设置的参数寻优组合数量众多,受篇幅所限不可能展示每一类植被类型在每种参数组合下的表现,为了直观的展示参数寻优的过程,我们以农田(IGBP index=CROP)类型在激活函数为relu,网络层数为3 时的神经网络为例,选取了几个参数组合,展示模型在不同配置下的表现.示例结果如表2所示.
表2 多层感知机在不同参数组合上的表现示例
为了评价数据重建模型的数据拟合效果,我们利用训练集以及预留的验证数据进行了典型的机器学习的验证,将所有的土地覆盖类型融合到一起后呈现验证结果,可以反映出模型的综合表现.图3展示了本模型在训练集上的表现.采用预测值与原始值的拟合线的斜率,相关系数R2与均方根误差RMSE 的值来进行评价.可以从中看到,拟合线的斜率为0.95,相关系数R2的数值达到了0.72,均方根误差RMSE 的数值低至0.081,显示出了该模型在训练集上的良好表现.
图3 数据重建模型在训练集上的表现
本实验所建立的多层感知机神经网络模型在验证数据集上的表现如图4所示,拟合线的斜率为0.95,相关系数R2的数值达到了0.7,均方根误差RMSE 的数值低至0.084,基本与模型在训练数据集上的表现处在同一水平线上,显示出了该模型在验证集上的依然具有比较稳定的表现.
图4 数据重建模型在训练集上的表现
从图3及图4可以看出,SIF 预测值与真实值之间具有很高的相关性,而且在整个值域上具有良好的跟随关系.
华北地区最终的叶绿素荧光重建数据集如图5所示.重建后的叶绿素荧光数据覆盖整个兴趣区域,具有空间连续性.同时模型的良好表现说明了其预测数值的有效性.对比原始OCO-2 叶绿素荧光数据集空间重采样到1 度的数据集,兴趣区域内重建后的叶绿素荧光数据集具有远高于原有1 度数据集的分辨率.基于我们在生态原理控制下建立的多层感知机模型,重建数据集保留了原有数据集的空间分布规律,同时由于其空间连续性,该数据集的可用性远大于原有的OCO-2 SIF 数据集.新的叶绿素荧光数据集的空间分辨率为0.05 度,也远高于现有的空间连续的叶绿素荧光原始遥感数据集,如GOME-2,其空间分辨率约为40 公里.从图五中的生长峰季三个月6月,7月,8月的SIF 高值分布及变化来看,基本反映出了如下规律:1) 7月作为华北地区降水量以及月均温最高的月份,植被的生产力水平,或者光合作用强度达到顶峰;2)从6月到8月,该地区SIF 平均水平经历了先上升后下降的过程,而且在下降的时候,反映出了高纬度或者高海拔先下降,大型农业种植区所在的低纬度低海拔地区SIF 峰值维持时间较长等趋势.这些结论与先验生态学知识基本相符,进一步证明了重建数据集的有效性.
本论文以华北地区2018年的生长峰季为例,通过人工神经网络,基于MODIS 地表反照率与轨道碳观测者二号所提供的叶绿素荧光信号遥感数据建立模型,并用于高分辨率、空间连续的数据集的重建任务.本研究展示了一种获取兴趣区域特定时间段内高质量叶绿素荧光遥感监测数据集的生成方法,并通过验证证明了该方法的有效性.该方法可以与叶绿素荧光或总初级生产力相关的交叉学研究提供相应的数据支撑.由于轨道碳观测者2 号的叶绿素荧光数据以及MODIS 反照率数据均具有数据缺失或者质量较低的情况,该框架在特殊地区特殊时间,如热带雨林生长峰季,会面临较多的源数据缺失问题,这属于一种不可控因素.基于各相关学科专家知识系统或者经验模型的数据补全方案或具备一定的可行性,也可能是未来潜在的一个研究方向.
图5 华北地区2018年生长峰季SIF 重建数据集以及1 度分辨率原始数据集对比图(第一行为重建数据集,第二行为原始数据集重采样到1 度;第一列为6月数据,第二列为7月数据,第三列为8月数据)