多源卫星数据的农用地膜信息提取

2018-08-03 02:57:08李佳雨王华斌王光辉翟浩然
测绘通报 2018年7期
关键词:决策树光谱精度

李佳雨,王华斌,王光辉,翟浩然,韩 旻,程 前

(1. 辽宁工程技术大学,辽宁 阜新 123000; 2. 国家测绘地理信息局卫星测绘应用中心,北京 100048)

20世纪中叶,地膜覆盖技术最先由西方发达国家使用,其对农作物具有增温、保墒、抑制杂草等功能。地膜覆盖技术在20世纪80年代传入中国,在高寒、干旱及半干旱地区的农作物种植中得到广泛使用。地膜覆盖技术的使用改变了原有的农业生产方式,在大范围内将粮食单产提高20%~30%,为保障我国粮食安全做出了重大贡献[1]。目前,地膜覆盖技术已在40多种农作物的种植上成功推广应用,并呈现出逐渐增长的趋势。1982—2016年的《中国农业统计年鉴》数据显示,1982年中国农作物地膜覆盖面积仅为1.5万hm2,2001年上升到1096万hm2,2015年已达到1 831.8 hm2,33年间扩大了1000余倍。大规模的地膜覆盖面积变化,对于地表生物多样性及土壤能量平衡都有一定影响,而且在耕作过程中,由于原有地膜回收方式的局限性及环保意识的缺乏,农田中存在较高比例的地膜残留。这些地膜残留不仅会对农田造成面源污染、破坏土壤结构,而且阻碍水肥输导,影响土壤通透性和作物生长发育,对农业环境构成重大威胁[2]。传统方法采用实地调查、逐级上报的方式获取地膜覆盖信息,该方法受主观因素影响大,且耗费大量的人力物力,仍然难以得到准确的监测结果。而卫星遥感技术可以克服现场调查的不足,具有覆盖面积广、重访周期短、监测成本低等特点,可以实现大面积同步观测,实时准确地获取地膜覆盖面积及地理分布等信息,该信息对于国家农业规划、资源管理、环境保护等方面具有重要的意义[3]。

近年来,一些学者开始研究利用遥感手段对农用地膜进行监测与信息提取。Eufemia Tarantino等[4]采用面向对象最近邻分类的方法从航拍影像中提取地面地膜信息。Lu等[5]通过分析典型地物的波谱特征建立决策树分类器,对Landsat 5时间序列影像进行地膜信息提取。之后,Lu等[6]又通过对MODIS时间序列影像建立阈值模型的方式来提取地膜信息,并与Landsat提取结果对比以验证方法的可行性。Hasituya等[7]通过光谱特征与纹理特征相结合的方式,分别使用MLC、MDC和SVM分类器进行地膜提取,试验结果证明了SVM分类器的优势性。Hasituya等[8]又采用RF和SVM分类器对多时相Landsat卫星数据进行地膜提取,通过试验得出最佳的地膜提取时间为4月,并得出光谱、NDVI、GI等特征在提取过程中更具重要性的结论。从上述相关研究可以看出,目前学术界对于地膜提取的研究相对较少,已有的研究多采用Landsat卫星等对地观测数据,分辨率相对较低,提取结果的误差相对较大。

本文采用资源三号与Landsat卫星融合数据作为数据源,采用多特征优选面向对象随机森林分类的方式,对甘肃省张掖市临泽县部分地区进行地膜提取。该方法计算特征少、实现简便,在保证地膜提取能力的同时,有效降低了数据处理量,对于高分辨率影像农用地膜提取具有良好的适用性。

1 数据来源

1.1 研究区概况

本文研究区位于甘肃省张掖市临泽县。临泽县地处甘肃省河西走廊中部,东经99°51′—100°30′,北纬38°57′—39°42′之间。该地区属于大陆性荒漠草原气候,气候干燥,降水稀少,日照时间长,蒸发量大,多风,农作物种植多采用地膜覆盖的方式进行增温保墒。研究区位置如图1所示。

2017年6月23日、24日对研究区进行了实地调研。本次调研共涉及200个样本地块,在保证样本地块均匀分布的前提下,对典型区域进行了重点判读。调查过程包括记录地块的作物类型、作物高度、是否覆盖地膜、地膜颜色与材质、地块面积与经纬度信息并拍摄地块照片。调查结果显示,该地区除河流附近部分玉米田未覆盖地膜外,其余耕地中的大部分均被地膜覆盖。实地调研数据为目视解译提供了可靠的先验知识,并能为地膜提取结果提供可靠的精度验证参考。依据实地调研数据获得的解译标准见表1。在后续识别过程中,将二者视为同一种类进行识别。

1.2 数据及预处理

在我国西北地区,春季覆膜一般在3月上旬开始铺设,4月中旬基本铺设完毕。因此选取的资源三号数据的影像获取时间为2017年4月22日,Landsat影像获取时间为2017年4月27日。该组数据既保证了地膜提取的时效性,又兼顾了地膜的覆盖率,使提取结果更为准确。

在进行预处理时,首先对资源三号卫星2.1 m 分辨率全色影像与Landsat卫星30 m分辨率多光谱影像依次进行正射校正、辐射校正与大气校正;而后对两幅影像进行空间配准,使得同名点像元一一对应;然后对Landsat 8 OLI 30 m多光谱数据进行重采样至资源三号影像的多光谱分辨率,在ArcGIS软件中对重采样后的多光谱数据进行投影变换,使之与全色影像投影一致;最后在ENVI软件中使用Gram-Schmidt Pan Sharpening方法进行图像融合,融合后影像大小为3800×3500。

2 方法与实现

本文将Landsat卫星的光谱分辨率优势与资源三号卫星的空间分辨率优势相结合,首先通过改进Mean-Shift分割算法将处理基元转化为小对象;再提取融合影像的光谱、指数与纹理等特征,以OFS特征选择算法对所有特征构成的特征空间进行优选;最后将优选特征子空间导入随机森林分类器内进行训练并分类,以达到高精度快速识别地膜的目的。具体技术路线如图2所示。

图2 技术路线

2.1 融合颜色-纹理模型的均值漂移分割

影像分割是面向对象分类技术的基础,影像分割的好坏直接决定遥感影像分类的精度[9]。本文以 Mean-Shift 初始分割结果为基础,通过图像的同等组滤波和颜色量化[10]得到类图,将类图视为颜色-纹理模型并融合到均值漂移算法中。以颜色-纹理模型的相似性评价准则和分割对象轮廓信息评估相邻区域合并条件,并进行区域合并,最终得到有效分割结果。将颜色-纹理模型融合到Mean-Shift 分割算法中,有效地克服了传统Mean-Shift 算法易造成过分割的缺点,实现遥感影像的高准确度分割。该方法在文献[11]中已详细论述。

2.2 特征提取

本文选取的特征包括4类,分别是光谱特征(7波段)、指数特征、几何特征与各波段纹理特征,总计87个特征参数(见表2)。

表2 特征空间

2.3 特征选择

特征提取与优化对遥感影像分类的精度有重要的影响。在遥感影像自动分类中,特征越多所表达的影像信息越全面,但并非数量越多越好。首先,由于不同特征对影像分类的贡献率不同,且部分特征之间存在较大的相关性,过多的重复使用可能导致分类精度的降低;其次,特征维数过高会造成“维数灾难”,将大量的特征参数应用于分类器,会使计算量增大、分类效率降低。因此,选择合适的特征空间对分类模型性能的提升具有重要作用。

为更好地确定合适的特征进行分类,本文采用特征空间优化(FSO)算法进行特征优选。FSO算法依据训练样本的特征值,通过特征组合计算出不同类别训练样本间的最大、平均、最小距离,得到优化特征子空间,最后将特征子空间应用于随机森林分类器中。

2.4 随机森林分类

随机森林的概念最早由Breiman在2001年提出[12]。通过Bootstrap重抽样方法从训练样本集中抽取样本,对抽取到的每个样本进行决策树分类。在生成决策树时,每个节点都是从随机选出的几个变量中最优分裂产生的。生成所有决策树之后,用投票的方法对所有决策树的分类结果进行整合,归纳汇总形成最终分类结果[13]。

应用随机森林分类时,在训练样本数量一定的情况下,影响分类精度的两个主要参数分别是最大特征数和最大决策树数。①最大特征数即生成一棵决策树所使用特征数的最大值。最大特征数的最优参数可根据袋外数(out of bag, OOB)误差率进行调整,以达到更高的精度[14]。②最大决策树数即分类完成时所生成的决策树数量。Breiman在文献[15]中证明了,依据大数定理,当最大决策树数增加时模型泛化误差收敛,不用担心过训练的情况。因此在内存允许的前提下,可选取尽量大的数量。本文分类时最大决策树数设为100。

3 结果与分析

3.1 特征优选分析

本文采用eCognition软件中的FSO特征选择工具,依据样本选择结果对提取的80多个特征进行特征优选。通过测试结果可知,当特征数量达到23时,类别间分离度达到最大值2.48,分离度曲线如图3所示。FSO选取的特征包括光谱特征11个、指数特征1个、几何特征4个、纹理特征7个。

3.2 分类结果对比

为了验证该方法的有效性,本文共设计了4组试验方案,试验A采用光谱特征,试验B采用光谱指数特征,试验C采用光谱特征+指数特征+纹理特

征+几何特征,试验D采用多特征优选(如图4所示)。将4组提取结果在与原始图进行目视对比可以发现:试验B、C将部分河流错分为地膜,在研究区右下角部分试验A、B、C均有部分地膜被错分为裸地等类型,而采用特征优选的试验D则具有较好的分类结果,错分和漏分明显少于其他3组试验。

图3 分离度曲线

图4 各试验分类结果

3.3 精度验证

本文采用选取随机点的方式,将研究区调研结果与同时期高分二号卫星数据对试验结果进行对照以验证试验精度,获取试验区分类结果的混淆矩阵;再通过混淆矩阵计算得到用户精度、制图精度、总体精度、Kappa系数等评价指标。精度评价结果如图5所示。

总体精度是分类对象与对应地区真实地物类型的一致性概率,Kappa系数综合了用户精度和制图精度两个参数,是一个检验分类正确度的指标,值越高说明分类结果越准确。通过表2中4组试验的精度分析结果可知,在研究区内,总体区分能力由高到低依次为试验D>试验C>试验B>试验A,其中试验D总体精度高于92%,Kappa系数高于0.90,其余3个试验总体精度均低于86%,Kappa系数均低于0.83。

通过4组试验分类结果与原始影像的对比可以发现,在引入指数特征与纹理特征后,总体分类精度与Kappa系数均有了不同程度的提升,这说明在分类过程中,不同类型特征之间存在着优势互补;而在进行特征优选之后分类精度进一步提升,则说明特征优选过程消除了部分特征之间的信息冗余。

4 结 论

针对目前农用地膜遥感识别中存在的问题,本文提出了一种结合资源三号与Landsat 8 OLI卫星影像数据的面向对象地膜自动提取方法。该方法综合多源卫星数据特点,采用改进的Mean-Shift算法完成影像的准确分割,以调研数据为基准采集样本,通过FSO方法对光谱、指数、纹理等特征进行优选,利用随机森林分类器实现了地表地膜的自动识别。本文所提出的方法在有效识别地膜精度的同时,降低了训练特征维度,提升了地膜的识别效率,方法简便,普适性强,具有一定的实际应用价值。

图5 精度对比

猜你喜欢
决策树光谱精度
基于三维Saab变换的高光谱图像压缩方法
一种针对不均衡数据集的SVM决策树算法
决策树和随机森林方法在管理决策中的应用
电子制作(2018年16期)2018-09-26 03:27:06
基于DSPIC33F微处理器的采集精度的提高
电子制作(2018年11期)2018-08-04 03:25:38
基于决策树的出租车乘客出行目的识别
GPS/GLONASS/BDS组合PPP精度分析
星载近红外高光谱CO2遥感进展
中国光学(2015年5期)2015-12-09 09:00:28
基于肺癌CT的决策树模型在肺癌诊断中的应用
改进的Goldschmidt双精度浮点除法器
苦味酸与牛血清蛋白相互作用的光谱研究