刘 娜,黄武斌,杨建才,王基鑫,王一丞,张君霞
(兰州中心气象台,甘肃 兰州 730020)
降水是一种动态非线性的多时间尺度环流系统在气象上的表征,同时也是局部环流和热效应与地形地貌相结合的产物。适时适量的降水能够为农业带来便利,但长时间、大面积、高强度的降水可能引发山洪、泥石流等次生灾害,从而危害人民的生命财产与安全。因此,提升短期降水预报准确率不仅为人们的生产生活提供参考,还能够为水利、航海、交通运输等行业提供警示,减少恶劣天气给人类带来的损失。
自20世纪60年代起,定量降水预报成为我国降水预报业务发展的重点方向[1]。传统的降水预报方法主要包括物理统计模型[2]、数值天气预报[3]和雷达外推[4-5]等,其已得到长足发展并取得了一系列较好成果,但存在考虑因素众多、模型构造过于复杂等问题,致使预测步骤多、累计误差较大,特别是随着气象大数据的不断积累和预报业务精细化程度要求的不断提高,传统方法在应对高时空分辨率、多变量和复杂非线性等挑战上能力明显不足。
随着人工智能的飞速发展,气象预报领域也逐步引入了机器学习等人工智能方法。人工智能技术能够从海量气象数据中提取并解读出有用信息,发现新的气候特征和大气运动,从而实现对天气现象更精确的预测,因此在传统数值预报基础上结合人工智能技术成为当下降水预报的研究热点和发展方向[6]。研究表明,传统降水预报方法在解决非线性问题上很难取得理想效果,而支持向量机、决策树等人工智能模型能够较好地应对非线性问题,且具有自学习能力,对降水的预测效果更优[7-12],但因其对训练样本的依赖性大,存在过度学习和稳健性不足等问题,需要进一步改进和完善。相比之下,随机森林算法犯错少、准确率高、适应性强,且在训练模型时可以并行化计算,预测精度较高,泛化能力强。研究表明,随机森林方法对中长期降水量预测效果较好[13-16],且基于地形的加权随机森林方法优于传统的气象方法和随机森林方法[17]。
经过几十年的发展,我国在降水预报的精细化程度上有了很大的发展,但伴随着全球气候变暖引发的极端天气、气候事件的增多和经济社会的发展,社会各界对降水预报的精细化程度提出更高需求。不同地域和气候背景下,降水性质、成因机制往往有所区别,在降水客观分区基础上进行降水预报的效果更佳[18-19]。甘肃地处我国西北内陆,其地域东西、南北跨度大,青藏高原、黄土高原及巴丹吉林沙漠、腾格里沙漠环绕,地形地貌极其复杂,降水性质及机制区域性特征明显。因此,本文利用降水实况观测数据、CMA降水指导产品和ECMWF模式预报产品,结合泰森多边形法和K-means聚类法(spatial cluster and Tyson polygon,SCTP),实现甘肃省降水客观分区,并通过随机森林算法(random forest,RF)筛选与降水相关的物理量因子,构建基于SCTP-RF算法的本地化短期定量降水的客观预报订正模型,为甘肃省短期定量降水预报提供一定的指导和技术支撑。
所用数据主要由欧洲中期天气预报中心(the European Center of Medium-range Weather Forecasts,ECMWF)提供的精细化数值预报产品,水平分辨率为0.125°×0.125°,时间分辨率为3 h,起报时次为每日08:00和20:00(北京时,下同),预报时效为0~240 h,包括位势高度场(GH)、温度场(T)、风场(UV)、相对湿度(RH)、比湿(Q)(100、200、300、400、500、600、700、850、925、1000 hPa共10层)和垂直速度(w)、变高(△H)、变温(△T)(200、300、500、700、850、925、1000 hPa共7层)以及对流有效位能(CAPE)、地面变压(△P)、地面降水(R)、2 m露点温度(Td2)、2 m气温(T2)、10 m风场(UV10),共77个要素。
另外,使用了中国气象局(China Meteorological Administration,CMA)下发的逐3 h降水指导产品(TP_CMA),水平分辨率为0.05°×0.05°,起报时次、预报时效同ECMWF细网格模式预报产品一致;实况资料为甘肃省340个气象站点(78个国家站和262个骨干站)逐3、6、12、24 h降水观测数据(Ro)。甘肃省行政边界是基于国家测绘地理信息局标准地图服务网站下载的审图号为GS(2019)1824号的标准地图制作,底图无修改。
利用2017—2019年4—9月甘肃省340站逐3 h降水实况数据进行客观分区,将2017—2019年6—8月ECMWF模式输出的77个物理量、站点实况降水资料和TP_CMA指导产品作为初始模型训练因子,对不同起报时次(08:00和20:00)进行随机森林模型训练,剔除负贡献因子,利用正贡献因子构建模型,并对2020年6—8月进行独立测试,检验模型降水预报效果。
1.2.1 SCTP-RF算法
该算法主要分为两部分:
(1)通过泰森多边形法和K-means空间聚类法对甘肃省4—9月降水观测实况进行落区划分。泰森多边形法是由荷兰气候学家THIESSEN提出的一种根据离散分布的站点降雨量来计算平均面雨量的方法,即将相邻气象站点两两相连并作连线的中垂线,中垂线相交所形成的若干个多边形即为泰森多边形,并以泰森多边形内所包含的唯一气象站的降雨量来表示这个多边形区域内的降雨量[20]。在此基础上,通过K-means聚类法对这些若干个多边形进行二次分类,以达到降低建模数量的目的,减少计算量,其核心思想是将数据分为多个类,使得每个聚类中的数据与类簇中心之间的距离之和最小。
(2)随机森林作为一种新兴起的、高度灵活的机器学习算法,拥有广泛的应用前景,既可以用于数据集建模,也可用来预测天气[21]。直观地来讲,它是利用bootstrap重抽样方法从原始样本中抽取多个样本,并对每个样本进行决策树建模,综合考虑各决策树的结果,即通过投票以少数服从多数的原则获取模型预测的最终结果[22-23]。随机森林具有较高的预测准确率以及较好的容忍度(对异常值和噪声),且不易出现过拟合。此外,随机森林对高维数据分类问题也具有良好的可扩展性和并行性[24]。根据随机森林算法理论,构建如图1所示的随机森林模型,并对模式预报产品进行订正(即SCTP-RF订正产品)。
图1 随机森林算法示意图
1.2.2 检验方法
(1)晴雨检验
对逐3 h降水的晴雨预报效果,采用晴雨预报准确率(prediction accuracy,PA)及技巧评分(skill score of prediction accuracy,SPA)等评价指标,公式定义如下:
(1)
(2)
式中:NA为有降水预报正确站(次)数;NB为空报站(次)数;NC为漏报站(次)数;ND为无降水预报正确站(次)数;PAP为ECMWF或SCTP-RF产品的晴雨准确率;PAN为TP_CMA产品的晴雨准确率。
(2)降水分级检验
对于逐3 h降水的分级(0.1~1.9 mm为小雨、2.0~6.9 mm为中雨、7.0~14.9 mm为大雨、≥15 mm为暴雨及以上)检验,采用我国气象系统降水预报业务常用的TS评分(threat score)、技巧评分(skill score,SS)、漏报率(missing ratio,MR)、空报率(false alarm ratio,FAR)等指标,计算方法如下:
(3)
(4)
(5)
(6)
表1 降水分级的检验评定
甘肃省地域广阔,地形地貌极其复杂,降水量自东南向西北逐渐递减,中间有一相对少雨带[25],且四季降水呈现明显的纬度地带性分布,不同季节降水变率较大。其中,河西地区属于干旱气候,降水呈单峰型月际分布,7月降水最多;河东地区属于半干旱气候,降水的月际变化也呈单峰型,全年降水量主要集中在6—9月,特别是陇东南区域的降水量较其他地区明显偏多,年降水量为500~700 mm[26]。
朱新胜等[27]通过计算次网格地形坡度、坡向参数及其对到达地面太阳短波辐射通量的影响,提出了次网格地形热力效应的参数化方案,该方案的引入对东亚地区夏季气候尤其是降水的模拟有明显改进,说明地形的坡度、坡向对降水存在一定影响。因此,本文首先利用甘肃省340站历史降水实况与坡度(高程差与水平距离之比),采用SCTP方法,得到叠加坡度信息的甘肃省客观降水分区,但由于该分区聚合度较低,不利于后期建模,故根据本地气候态对全省客观分区进行优化,最优分区结果见图2。从图2看出,4—9月全省依次分为7、6、14、13、14和11个降水区域,降水越多分区越复杂,且河西地区各月降水分区差异较小,而河东地区各月降水分区则存在一定差异,这可能与该地区复杂的地形地貌有关。
图2 甘肃省4—9月降水客观分区
在降水客观分区基础上,利用随机森林算法对甘肃省340站72 h时效内逐3 h降水量进行订正预报试验,客观订正方案见图3。首先,采用随机森林算法,根据降水预报量与各因子的相关性,从ECMWF模式输出的物理量、实况降水和TP_CMA指导产品共82个要素中筛选出与降水预报量相关(即正贡献)的因子进行建模,通过上、下采样的方法保证样本量平衡,得出初始预报结果;然后,根据试验结果对预报方案进行升级、调整,如优化降水分区、调整预报因子等,生成一套最优的定量降水预报产品。
图3 定量降水预报的客观订正方案流程
参与初始模型训练的要素共82个,其中ECMWF模式输出物理量77个、站点降水实况资料4个、TP_CMA指导产品1个。经反复试验,对参与模型训练的要素进行调整,剔除贡献为负的要素49个,将正贡献的33个要素作为最终参与模型构建的因子(表2)。从表2看出,正贡献率大于1%的因子有19个,其累计贡献率达94.4%,包含大部分与降水相关的信息。其中,贡献率较大的因子依次为TP_CMA指导产品(10.4%)、地面降水(10.21%)、200 hPa变高(10.09%)、700 hPa变温(8.61%)、3 h降水实况(7.61%)及500、700、200 hPa相对湿度(均大于5%)。
表2 调整后对降水预报模型有正贡献的因子及其贡献率
2.3.1 晴雨预报检验
根据晴雨检验评分标准,对2020年汛期6—8月甘肃省340站不同起报时次(08:00和20:00)的三种客观预报产品(TP_CMA、ECMWF和SCTP-RF)72 h时效内逐3 h降水的晴雨预报效果进行对比检验(表3)。
表3 2020年6—8月TP_CMA、ECMWF及SCTP-RF产品不同起报时次下逐3 h降水的晴雨预报准确率
从表3和图4看出,在2020年6—8月,不同起报时次的SCTP-RF订正产品对甘肃省340站的晴雨预报准确率相比于TP_CMA指导产品均有所提高,其中08:00起报的晴雨预报准确率平均提高5.81%,20:00起报的晴雨预报准确率平均提高6.39%,且均为正技巧;与ECMWF模式预报产品相比,除8月晴雨预报准确率略偏低外,2个起报时次的SCTP-RF产品对甘肃省340站的晴雨预报效果均有明显改善,6月和7月分别提高6.26%(5.93%)、7.21%(7.03%)。整体上,SCTP-RF订正的逐3 h降水对甘肃汛期的晴雨预报能力较TP_CMA指导产品和ECMWF模式产品分别提升6.1%、4.2%。另外,8月的ECMWF模式产品对于甘肃省晴雨的预报能力表现最好,明显优于TP_CMA指导产品,略优于SCTP-RF产品,这可能与当年8月环流形势异常引起的降水过程较多有关[28]。
图4 2020年6—8月08:00(a)、20:00(b)起报的ECMWF和SCTP-RF产品逐3 h降水的晴雨预报技巧评分
从各产品晴雨预报准确率空间分布(图5)来看,TP_CMA指导产品和ECMWF模式预报产品对河西地区的晴雨预报效果较好,晴雨预报准确率基本在85%以上,特别是酒泉和嘉峪关大部以及张掖、金昌和武威北部地区;河东地区的晴雨预报准确率基本维持在65%~80%之间,其中甘岷山区及陇南东南部的预报效果较差。SCTP-RF产品在甘肃省340站的逐3 h晴雨预报方面表现出一定的订正能力,大部站点的晴雨预报准确率提升了5%,特别是河东地区提升幅度为6%~10%。需要指出的是,SCTP-RF产品对甘岷山区及陇南东南部地区的晴雨预报效果虽有一定改善,但由于这些区域地形地貌的复杂性和ECMWF模式本身对降水预报能力较差,致使晴雨预报订正效果仍不理想。
图5 2020年6—8月08:00(a、c、e)和20:00(b、d、f)起报的TP_CMA(a、b)、ECMWF(c、d)和SCTP-RF(e、f)产品晴雨预报准确率空间分布(单位:%)
2.3.2 分级降水检验
在改善晴雨预报效果的前提下,对比检验TP_CMA、ECMWF及SCTP-RF产品对甘肃省340站逐3 h降水分级预报效果。从表4发现:针对小雨而言,SCTP-RF订正产品在6、7月的TS评分优于TP_CMA指导产品,TS评分分别提高1.87%、0.91%,而在8月SCTP-RF订正产品的预报效果比ECMWF模式产品有所提升,但较TP_CMA指导产品表现差;针对中雨和大雨而言,6—8月SCTP-RF订正产品的TS评分均显著优于TP_CMA指导产品,整体上也优于ECMWF模式产品。具体来说,与TP_CMA指导产品相比,6—8月SCTP-RF订正产品的中雨TS评分依次提高3.97%、3.53%、2.81%;大雨的TS评分依次提高2.35%、1.27%、1.52%。针对暴雨而言,除7、8月20:00起报外,SCTP-RF订正产品的预报效果均优于TP_CMA指导产品、低于ECMWF产品,这可能与ECMWF模式产品本身对暴雨预报范围偏大有关。
表4 2020年6—8月TP_CMA、ECMWF和SCTP-RF产品不同起报时次下逐3 h降水分级预报TS评分
综上所述,整体上SCTP-RF订正产品逐3 h降水对甘肃省340站的中雨和大雨预报效果较TP_CMA指导产品有一定提升,而对小雨预报虽有正的订正能力,但在较强降水过程中(如2020年8月)表现不理想;在暴雨预报上,SCTP-RF订正产品的预报效果较TP_CMA指导产品略有提升。
图6是SCTP-RF订正产品的分级降水技巧评分空间分布。可以看出,SCTP-RF产品对小雨预报的正订正技巧主要集中在河西大部及河东中部地区,而在陇东南地区则表现为负订正技巧,特别是平凉和庆阳交界地带;对中雨预报订正整体表现出显著的正技巧,尤其在河东中部及陇东南地区,较TP_CMA指导产品提升5%~10%,个别地区(如陇东地区东部)提升10%~15%;对大雨预报的订正效果因起报时次不同而存在空间差异,整体上20:00起报的优于08:00,其中08:00起报的SCTP-RF产品在河西东部和高原边坡附近订正效果表现较差,而20:00起报的总体均有一定程度的改善。与大雨预报的订正相反,SCTP-RF产品较TP_CMA指导产品对08:00起报的暴雨预报订正能力优于20:00,2个起报时次的区别主要位于陇南—天水一带。
图6 2020年6—8月08:00(a、c、e、g)和20:00(b、d、f、h)起报的SCTP-RF产品逐3 h降水分级技巧评分空间分布(单位:%)(a、b)小雨,(c、d)中雨,(e、f)大雨,(g、h)暴雨
通常客观预报方法对于小雨的预报效果较好,而本文中ECMWF和SCTP-RF产品对甘肃省小雨的预报效果明显不如TP_CMA指导产品(表4)。表4显示,SCTP-RF产品在6、7月的小雨预报效果均优于TP_CMA指导产品,TS评分分别偏高1.87%、0.91%,而8月小雨的TS评分明显降低。因此,进一步统计三种产品对2020年8月甘肃省340站小雨的漏报率和空报率(图7),发现2个起报时次TP_CMA指导产品的小雨漏报率均高于ECMWF和SCTP-RF产品,而ECMWF的小雨空报率高于TP_CMA和SCTP-RF产品,这说明TP_CMA产品侧重于在“宁漏勿空”的基础上提高小雨的TS评分,ECMWF产品则更倾向于通过“牺牲”空报率来提高TS评分,而SCTP-RF订正产品因同时考虑了漏报率和空报率导致对8月小雨的预报呈负技巧。
图7 2020年8月TP_CMA、ECMWF和SCTP-RF产品逐3 h降水的小雨漏报率(a)和空报率(b)
(1)4—9月,甘肃省降水客观分区依次为7、6、14、13、14和11个,降水越多分区越复杂,河西地区各月降水分区差异较小,而地形地貌复杂的河东地区各月降水分区存在一定差异。
(2)整体上,SCTP-RF订正产品逐3 h降水对甘肃汛期的晴雨预报能力较TP_CMA指导产品和ECMWF模式产品有一定提升,提升幅度分别为6.1%、4.2%。从空间上来看,SCTP-RF产品逐3 h降水对甘肃省340站的晴雨预报具有一定的订正能力,大部分站点晴雨预报准确率提升5%,河东地区提升6%~10%。
(3)在分级的降水预报中,SCTP-RF订正产品对中雨和大雨预报能力均优于TP_CMA指导产品和ECMWF模式产品,而对小雨和暴雨预报订正能力在强降水过程中不稳定。总体来说,SCTP-RF产品对甘肃省大部地区的中雨和大雨预报订正效果较好,特别在河东中部及陇东南地区的技巧评分可达5%~10%,但对陇东南地区特别是平凉和庆阳一带的小雨预报TS评分偏低,这是由于SCTP-RF订正产品在提高TS评分的同时考虑了漏报率和空报率。
本文仅针对ECMWF模式预报产品进行了订正改进,改进后对汛期6—8月甘肃省340站的晴雨预报能力有所提升,特别是对中雨和大雨分级预报提升效果明显。然而,在研究过程中ECMWF模式输出的物理量因子个数较少,选出的与降水相关性较大的因子并不能完全刻画出降水的形态;当ECMWF模式对天气形势、主雨带预报有明显系统性偏差时,SCTP-RF算法对数值模式产品订正不明显。为改善以上情况,可在后续工作中考虑增加样本量(在现有站点基础上增加区域站点或增加物理量因子)或引入其他模式产品进行综合识别,以提高SCTP-RF算法在甘肃省短期定量分级降水特别是小雨和暴雨的预报能力。