庞 聪,江 勇,廖成旺,吴 涛,丁 炜,王 磊
(1.中国地震局地震研究所 中国地震局地震大地测量重点实验室,湖北 武汉 430071;2.湖北省地震局地震预警湖北省重点实验室,湖北 武汉 430071)
强震仪是指由加速度计、数据记录器、对时系统、存储系统等组成的地球物理观测仪器,在建筑物震害分析、结构模态分析、结构损伤识别、常规谱分析中应用较广(王雷等,2011;宋金龙,2012;荣立爽,2008;赵怀山等,2017;周绮凤等,2012;王文才等,2018)。但是,强震仪在各类监测场地(野外监测台网、超高层建筑物、水电站、大坝、核电站等)布设后常常遇到高频低能量、宽频带大能量等振动特征相差较大的噪声,这些含噪强震动记录如果不加以处理与识别,易造成地震事件错误收集、预警事件误触发等异常情况。因此,基于强震动监测数据的抗干扰或防误触技术研究开始受到相关研究人员的重视。传统的强震仪系统抗干扰技术多以仪器失真校正技术、信号负反馈技术、触发控制技术等基于内干扰源的抗干扰技术为主,以区分电磁干扰信号、温变信号、误触操作等,技术主要应用在仪器硬件结构内部,且研究应用难度较大。例如,赵松年等(1987)设计幅度特征—窗口比较器触发电路,减小强震仪误触与漏触概率,提高触发器的抗干扰能力。于海英等(2006)对未校正记录做低通滤波后运用近似理想微分器做两次微分得到校正加速度记录,以校正仪器响应失真。传统强震仪抗干扰技术较多集中在内部信号干扰、误操作等领域,研究较为丰富,而专门针对外环境激励源的抗干扰研究较少,这也给强震仪在防灾减灾领域的应用推广造成了较大阻碍。
随着计算机技术和人工智能科学的发展,基于分类、决策的机器学习方法越来越受到各行各业专家学者的重视,同时一些学者尝试将该机器学习方法应用于强震仪外环境干扰源(风致振动、机械施工、起重机工作、人为走动等激励)抗干扰技术研究,但是仍处于研究的起步阶段。比如江汶乡等(2015a,2015b)基于决策树原理设计强震动单阵抗干扰算法,通过提取强震动记录和干扰记录触发事件后3s内数据的多个特征值建立决策树学习样本数据集,有效区分出地震动振动源与其它干扰源。赵刚等(2017)基于AdaBoost集成学习方法和BP神经网络对天然地震动事件和人工爆破事件进行波形特征识别,结果表明集成学习方法识别效率较高,不易过拟合。虽然基于决策树的强震仪抗干扰技术解决了强震仪在外干扰源环境下的抗干扰办法,但是采用的决策树方法存在过拟合、分类不准确的缺陷;基于集成学习的adaboost学习算法克服了决策树的部分缺点,是一个效果较好的特征识别方法。
本文采用机器学习中的AdaBoost集成学习方法以克服决策树的上述缺点,设计一种针对外干扰源的强震动数据抗干扰算法,有效区分天然地震动事件与人工干扰事件,以提高强震监测时的抗干扰水平,推动强震观测系统的智能化和自动化,对防震减灾工程技术的发展和应用具有一定意义。
决策树(decision tree)是一类常见的、较为简单的机器学习方法,其目的是根据损失函数最小化的原则产生一棵泛化能力强,即处理未见示例能力强的决策树(庞聪等,2019;赵刚等,2017)。决策树按照分支时的属性选择方法不同可分为ID3、CART、C4.5等类型。ID3决策树基于信息增益量(Information Gain)进行属性选择;C4.5决策树从ID3法发展而来,依靠信息增益率进行属性选择;CART决策树又叫分类回归树,利用GINI指数增益作为属性选择依据。本文采用CART法。因为决策树方法具有计算速度较快、分类规则易理解等特点,一些研究人员将其大量应用于地震预警、震后损失评估、地质灾害评价等诸多防震减灾领域。决策树在处理大样本数据时存在易过拟合、分类准确度不高等问题,易过拟合的问题采取剪枝的方式对决策树进行处理。按照剪枝操作出现的时间顺序不同,分为预剪枝(Pre-Pruning)和后剪枝(Post-Pruning):预剪枝发生在决策树算法过程中,后剪枝则出现在决策树算法执行完毕以后。由于预剪枝一定概率上会导致决策树生长过早停止,而后剪枝操作较为麻烦,采用机器学习中的集成学习方法以解决决策树存在的各种问题,集成学习方法是指利用多个单一的机器学习方法(弱学习器)实现某一个强学习任务的方法,其在数据挖掘和机器学习领域应用较为广泛。
AdaBoost(Adaptive Boosting)算法由Yoav Freund和Robert Schapire于1995年提出,作为一种同质集成学习方法(同质集成方法是指每一个子学习器都属于同一类,例如CART决策树、人工神经网络等机器学习算法),其基本思想为:通过构建多个弱学习器,根据前一个学习期的错误率更新下一个训练样本的权重,直至满足指定最高错误率或最大迭代次数等限制条件,从而形成一个强学习器(Guo H,2016;Spenger M,2017)。AdaBoost算法的一般数学计算过程如下:
(1)初始化样本训练数据集:设定原始训练数据集为T={(x11,x12,…,x1n),(x21,x22,…,x2n),…,(xN1,xN2,…,xNn)},设定每一个训练样本在算法开始时都被赋予相同的权值ω1i,即ω1i=1/N;权值向量D1=(ω11,ω12,…,…,ω1i,…,ω1N),其中,i=1,2,…,N。
(3)更新训练集的权值分布向量:Dm=(ωm+1,1,ωm+1,2,…,ωm+1,i,…,ωm+1,N);
近些年来,强震仪在防灾减灾的诸多领域得到大量应用,如超高层建筑物结构健康监测、大跨度桥梁振动监测、水电站结构损伤识别、重要建筑安全防护及地震预警等(江汶乡等,2015b;荣立爽,2008;宋金龙,2012;赵怀山等,2017;周绮凤等,2012),并在实际监测中容易受到风致振动、列车高速行驶、采矿爆破、夯实机工作、外部电磁干扰、人为跑跳等诸多干扰激励(如表1),不同干扰类型的强震动记录波形特征或数据统计特征差异性较大。因此,利用波形特征和数据统计特征进行正常地震动事件与异常干扰事件的辨别是可行的。
表1 强震仪常见外界激励
部分学者在此基础上提出或应用以下一系列强震仪数据特征参量(如表2):记录持时、波形对称度、卓越频率、波形稀疏度、波形集中度、波形峰值总数、相邻最高增速等特征参量进行强震仪抗干扰技术的研究(江汶乡等2015b;庞聪等,2020)。这些参量主要从基于加速度波形特征的角度提出,对强震仪在外界环境激励下的振动特征描述较为全面,但是仍存在计算量过大、实际应用时参量过多等问题。根据应用较便捷、特征描述准确的原则,对上述特征参量进行简化处理,选择部分参量作为研究基础。
表2 强震动加速度记录数据振动特征表(庞聪等,2020)
表2中,持时(end)表示振动事件的有效持续时间,不同振动事件的时长判断阈值为3.0 s,持时在此阈值内的事件记为环境干扰事件,持时判断方法为Allen零交法(于海英等,2009;赵怀山等,2017),且事件在阈值内结束end记作1,否则记为0;对称性(sym)表示振动波形的对称特性,利用天然地震动波形的对称特性可以用来区分天然地震和部分异常振动,其公式为:sym=ssmall/sbig,其中ssmall和sbig分别表示波形在直线y=0上、下两侧面积中较小的面积和较大的面积;卓越频率(ZY)属于加速度的频域特征,即快速傅里叶变换中幅值最高成分对应的频率,其能有效区分复杂振动事件和地震的区别,ZY在文中的阈值区间设定为[0.5,100] Hz;波形稀疏度(sparse)属于波形特征范畴,表示在峰值分布直方图中峰值数为零的直方数在全部直方数中的占比程度,其中直方图的组数一般设为20,组距基于加速度记录的统计学极差来确定,组距=极差/组数;波形集中度(pration)表示在峰值分布直方图中最高频度直方峰值数在波形图全部峰值数(ptotal)中的占比程度;最大增长速度(MaxSpeed)为相邻采样点的幅值增加最大值与采样率之比,可作为幅值变化较小的振动干扰事件与幅值突变型振动事件的鉴别特征,例如爆破事件与人类活动干扰事件,其计算公式为:MaxSpeed=MaxGrow/sprate。
强震仪系统抗干扰算法本质上属于一种学习、推荐行为,其在算法框架上属于AdaBoost法,算法计算核心是决策树算法。强震仪抗干扰算法在进入主要计算阶段之前必须采用一定的数据预处理手段进行异常点剔除、基线校正、滤波处理,然后进行相应地初始化操作,设定弱分类器个数(迭代次数);经过k次训练集权值分布的循环迭代,持续降低分类错误率,得到最终的强分类器,从而提高干扰信号的识别精度(算法流程图如图1)。
图1 强震动数据抗干扰算法流程
本次实验采用国家强震动台网中心(www.csmnc.net)和中国地震局工程力学研究所的天然强震动记录与人工干扰数据来测试本文提出的方法。天然地震动记录包括:汶川地震、芦山地震、集集地震等,人工干扰记录包括:采石爆破、仪器电磁干扰、重型机械作业、列车行驶等。为了充分了解AdaBoost方法的优势,将决策树算法的数据抗干扰结果与AdaBoost方法进行对比,并按照实际训练样本占比10%、20%、40%、60%、80%,对两者的算法抗干扰准确率进行对比分析。
基于单纯决策树原理的强震动数据抗干扰算法识别结果如表3所示,其中决策树方法的分支类型为CART。决策树方法的抗干扰结果准确率总体与实际训练样本量的比例呈正相关:随着训练比例的增大,识别错误数有所减小,识别准确率逐渐提高,最终接近98%。但是,当训练样本比例低于40%时,识别准确性不太理想,小于90%,这也符合决策树算法易过拟合的特点。因此,基于单纯决策树的强震动数据抗干扰方法识别效果基本取决于决策树算法的关键参数,对实际样本训练比例较为敏感。在针对超大数据量的应用环境中,算法性能较差,应用价值值得商榷。
表3 基于决策树原理的强震动数据抗干扰算法识别结果
由图2,该决策树将ZY(卓越频率)、Sym(波形对称性)、End(事件结束否)等3个参数作为决策特征参数,并没有将最大增长速度最大增长速度(speed)与峰值数(ptotal)等参量作为决策特征参数,是因为某些大地震的瞬时速度增长与人工爆破等事件的结果相近,同时天然地震动的波形早期特征与人工事件可能相似,较为稀疏、不规则。
图2 基于决策树原理得到的决策树
基于AdaBoost的强震动数据抗干扰算法识别结果如表4所示,其中弱学习器为CART决策树。抗干扰准确率总体与实际训练样本量的比例没有明显的关联:训练比例依次从10%到80%,该算法的识别准确率整体都在90%以上;识别结果与训练比例相关性不大,具有较强的鲁棒性与适应性。在数据量不确定或极大、极小的实际应用环境中,该算法都有一定的识别准确性保证,具有较好的实际应用价值。
表4 基于AdaBoost的强震动数据抗干扰算法识别结果
由图3、图4可知,采用80%训练比例的AdaBoost法进行异常数据识别时,算法不断通过学习强化自身,并在第14次循环训练后完成训练目标,即通过14次弱学习器的强化学习得到一个强学习器(图3),该学习器将Sym(波形对称度)作为决策特征参数,识别误差率为0,而波形对称性确实反映了天然地震动事件与人工干扰事件的波形特征差异,Sym较大时,天然地震动的可能性也较大,反之,人工干扰事件的可能性就较大。
图3 基于AdaBoost原理得到的最终决策树
图4 80%训练量的AdaBoost算法训练过程误差变化
本文采用AdaBoost技术、决策树学习器及集成机器学习理念设计一种新的强震动数据抗干扰算法,可有效识别、区分地震动事件与其它干扰事件,相对基于单纯决策树的强震仪抗干扰算法,识别准确度有了一定提高,算法稳健性更好,对强震仪的智能化发展与推广应用具有一定的积极意义。
致谢:感谢国家强震动台网中心、国家地震科学数据共享中心、中国地震局工程力学研究所提供了大量的强震记录和实验数据。