李俊豪,杨宏晖
(西北工业大学航海学院,西安 710072)
在水下目标探测、识别的军事任务中,被动声纳系统具有较好的隐蔽性和灵活性。如何利用被动声纳获取的舰船辐射噪声进行水下目标探测与识别成为了亟需解决的问题。但由于各种舰船隐身技术的应用以及海洋环境的复杂多样,基于舰船辐射噪声的水下目标识别任务面临着巨大挑战。目前还是依靠训练有素的声纳员进行水下目标识别,但由于人的生理和心理因素的不稳定性,难以做到稳定的全天候水下目标探测与识别。
有研究者尝试使用传统的机器学习方法构建水下目标自动识别系统。这类传统的机器学习方法大致可以分为三个部分:特征提取[1]、特征选择[2]和分类器设计[3]。这些人工提取的特征过于依赖专家知识,且由于海洋环境复杂多变,这些特征的泛化性有待提升。人工设计的浅层分类器,如支持向量机(Support Vector Mechanism,SVM),在处理小批量数据时效率尚可,但随着处理的数据量增加,SVM的计算效率明显下滑,很难达到对大量数据的高效率判决。所以仅仅依赖传统机器学习的水下目标识别方法难以满足现有的识别任务需求。随着大数据时代来临以及深度学习的发展,基于大数据的深度学习框架在图像识别、语音识别、文本翻译等很多领域都取得了辉煌的成果,在一些特定任务上表现出不亚于人类的水平[4-5]。其中,卷积神经网络在处理具有二维网格结构的图像方面是最成功的[6-7]。并且,大部分神经网络模型一定程度上是将特征提取过程、特征选择过程和分类器判决融合为一体。已经训练好的模型在测试阶段的判决效率相比传统的机器学习方法有明显提升,更适用于对大量数据的高效判决。
本文从舰船辐射噪声时频图着手,在通用的卷积网络的基础上改变了特征提取的方式,有助于提取到具有一定物理意义的深度特征。在实验中观察不同频段特征对分类的贡献,并在验证集上对模型的识别性能进行验证。
卷积神经网络是一种专门处理具有类似网格结构数据的神经网络[6]。在前向传播时,在第l层卷积层中,第l-1层的一组特征图先与若干可训练的卷积核相卷积,再通过激活函数得到该层输出的特征图。通常可以表示为:
通过这样层层提取特征,随着网络深度的加深,越深层的卷积层可以观察到更加细致的图像结构,也具有更大的感受野。这样深度的特征往往也包含更多类别属性的信息[8-9]。
卷积神经网络在提取特征时具有很好的平移不变性,这得益于权值共享,即同一个卷积核在全局图像上滑动提取特征时权值是一定的。但对于一张二维的舰船辐射噪声时频图,让卷积核在两个维度(频率和时间维度)上都进行平移并共享权值并不利于提取到有物理意义的特征。这是因为当卷积核在频率维度上进行平移并参数共享时相当于打乱了本来具有物理意义的频率位置,提取到的特征难以和之前的频率点有所对应。
舰船辐射噪声时频图可以看作是舰船辐射噪声频率成分在时间轴上有规律的分布。本文改变二维卷积核可移动的方式,使其只在时间维度上进行移动和权值共享,如图1所示。通过这样的调整,网络中的卷积核可以提取到在时间轴上具有平移不变性的频率分布特征,即较稳定的线谱特征。舰船辐射噪声主要由螺旋桨噪声、机械噪声和空化噪声构成,螺旋桨噪声和机械噪声多表现为低频的复杂线谱[10]。当使用本文特殊设计的卷积神经网络时,可以提取到随着时间变化更加稳定的低频线谱特征及其分布规律。这对揭示与舰船类别属性相关的深层特征是有益的。
本文先使用在时间轴上滑动的一组卷积层对舰船辐射噪声时频图的每个频段分别提取谱特征,再对各个频段的谱特征进行联合,通过深度的全连接层进行深度特征的提取,最后使用softmax层进行目标类别的预测。
图1 时间维度滑动的二维卷积核Fig.1 Convolution kernels sliding along the time axis
本文中所采用的数据来自加拿大海洋观测网(Ocean Networks Canada Observation)。采集设备是位于北纬49.080811°,西经123.3390596°海平面以下144m的被动声呐。录音每段时长为5m/n,采样频率为32000Hz。结合船舶自动识别系统(Automatic Identification System,AIS)给每段录音添加类标。由于海洋中存在大量船只同时在一定海域内航行,舰船辐射噪声之间会存在不可避免的干扰。因此本文选择训练和验证网络的信号样本是当且仅当距水听器2km以内有单目标船只且3km以内没有其他船只干扰的情况下录取的。其中,以距水听器7km以内没有船只为标准,录取了海洋环境背景噪声。
训练数据以及验证数据共分为六类,分别是:海洋环境噪声、散装货船、集装箱货船、中型客船、油轮以及拖船。每类目标的训练数据以及验证数据详情如表1所示。本文对训练数据和验证数据做了严格的分割,即训练数据和验证数据中的任一同类目标具有完全不同的工况(不同的航次或者不同的船只)。
表1 数据说明Table 1 Data description
实验分为两个部分:第一部分是深度卷积神经网络对于水声信号特征提取结果的观察实验;第二部分是深度卷积神经网络深度特征聚类性能以及网络识别性能的评价实验。
在大量水声数据驱动下,深度卷积神经网络自适应地对舰船辐射噪声时频图中隐含的目标属性特征进行提取。在低频范围内舰船辐射噪声存在大量线谱特征,这些线谱可以反应出目标舰船的设备特点以及一定的工作状态。
对深度卷积神经网络的卷积核进行可视化,观察其提取到的特征。图2展示了对不同频段的时频图进行特征提取的卷积核可视化结果,从左到右卷积核的关注频率范围分别是:0~100Hz;100~200Hz;200~300Hz;300~400Hz;1200~1300Hz;1300~1400Hz;1400~1500Hz;1500~1600Hz。从图2中可以发现,一些关注低频区域的卷积核可以提取到低频线谱特征,而另一些关注高频区域的卷积核提取到的特征更加杂乱。这很可能是由于本身具有舰船类别属性的特征较集中的分布在低频范围内导致的。
图2 卷积核对不同频段谱特征的提取Fig.2 Extraction of different frequency scales by convolution kernels
本文在训练集中随机抽取每类500条数据作为样本点,通过t分布随机近邻嵌入算法(t-Distributed Stochastic Neighbor Embedding,t-SNE)[11]对深度卷积神经网络提取到的水声目标深度特征进行降维,得到二维特征点并可视化,如图3所示。 图中,a和b分别为0~100Hz频率范围以及1500~1600Hz的卷积核提取到的特征并通过t-SNE降维的可视化结果,可以发现,a中相同类别的舰船之间的聚类程度相比b中要更紧凑,但海洋环境噪声也混叠在其中;而b中海洋环境噪声与所有舰船类别的分离度更好,但舰船之间几乎完全混叠;c为联合了所有频段的卷积核的特征通过t-SNE降维的可视化结果;d为网络最深层特征通过t-SNE降维的可视化结果。c和d中的特征相比每个频段而言,明显具有更好的同类间聚集性。
表2中展示了验证集上实验结果的混淆矩阵,每一类验证样本被识别成各类的样本数如表中所示,第一列是真实的样本类标,第一行是被识别成的类别。表3中展示了各类验证数据的召回率、准确率和F1得分。其中,召回率指的是某类样本被正确识别成该类的样本数除以该类别总样本数,准确率指的是某类样本被正确识别成该类的样本数除以所有被识别成该类的样本数,F1得分是综合召回率和准确率共同得到的指数,用于评价网络的识别性能,具体计算方式如下:
其中,P是准确率,R是召回率。
图3 t-SNE散点图Fig.3 Results of t-SNE feature visualization
表2 实验结果混淆矩阵Table 2 The confusion matrix
结合表2和表3可知,海洋环境噪声的召回率和准确率最高,分别达到99.2%和97.5%,在各类舰船中识别结果最好的是中型客船,F1得分达到76.6%。散装货船、集装箱货船和油轮的总体识别结果较差,相互之间混叠比较严重,可能是由于同为货船大类的原因。
表3 网络识别性能评价Table 3 Evaluation of recognition performance
本文针对水声目标时频特性在通用卷积网络的基础上对卷积核特征提取方式进行了改进,使之能提取到具有一定物理意义的特征。通过降维可视化方法观察了深度网络提取到特征聚类性能,发现整合所有频段的最深层特征的聚类性能最优。并且在六类分类实验中验证集总识别率达到了75.1%,海洋环境噪声的识别率达到了99.2%。将深度学习技术用于水声目标识别是一个极具潜力的研究方向,但如何提高深度学习的可解释性是面临的挑战之一。本文从舰船辐射噪声时频特征的物理意义角度进行了一定的讨论和分析,一定程度上加强了深度网络提取到的特征可解释性。