基于多尺度特征融合的红外小目标检测方法

2021-08-06 02:30:02李传强陈亚珂卢颖慧

红外技术 2021年7期

王芳，李传强，伍博,，于坤，金婵，陈亚珂，卢颖慧

（1.河南师范大学电子与电气工程学院，河南新乡 453007；2.中国科学院界面物理技术重点实验室，上海 201800；3.河南省光电传感集成应用重点实验室，河南新乡 453007）

0 引言

红外小目标检测是空中目标检测与跟踪系统的关键技术，广泛应用于红外搜索跟踪系统[1]、红外预警[2]和红外监控等系统中。早期预测小目标的位置是至关重要的。然而，红外图像受到周围环境变化的影响很大，同时，红外图像中的目标成像距离较长，通常以点状的形式出现。它不能很好地表达目标的纹理、形状等各种信息。准确定位目标位置比较困难。因此，红外小目标检测受到了广大研究者的青睐。

传统的红外小目标检测算法主要通过以下几步实现检测：区域选择、特征提取和分类。这类算法通常有支持向量机[3]、视觉显著性检测[4]、图像分割[5]等方法。研究发现，红外小目标检测方法主要分为两大类：单帧检测[6]和多帧检测[7]。单帧检测主要是利用图像的空间信息来检测目标。如LCM（lowest common multiple）、数学形态学、中值滤波和小波变换滤波等。多帧检测主要是利用图像的空间信息和序列图像之间的差异来检测目标。如粒子滤波、匹配滤波和投影变换等。

传统的红外小目标检测方法对目标区域选择策略没有针对性，时间复杂度高，人工特征提取不能满足场景变化的多样化要求，鲁棒性也不是很好。由于检测精度低、复杂度高的缺点，与其他算法相比，我们发现卷积神经网络[8]（Convolutional Neural Networks，CNNs）具有效率高、实时性好等优点得到了广泛的应用，该方法简单有效。因此，CNNs 在特征提取方面有很大的优势。基于CNNs 的这些优点，人们开始利用CNNs 来研究红外小目标的检测。

当提到CNNs 时，首先想到的就是AlexNet 算法，它在2012年的ImageNet数据集分类任务[8]中取得了很大的成功。在接下来的几年里，CNNs 迅速兴起。利用CNNs 进行目标检测成为主流，随后出现了一些经典的网络结构，如VGG[9]、ResNet[10]、Google[11]等。

从目前CNNs 的发展来看，目标检测主要分为两大类：One-stage 目标检测算法和Two-stage 目标检测算法。其中经典的Two-stage 目标检测算法主要有：R-CNN[12]、Fast-RCNN[13]和Faster-RCNN[14]。这些算法首先使用传统的选择性搜索方法提取候选框，然后将候选框固定为统一大小输入CNNs 进行特征提取，然后使用分类器进行分类和定位。该方法虽然提高了检测能力，但由于在训练网络时区域选择和特征提取分离，导致训练复杂，也存在一定的局限性。

针对两阶段目标检测算法的不足，提出了One-stage 目标检测算法，如YOLO（You only look once）[15]、SSD（single shot multibox detector）[16]等。One-stage 目标检测算法主要利用了卷积神经网络的特点，直接输入图像，通过卷积和池化提取特征，再通过回归方法对特征进行分类和定位，大大提高了检测速度。此外，这些算法对小目标的检测能力不足。SSD 算法结合了Faster-RCNN 和YOLO，利用不同尺度特征图同时预测目标的类别和位置，更适合于不同大小目标的检测。由于SSD 算法的优点，研究人员更倾向于将SSD 算法与红外小目标相结合来实现红外小目标检测。

李慕锴[17]等人利用CNNs 学习红外图像的特征，抑制背景噪声，实现目标检测。于周吉[18]等人提出了一种基于深度CNNs 的单红外图像小目标检测方法，采用卷积和池化提取特征。Wang[19]等人提出将目标视为噪声，采用上采样和下采样的方法来实现小目标的检测。Redmon 和Farhad[20]使用YOLOv2 进行红外小目标检测，Jun[21]等提出了一种基于深度学习的非均匀灰度温度融合红外小目标检测方法。

通过以上分析，提出了一种多尺度特征融合的红外小目标检测方法。本文的研究重点总结如下：

1）提出了一种基于CNNs 和多尺度特征融合的端到端红外小目标检测模型。该模型由3 个部分组成：SP 模块、FFM 模块和特征提取。在特征提取部分，我们采用了SSD 算法的主干网络，FFM 模块部分主要由pathway layer 和sub-pixel convolution layer 组成。SP 模块主要通过梯度更新来学习不同通道之间的相关性。

2）我们提出了一种有效的FFM 模块，通过融合浅层和深层网络的特征图提取纹理信息和语义信息，并在每个融合的特征图后添加SP 模块。通过学习各个特征图通道的权重，可以自动对特征图通道进行权重分配，更准确地提取出目标的详细信息。

3）由于检测到的目标较小，经过多次下采样后，小目标可能会被噪声淹没。为了区分目标与噪音，并确保目标没有被淹没，我们使用 sub-pixel convolutional layer和pathway layer 来调整不同特征图之间的映射关系，而不是采用上采样和下采样的方法。

1 方法论

本文设计了MFSSD 算法，它是一种多尺度特征融合的红外小目标检测方法。首先将红外图像输入到VGG16 网络中，生成6 个不同尺度的特征图，通过对这6 个特征图进行特征融合，提出了FFM模块和SP 模块，利用生成新的6 个特征图进行目标的识别与定位。如图1所示。该模型结构具有精度高、速度快的特点。首先介绍subpixel convolution layer 和pathway layer，我们使用sub-pixel convolution layer 和pathway layer 代替上采样和下采样。然后详细介绍了FFM 模块和SP 模块。最后，将其与SSD算法相结合形成了一种多尺度红外小目标检测方法。

图1 MFSSD 算法网络结构图框架Fig.1 MFSSD network structure diagram

1.1 特征图调整方法

当主干网络生成不同大小的特征图之后，可能需要使用上采样或下采样来调整特征图的大小进行融合。一般情况下，通常采用上采样放大特征图，常用的插值方法有最近邻法、均值插值法、双线性插值法、中位数插值法等。通常采用下采样法进行图像缩放，主要以池化法为主，其中包括最大池化法和平均池化法。插值方法不能很好地表达图像的细节信息，采样效果也不理想。在下采样或上采样过程中，该方法不能通过梯度更新自动学习不同特征图的映射关系。

受文献[22-23]的启发，采用pathway layer 和sub-pixel convolution layer 来代替上采样和下采样。与之前的插值和池化方法相比，该方法主要通过重新排列像素来完成相应的过程。sub-pixel convolution layer是将低分辨率特征图作为输入，通过卷积核的多通道像素重组，得到高分辨率的特征图。它可以将低分辨率的特征图N*(C*r*r)*W*H转换成高分辨率的特征图N*C*(H*r)*(W*r)。在pathway layer 中，两个相邻的像素被放置在不同的通道中以实现下采样操作。可以将高分辨率的特征图N*C*(r*W)*(r*H)转化为低分辨率的特征图N*(C*r*r)*H*W，其中，N、C、W、H、r分别表示图像的个数、通道、宽度、高度以及上采样或下采样的倍数。该方法如图2所示。

图2 特征图调整过程Fig.2 Feature map adjustment process

1.2 FFM 模块

传统的SSD 算法通过卷积和池化生成不同大小的特征图，然后利用这些特征图直接对目标进行分类和定位。该方法通过检测多个不同大小的特征图像来提高检测的准确性，但检测的每个特征图像是相互独立的。由于每个特征图都包含独特的特征信息，因此没有很好地利用浅层语义信息和深层纹理信息。因此，设计了特征融合模块，提高了模型表达语义和纹理信息的能力，实现了不同特征图之间的融合。

SSD 算法采用多个特征图进行目标检测，每个特征图包含唯一的特征信息。高分辨率特征图清晰显示了大型目标的特征，适合于目标定位。低分辨率特征图包含更多的纹理信息，适合于目标分类。如图3所示，详细介绍了特征融合模块的结构，S1、S2、S3为骨干网直接输出的低分辨率到高分辨率的原始特征图，P2 为特征融合后的特征图。为了提高不同尺寸特征图对红外小目标的检测能力，首先，S1 使用sub-pixel convolution layer 通过像素重排从而获得S1_up，然后S3 使用pathway layer 通过像素重排从而获得S3_down，其中S1_up，S3_down 和S2 的大小是相同的，然后拼接S1_up、S3_down 和S2 的通道得到特征图C2；然后，利用1*1 卷积核，将特征图C2 中的通道数量缩减为与特征图S2 相同的一组通道，得到用于目标分类和定位的P2 特征图。该过程可以有效地在特征图中融合更多的语义和纹理信息。在整个过程中，sub-pixel convolutional layer 和pathway layer 可以通过梯度更新自动学习映射关系。然后使用卷积层对用于检测的特征图的通道进行调整，保持与融合前的特征图相同的通道数量。因此，该特征融合模块在检测红外小目标方面具有更强的优势。

图3 FFM 模块的网络结构图Fig.3 FFM module network structure diagram

1.3 SP 模块

经过特征融合后，模型结构可以将图像的语义信息和纹理信息融合到相应的特征图中。为了更好地增加模型对通道信息的关注。首先，通过卷积运算得到各个特征图通道的权值信息，自动提高有用信息的表达能力，抑制无用信息的表达能力。在特征融合后加入SP 模块，该模型结构可以通过特征图各通道的权值自动获取更适合红外小目标检测的特征信息。因此，整个SP 模块的详细情况如图4所示。计算过程如下：

图4 SP 模块网络结构图Fig.4 SP module network structure diagram

式中：Y0为特征融合模块后的特征图；A1是1*1*C/16的卷积核；X是全局平均池化层；δ为激活函数；A2是1*1*C的卷积核，N为上采样过程。

我们将SP 模块添加到每一个需要进行特征融合分类定位的特征图中。通过特征融合后的特征图定位目标时，不考虑各通道的特征信息。在SP 模块中，该模块的输入尺寸为W*H*C。输入特征映射首先进行平均池化，并压缩为1*1*C。然后，模型可以通过两个连接层（首先通过1*1*(C/16)的卷积核降维，然后反过来通过1*1*C的卷积核增加维数）。为每个特征通道生成一个权值，以提高特征图的每个通道之间的相关性。然后，为了保持与输入特征映射相同的大小，然后通过上采样操作获得特征图Y1。然后将Y1添加到Y0以改进原有特征图中的有用特征信息。最后，利用最终的输出结果对目标进行分类和定位。

2 数据集和实验设置

2.1 图像数据集

本实验采用了3 组红外图像序列，其中图像大小为256×256，每个序列的图像拍摄频率为100Hz。数据集图像信息汇总如表1所示。包括单一背景、多目标和复杂背景的红外图像。总共选取了1497 幅图像。随机选取1297 幅图像作为训练集，另外选取200 幅图像作为测试集。

表1 红外小目标数据集描述Table 1 Details of the infrared small target dataset

2.2 硬件配置

实验中使用了Intel Xeon E3-1220 V6 @3.00 GHz四核处理器，32G RAM 和Nvidia GTX2080 Ti。所有实验都是在PyTorch1.5.1、Python 3.7 和Window 7 平台上使用CUDA 10.2 进行的。MFSSD 算法是在Windows 7 环境下使用PyTorch 框架编写的。

2.3 训练参数

通过设置以下参数来训练MFSSD 算法，我们的输入图像大小统一固定为256×256，使用上述红外小目标数据集进行训练和测试。将batch 设为32，初始学习率设为0.0005，每次迭代50 次学习率减少10，迭代次数为200 次。然后，对原有的SSD 算法进行训练和测试，以渐进的方式进行训练和测试，最终得到MFSSD 算法的结果。所有算法的训练参数相同。

2.4 评价指标

我们主要通过精度、召回率、Map 和Fps 等参数对MFSSD 算法模型进行评价。目标检测算法中，当模型预测阳性样本为阳性样本时，我们通常称之为TP，FP 表示模型预测负样本为正样本时，TN 表示当模型预测负样本为负样本，FN 表示模型预测的负样本为负样本。因此，我们可以将precision 和recall 定义为：

式中：P被定义为所有检测结果实际预测阳性样本的百分比。

式中：R被定义为所有正样本中实际预测到的正样本的百分比。

3 结果分析

在本研究中，我们使用红外小目标数据集来评估算法。首先这5 个算法属于递进关系，我们在模型一SSD 算法上面进行改进，通过不断改进优化，最终发现模型五最好。这5 个模型的描述在表2中有介绍。体现了所提出的MFSSD 算法的优点。

表2 实验中的比较算法Table 2 The comparison algorithms in the experiment

3.1 训练结果分析

在训练中，我们采用了上面介绍的数据集，并且所有模型的训练参数保持一致，5 种模型的总损失变化如图5所示。我们发现随着迭代次数的增加，总损失值不断减小，显示了红外小目标模型的识别精度是在不断提高的。

图5 模型-1、2、3、4、5 网络的损耗函数曲线Fig.5 Loss functions curves of Model-1,2,3,4,5 networks

3.2 测试结果分析

通过比较不同的模型结构，发现MFSSD 算法在红外小目标检测方面具有很大的优势。如图6所示，我们从所有测试结果中选取了15 幅具有代表性的图像。

图6 模型-1、2、3、4、5 的测试结果Fig.6 Test results for Model-1, 2, 3, 4, 5

目前端到端目标检测算法主要有YOLO、SSD 等算法。该方法大大提高了目标检测的时间和精度。本文提出的MFSSD 算法主要利用SSD 算法的多尺度检测思想进行检测。因此，我们使用行序渐进法与模型1 进行比较。表3为不同模型结构试验的参数比较结果。结果表明，模型5 的平均检测精度可以达到87.5%。与模式1 相比，模式5 具有明显的优势。

表3 不同网络算法的性能比较Table 3 Comparison of algorithm performance of different networks

比较采用不同方式来调整特征图大小对模型检测精度的影响，我们首先使用插值法和最大池化法构建特征融合模块。我们发现，与模型1 相比，检测精度提高了3%。然后，在特征融合模块中调整特征地图的大小时，使用 sub-pixel convolution layer 和pathway layer。我们发现，与模型1 相比，检测精度提高了3.6%。对比模型2 和模型3，我们发现sub-pixel convolution layer 和pathway layer 的检测精度比插值方法和最大平均池化方法提高了0.7%。

通过对模型3 和模型5 的比较，我们可以清楚地看到SP 模块的有效性。SP 模块通过增加少量的计算量，自动提高有用信息的表达能力，抑制无用信息的表达能力。将SP 模块添加到现有的模型结构中会使平均检测精度增加1.6%。这一发现表明，SP 模块对于学习不同通道之间的特征信息是有用的。

最后，图7是模型1 和模型5 的准确率和召回率的折线图。如图7所示，当召回率低于0.2 时，两种算法的差异并不显著。然而，当查全率在0.2～1 之间时，模型5 在查准率和查全率上都有明显提高。

图7 红外小目标测试中的Recall 与precision 折线图Fig.7 Recall versus precision graph in infrared small target test

4 结论

本文提出了一种基于多尺度特征融合的红外小目标端到端检测模型（MFSSD）。该算法的主要网络来源于分类网络。由于检测的目标都是红外小目标，且目标检测与目标分类不同。我们首先将浅层和深层纹理信息整合到需要用于检测的特征图中，提高小目标检测的准确性。其次，使用sub-pixel convolution layer 和pathway layer 而不是用于上采样和下采样的网络来调整特征图的大小。最后，为了更有效地学习不同通道的特征信息，在融合后的特征图中加入SP模块，它可以为具有不同特征信息的特征图的每个通道分配相应大小的权值。实验结果表明，MFSSD 算法在红外小目标检测中的准确率高达87.8%。此外，MFSSD 算法对不同背景的目标具有很强的适应性，MFSSD 算法在准确率和召回率方面都远远优于SSD算法。