基于弱显著图的实时热红外图像行人检测

2021-08-06 02:29:56李传东徐望明伍世虔
红外技术 2021年7期
关键词:行人红外显著性

李传东,徐望明,3,伍世虔

(1.武汉科技大学信息科学与工程学院,湖北 武汉 430081;2.武汉科技大学机器人与智能系统研究院,湖北 武汉 430081;3.武汉科技大学教育部冶金自动化与检测技术工程研究中心,湖北 武汉 430081)

0 引言

自动行人检测技术被广泛应用于车载安全系统、视频监控系统等计算机视觉任务中。基于可见光图像的行人检测算法在光照不足、不均时效果较差,而基于热红外图像的行人检测算法因其热辐射成像原理受光照条件影响小,适合全天候工作,近年来得以广泛关注且成为研究热点。传统的热红外行人检测算法主要通过提取人工特征并结合分类器实现,如:刘峰等[1]提出了一种多特征级联方法,利用感兴趣区域长宽比特征和头部Haar 特征组成初级分类器,再通过HOG(Histogram of Oriented Gradient)与SVM(Support Vector Machine)结合的方式得到最终检测结果;Cai等[2]提出一种对显著图提取局部强度差异直方图特征并使用SVM 分类器得到行人检测结果;还有些方法通过提取感兴趣区域或热点图,将其转化为特征向量送入分类器进行判别[3-5]。这类传统方法由于依赖于特征设计,存在鲁棒性不强、准确率较低等缺点。随着深度学习的发展,使用深度卷积神经网络(Deep Convolutional Neural Network,DCNN)来解决行人检测问题成为当前主流方法。DCNN 能够自学习更可靠、表达能力更强的图像特征,使得行人检测方法泛化能力更强、检测精度更高,如李慕锴等[6]通过将YOLOv3 与SENet 两种深度网络进行结合,提高了检测精度。

不过,因夜晚环境与人体温度相差较大,包含行人的热红外图像会呈现较明显的人体边缘,有利于算法检测,而在温差较小的白天人体目标成像不够明显,会导致算法检测效果差。Liu 等[7]和Wagner 等[8]提出多光谱融合的行人检测方法,将可见光与热红外图像同时送入深度网络,利用两者优劣势互补提高了检测精度,但多光谱融合方法需要使用多个传感器,成本较高,且不同光谱图像很难完全对准。Ghose 等[9]以热红外图像作为深度网络输入,结合强显著图检测来缓解温差较小时行人与背景对比度低的问题,但显著图中出现漏检时,行人会被视作背景而忽略,且该方法使用复杂的显著性检测网络,以像素级标注作为显著图标签进行训练,费时较长。此外,上述方法中均采用了较为复杂的Faster R-CNN 或YOLO 系列网络,在实际应用中实现实时检测需要依赖昂贵的硬件资源。

针对以上问题,本文提出一种基于弱显著图的实时热红外行人检测方法,采用弱标注方式训练显著性检测网络,将显著性检测网络和目标检测网络产生的结果进行融合从而提高行人检测准确率;同时,本文方法以轻量级单目标检测网络LFFD[10]为基础进行改进,使之在硬件资源有限的情况下也能实时工作。

1 LFFD 网络简述

LFFD 是由He 等提出的一种实用轻量级单目标检测网络[10],最初针对人脸检测任务设计,但能方便地扩展到行人检测、头部检测、车辆检测等任务中。作为一种无锚框(Anchor-free)网络,LFFD 利用感受野作为天然锚框,特征图中的每个像素点都具有相对应大小的感受野,当前像素点的感受野大小就是锚框大小。文中提出浅层网络的有效感受野要比小目标尺度大,这样可充分利用周围特征对目标检测的贡献;由于深层网络的感受野较大,适合检测大目标,同时大目标本身有足够的特征信息辅助目标判别,因此有效感受野与目标比例无需太大。基于这些观点,通过精心设计感受野大小,可将锚框大小覆盖目标检测的各个尺度,同时能在一定程度上缓解小目标检测问题。LFFD 网络结构简单,便于在各个平台上部署,且运行速度较快。

本文方法使用的基础网络就是用来解决行人检测任务的LFFD,其结构如图1所示,包含由20 个卷积层C1~C20 组成的骨干网络(backbone),并包含4 个不同的输出分支(out branch),负责检测不同尺度大小的目标,高层网络具有较大的感受野,适合用来预测较大目标,因此输出目标的大小从out branch1到out branch4 依次递增。

图1 LFFD 网络结构图Fig.1 The net work str ucture of LFFD

LFFD 在速度与精度间有较好的平衡,运行速度快,但与复杂的深度学习网络相比提取的图像特征表达能力有限,影响了检测精度,因此本文方法使用两级改进的LFFD,增强网络提取特征的表达能力,在提高检测精度的同时保证实时性。

2 行人检测方法原理及实现

2.1 行人检测方法流程

本文提出的基于弱显著图的实时热红外图像行人检测方法的工作流程如图2所示,使用了两级改进的LFFD 网络。为便于表述,本文将原始LFFD 网络简称为ORI-LFFD(Original LFFD),其输入为热红外图像,输出为目标检测结果,包括位置信息、类别信息和置信度。两级LFFD 都是在ORI-LFFD 基础之上进行改进,前一级增加目标显著性检测功能,简称为SD-LFFD,其输入为热红外图像,输出为目标位置信息、类别信息和置信度以及弱显著图;后一级为融合上述弱显著图信息进行进一步检测的LFFD 网络,简称为SF-LFFD,其输入为弱显著图与原始热红外图像,输出为目标位置信息、类别信息和置信度。

图2 本文方法的工作流程Fig.2 Flowc hart of the pr oposed method

本文方法的工作流程可概括为3个步骤:

1)将原始热红外图像送入SD-LFFD 网络,产生初步行人检测结果,同时产生行人区域弱显著图。训练SD-LFFD网络时,只需将已标记的的行人区域作为显著性检测的标签,故易于实现。

2)将产生的弱显著图与原始热红外图像进行结合送入SF-LFFD 中再一次进行检测,产生新的行人检测结果。为保持LFFD网络输入通道数不变,本文输入的原始热红外图像是是RGB 格式,但3 个通道像素值相同(其实质为灰度图像),因此该步骤中取其中两通道与SD-LFFD 产生的弱显著图组成新的三通道图像,再送入SF-LFFD 中进行预测得到新的行人检测结果。该做法的优点在于能够“点亮”潜在行人区域,使神经网络能聚焦在可能的行人区域并抑制背景信息,从而凸显行人区域。

3)将两级改进的L FFD 网络即SD-LFFD和SF-LFFD 产生的行人检测结果融合得到最终结果,即行人的位置信息、类别信息和置信度。使用两级改进的L FFD 网络,相当于将ORI-LFFD网络结构加深,增强了网络信息处理和特征表达能力。

2.2 弱显著性检测网络S D-LFFD

SD-LFFD网络主要由两部分组成:①目标检测部分,与ORI-LFFD 结构相同,主要用来生成目标位置信息、类别信息和置信度;②目标显著性检测部分,在O RI-L FFD基础上进行改造,主要用来产生弱显著图,实现对热红外图像中行人区域的粗略增强。

为追求速度,本文方法不使用像素级强显著图检测方法[11],只简单地将网络多个输出层的特征图连接后输出即可。在深度网络中,从低层的特征层进行输出,纹理信息丰富,能较好地定位图像重要区域,但缺乏语义信息,难以准确区分行人和背景,会导致在热红外图像中的汽车、路灯等高亮区域也被输出为行人;而从高层的特征层进行输出,则正好相反。因此将尺度小、语义信息充足的高层特征和尺度大、缺乏语义信息的低层特征连接,实现了不同尺度特征的融合,可改善检测效果。具体做法是:在ORI-LFFD的网络结构中的C11、C14、C17和C20四个输出分支处插入卷积层和上采样层,将得到的特征图在通道维度上连接,经过一个1×1的卷积层改变通道数,最后经过sigmod激活函数进行输出,对输出的特征图利用双线性插值的方式进行缩放即可得到最终显著图。SD-LFFD中显著性检测网络结构图如图3所示。

图3 显著性检测网络结构Fig.3 The structureof saliency detection network

SD-LFFD的损失函数为:

式中:i表示第i个输出分支;j表示第j个像素点;S表示当前输出分支面积S=w×h。第1项是分类损失函数Lc,使用交叉熵损失函数,当第i个输出分支第j个像素点落入真实框中,则cij=1,否则cij=0;第2项是回归损失函数Lr,使用L2损失函数,tij表示的是当前像素点感受野对应的坐标位置与真实框坐标位置的相对位移;第3项是显著性检测部分的损失函数Ls,使用交叉熵损失函数,k表示第k个像素点,p表示显著图标签,行人区域pk=1,背景区域pk=0。

训练SD-LFFD网络时,显著图标注方式如图4所示,其中(a)为原图,(b)为标签。由于热红外行人检测的像素级标注数据集很少,标注过程繁琐、成本高,且本文方法无需高精度显著性检测结果,只需粗略的显著图便可达到突出行人潜在区域的目的,因此本文方法通过简化显著性检测网络结构和弱标注的方式来产生弱显著图,提高检测效率。

图4 显著图标签Fig.4 Saliency map label

由于SD-LFFD网络中显著性检测部分与目标检测部分的输出形式和对于特征图的利用方式不同,会导致二者对于行人区域的输出不一致。对于显著图中检测到行人区域而目标检测网络发生漏检时,可通过显著图与热红外图像结合,送入下一级LFFD网络即SF-LFFD再次检测,对其进行弥补;虽然本文方法仅使用弱显著图来突出行人,但SF-LFFD的输入图像中仍包含了两通道不变的热红外图像信息,故使用弱显著图相当于增强了原始红外图像中的行人区域,有利于SF-LFFD进行更准确地检测。对于目标检测网络检测到行人区域,而显著图中发生漏检时,行人作为背景被抑制导致SF-LFFD出现漏检,则可通过对SD-LFFD与SF-LFFD产生的行人检测结果进行融合实现弥补。

2.3 两级LFFD网络的检测结果融合

本文中将两级LFFD网络即SD-LFFD和SF-LFFD产生的行人检测结果进行融合,实现两种方法的互补,以得到更准确的结果。将SD-LFFD产生的置信度和位置信息分别表示为CSD-LFFD和BSD-LFFD,将SF-LFFD产生的置信度和位置信息分别表示为CSF-LFFD和BSF-LFFD,则最终输出的置信度和位置信息Cout和Bout为:

确定参数wCSD-LFFD,wCSF-LFFD,wBSD-LFFD,wBSF-LFFD时,由于SF-LFFD 的输入结合了SD-LFFD 产生的显著图和原始热红外图像,故SF-LFFD 的检测结果要优于SD-LFFD,从而可设置wSF-LFFD>wSD-LFFD,且wSF-LFFD+wSD-LFFD=1。本文基于上述原则尝试了多组值取得的效果后,取wCSD-LFFD=0.3,wCSF-LFFD=0.7,wBSD-LFFD=0.2,wBSF-LFFD=0.8。

3 实验研究

3.1 实验数据集及训练参数设置

为了验证本文方法的有效性,采用CVC-09[12]和CVC-14[13]两个典型的热红外图像行人数据集进行网络训练和测试。训练时将白天和夜晚的训练集合并,测试时将白天与夜晚的测试集分开,以便比较两种不同环境下的行人检测效果。两个数据集的样本分布如表1所示。为提升网络的鲁棒性,采用了随机裁剪、随机水平翻转等操作进行数据增强。

表1 CVC-09 和CVC-14 数据集的样本分布Table 1 The distribution of samples in CVC-09 and CVC-14

由于原CVC-09 数据集在训练集中将骑行的人标注成行人类别,但在测试集中却未进行标注,为了保持统一性,本文将CVC-09 测试集中骑行的人重新标注为行人类别,且所有实验都是在重新标注的数据集上进行的。

网络训练时,本文使用MXNet 框架,NVIDIA GTX 1080 GPU,CUDA 版本10.0,cuDNN 版本7.6.5,使用SGD 梯度下降法,初始学习率(learning rate)为0.1,动量(momentum)为0.9,批大小(batch size)为16。为避免正负样本严重不均衡,采用正负样本比例1:5 的方式限制负样本数量来进行反向传播,保证训练过程更快更稳定。整个训练过程迭代200000 次,学习率设置为动态调整,在第60000 和第120000 次迭代时将学习率降低90%。

3.2 实验结果及分析

1)行人检测准确率比较

本文使用P-R(Precision-Recall)曲线作为评价指标。P-R 曲线刻画了精确率(Precision)和召回率(Recall)之间的关系。精确率和召回率分别定义为:

式中:TP 为正样本被正确预测的数量;FP 为负样本被预测为正样本的数量;FN 为正样本被预测为负样本的数量。将所有样本按预测为正样本的置信度从大到小排序,根据设置的IoU 阈值(本文取0.5),计算Precision 和Recall 值,并以Recall 为横坐标、Precision 为纵坐标绘图即得到P-R 曲线。P-R 曲线下方面积即为平均精确率(Average Precision,AP),AP 值越高,效果越好。

本文行人检测实验结果的P-R 曲线如图5所示,比较了ORI-LFFD、SD-LFFD、SF-LFFD 以及本文方法(即SD-LFFD+SF-LFFD)得到的检测结果,其中图5(a)和(b)分别为CVC-09 数据集白天和夜晚的测试结果,图5(c)和(d)分别为CVC-14 数据集白天和夜晚的测试结果。 在 4 幅图中本文方法(即SD-LFFD+SF-LFFD)得到的P-R 曲线均优于其它3种独立网络(即ORI-LFFD、SD-LFFD 或SF-LFFD),可见本文方法对两级改进的LFFD 网络的行人检测结果进行融合能有效提升最终的行人检测精度。表2列出了不同网络行人检测的AP 值,其中Day、Night和Total 分别代表数据集中白天、夜晚和整体数据集3种测试场景。

图5 两个数据集上行人检测结果的P-R 曲线Fig.5 The P-R curves of pedestrian detection results on two datasets

表2 行人检测AP 值比较Table 2 AP comparison for pedestrian detection%

相比于原始LFFD 网络(即ORI-LFFD),本文方法(即SD-LFFD+SF-LFFD)在CVC-09 数据集上整体检测效果提升了近5%,在CVC-14 数据集上提升了近11%。由于白天人体与环境温差较夜晚要小,白天的检测效果往往要比夜晚差,在使用本文方法后白天和夜晚的检测精度都有提升,且对白天的提升更为明显,尤其在CVC-14 数据集上提高了近13%,因此本文方法能够在一定程度上缓解热红外图像在白天检测效果较差的问题。此外,SF-LFFD 的AP 值在不同的数据集和不同的测试场景中均要优于ORI-LFFD 和SD-LFFD,可以体现出本文方法中使用弱显著图对于提升SF-LFFD 网络的目标检测效果是有帮助的。

2)与典型轻量级检测网络的对比

进一步在相同条件下通过实验将本文改进的轻量级网络与典型的轻量级目标检测网络Tiny-YOLOv3[14]进行了对比,在上述两个数据库上的行人检测AP 值对比情况如图6所示。

图6 本文方法与Tiny-YOLO v3 方法的AP 值对比Fig.6 AP comparison between the proposed method and Tiny-YoLov3 method

可见,在CVC-09 数据集中,对于Day、Night和Total 不同的测试场景下,本文方法(SD-LFFD+SF-LFFD)的 AP 值均要高于 Tiny-YOLOv3;在CVC-14 数据集中,在Day 的测试场景下,本文方法AP 值稍低,但在Night 的测试场景中本文方法的AP值要高出约10%,在Total 的测试场景下本文方法表现更佳。由此可体现出本文方法在同等的轻量级目标检测网络中具有一定的精度优势。

3)行人检测速度测试及比较

测试阶段,本文使用MXNet 框架,NVIDIA GTX 960M 4G GPU,CUDA 版本9.0,cuDNN 版本7.4.1,输入图像分辨率为640×480。除测试本文方法外,还对Tiny-YOLOv3 进行速度测试,与本文方法进行对比,结果如表3所示。

表3 行人检测的速度对比Table 3 Speed comparison for pedestrian detection

可见,相较于 Tiny-YOLO v3,本文方法(SD-LFFD+SF-LFFD)用更小的模型取得了更快的速度,处理帧率约为31 fps,说明在硬件资源有限的情况下本文方法能实时工作,这得益于使用简单易实现的目标弱显著性检测算法和改进的轻量级LFFD 网络。

4 结束语

本文提出了一种基于弱显著图的实时热红外图像行人检测方法,主要贡献在于:①设计了一种针对行人的弱显著性检测网络结构,在产生行人检测结果的同时能够产生行人的弱显著图;②将检测到的弱显著图与原始热红外图像相结合,使得深度网络能更加关注行人潜在区域,从而改善在人体与背景温差较小的白天时热红外图像行人检测效果较差的问题;③对两级改进的LFFD 网络产生的行人检测结果进行融合,提升了算法整体的检测精度。实验结果表明,本文方法中使用弱显著图和两级改进的轻量级LFFD 网络进行行人检测,不仅有效提升了检测准确率,而且实现了在硬件资源有限的情况下的实时检测。

猜你喜欢
行人红外显著性
网红外卖
环球时报(2022-05-23)2022-05-23 11:28:37
闪亮的中国红外『芯』
金桥(2021年4期)2021-05-21 08:19:20
毒舌出没,行人避让
意林(2021年5期)2021-04-18 12:21:17
TS系列红外传感器在嵌入式控制系统中的应用
电子制作(2019年7期)2019-04-25 13:17:14
路不为寻找者而设
扬子江(2019年1期)2019-03-08 02:52:34
基于显著性权重融合的图像拼接算法
电子制作(2019年24期)2019-02-23 13:22:26
基于视觉显著性的视频差错掩盖算法
我是行人
一种基于显著性边缘的运动模糊图像复原方法
论商标固有显著性的认定
知识产权(2016年8期)2016-12-01 07:01:32