基于双通道特征自适应融合的红外行为识别方法

2017-06-19 18:46:00高陈强杜银和
关键词:光流密集红外

吕 静,高陈强,杜银和,程 华

(1.重庆邮电大学 信号与信息处理重庆市重点实验室,重庆 400065, 2.中国舰船研究设计中心,武汉 430064)

基于双通道特征自适应融合的红外行为识别方法

吕 静1,高陈强1,杜银和1,程 华2

(1.重庆邮电大学 信号与信息处理重庆市重点实验室,重庆 400065, 2.中国舰船研究设计中心,武汉 430064)

针对现有行为识别算法在红外视频中表现不佳的问题,提出一种基于双通道特征自适应融合的红外行为识别算法。在该方法中,2个通道提取的特征分别是改进的密集轨迹特征和光流卷积神经网络特征。改进的密集轨迹特征是在原始密集轨迹特征中加入灰度值权重,强调红外视频的成像特征;光流卷积神经网络特征是在原始视频对应的光流图序列中提取的,该特征具有较强的全局描述能力。通过自适应融合模型将2个通道特征的概率输出进行自适应融合,得到最终识别结果。实验结果表明,在现有红外行为识别数据集上,该算法有效地提高了识别准确率。

行为识别;红外视频;双通道特征;自适应融合

0 引 言

近年来,视频中的行为识别成为计算机视觉领域的一项重要任务,视频中的行为识别对视频监控、视频信息检索、人机交互等工作都有十分重要的意义[1-2]。随着各种行为识别算法的不断提出,视频中的行为识别任务已取得了很大进展。

现有行为识别算法可大致分为基于人体模型的方法、基于全局特征的方法和基于局部特征的方法。一般都遵循特征提取、特征编码和分类器训练、分类的流程。由于局部描述子对不同图像的纹理信息、视觉形态和多个连续图像序列之间的运动信息等有较强的描述和区分能力,因此,基于局部特征的行为识别算法成为目前应用较广泛、效果较好的方法。常用的局部描述子有时空兴趣点特征[3](spatial-temporal interest point,STIP)、方向梯度直方图[4](histogram of oriented gradient,HOG)、密集轨迹特征[5](dense trajectory,DT)等。由于密集轨迹特征包含HOG,光流方向直方图(histograms of oriented optical flow,HOF),运动边界直方图(motion boundary histogram,MBH)等丰富的描述子信息,成为目前识别准确率较高的人工设计特征。

近年来,卷积神经网络(convolutional neural network,CNN)因其较强的容错、自学习和并行处理能力被广泛应用于图像分类、人脸识别、文档识别等领域。利用卷积神经网络提取的CNN特征用作图像、视频中的行为表达[6]也成为近年来的热门研究方向。卷积神经网络实现了对图片信息的深层次挖掘,有效地提取具有判别性的全局信息。目前已经提出的3D卷积神经网络[7]、深度卷积神经网络、双通道卷积神经网络[8]等模型中,效果最好的是一个由时间信息通道和空间信息通道构成的双通道卷积神经网络,在各个比较有挑战性的数据集上都取得了较好的实验结果。

虽然这些算法在可见光视频数据集上都取得了不错的效果,但是在红外行为识别方面的研究却很少。比较有代表性的红外行为识别方法有Ju等[9]提出的步态能量图,将运动人体的轮廓图序列在单张图像中表示出来;还有Jaki等[10]提出的红外视频中人类异常行为检测的方法,该方法采用监督式学习的方式对训练数据中不同可疑行为提取局部描述子,编码生成不同的模型。国内对红外行为识别的相关研究也非常少,近年来有一些通过改进的局部描述子进行红外行为识别的算法(如文献[11])出现,但总体来说,该领域研究起步较晚,发展缓慢。

然而在视频监控工作中,若遇到雨、雾等能见度较低的恶劣天气或者夜间情况下,可见光视频监控及其行为识别就失去了意义,但此时红外成像仪却能够正常工作。此外,红外成像还可以很好地避免可见光图像处理中由阴影、光照变化、目标与背景颜色一致等因素引起的干扰。因此,红外视频行为识别有着非常重要的研究意义和应用价值。

针对上述问题,本文提出一种基于双通道特征自适应融合的红外行为识别方法。在该方法中,我们在现有密集轨迹特征的基础上加入灰度值权重,突出红外图像中通过灰度值大小反映人体目标位置的特点;利用卷积神经网络提取图像中具有判别性的全局信息;再将改进的密集轨迹特征和深度学习特征进行决策层融合,用于红外行为识别。实验结果表明,本文提出的方法比现有描述子有更强的描述能力,能够较好地提高红外行为识别的准确率。

1 算法框架

本文提出的算法框架示意图如图1所示。2个通道提取的特征分别是改进的密集轨迹和光流卷积神经网络特征。在上支路通道中,改进的密集轨迹特征是在原始密集轨迹特征的基础上加入了灰度值权重,实验中直接对原始视频提取改进的密集轨迹特征,编码后输入到自适应融合模块;在下支路通道中,首先,对原始视频图像序列进行预处理得到对应光流图像序列,然后,利用卷积神经网络对光流图提取光流CNN特征。最后,通过自适应融合模块将2个通道的概率输出进行自适应融合,即给判别能力较强特征对应的概率输出分配较大的权重,给另外一种特征对应的概率输出分配较小的权重,从而得到最终识别结果。

图1 算法框架图Fig.1 Framework of proposed algorithm

1.1 改进的密集轨迹特征

DT最早是由Wang等[5]提出用于行为识别。提取行为密集轨迹时,首先,对整个视频序列进行光流场计算并密集采样每帧图像中的兴趣点;然后,在连续图像序列之间追踪兴趣点。第t帧图像中的兴趣点pt=(xt,yt)被密集光流场w=(ut,vt)中的中值滤波器追踪到第t+1帧中的位置由(1)式可得

(1)

在追踪过程中,连续两帧之间位移量很小和过大的像素点都被舍弃。同时,为防止由于长时间跟踪而产生跟踪点漂移现象,设置轨迹长度L=15。利用一系列位移矢量来描述轨迹形状:s=(Δpt,…,Δpt+L-1),其中,Δpt=(pt+1-pt)=(xt+1-xt,yt+1-yt)。最后经归一化的轨迹形状描述子为

(2)

对每条追踪到的轨迹,沿着轨迹将轨迹邻域划分成更小的子空间,然后对每个子空间构造轨迹描述子:HOG,HOF和MBH(MBH-x和MBH-y)。HOG特征主要描述视频块的表面特征;HOF特征则主要是对局部动作信息进行描述,统计的是视频的绝对运动信息;而MBH统计的是视频的相对运动信息。

和可见光成像不同,红外热成像是靠物体自身的热辐射成像。生成的灰度图通过灰度值的大小反映目标热辐射的大小,由于人体和环境的热辐射有较大的差异,因此,红外图像能够比较清晰地反映出人体目标的位置和轮廓。在人体发生运动时,相邻图像之间的像素位置发生变化。而光流法正是利用图像序列之间像素强度的时域变化和相关性来确定像素位置的“运动”。因此,我们可以对红外图像计算光流,得到对应光流场,从而在该光流场内进行兴趣点密集采样以及追踪。对同一场景下的红外和可见光图像分别进行光流计算,结果如图2所示。从图2中可以看出,对红外图像计算光流与可见光图像计算的结果非常相似。

图2 红外可见光图像对应光流图对比Fig.2 Comparison of optical flow of infrared and visible images

1.2 光流卷积神经网络特征

CNN能够直接从原始输入数据中自动学习区分能力较强的全局特征[12],和局部描述子有很好的互补性。因此,我们将代表细节信息的局部描述子和代表全局信息的CNN特征融合进行行为识别。

基于CNN特征的行为识别方法中,现有识别效果较好的是一个双通道卷积神经网络[8]。该网络由2个通道构成,空间信息通道主要提取图片纹理信息,时间信息通道主要提取图片中的运动信息。然而红外图像像素分辨率较低、对比度差,不能提供具有区分效力的纹理、颜色等信息。因此,在红外行为识别任务中,我们将代表运动信息的光流图片作为卷积神经网络的输入。光流CNN特征的提取过程如图3所示。

图3 光流卷积神经网络特征提取过程Fig.3 Feature extraction process of optical flow CNN feature

提取光流CNN特征时,首先,利用一种变分光流算法对原始视频图像序列提取光流信息,得到对应的光流图像序列[13],将光流图尺寸调整为227×227;然后,利用卷积神经网络对光流图提取CNN特征。本文采用的变分光流算法是文献[14]中提出的一种改进的变分光流算法。在亮度不变假设、梯度恒定假设和连续时空平滑约束条件下,改进能量泛函的数据项和平滑项,根据能量函数推导出其对应的Euler-Lagrange方程,再利用Gauss-Seidel或SOR方法求出光流矢量,得到对应光流图。和传统光流算法相比,该变分光流算法大大减少了计算量,并且有很高的精确度。提取特征使用的卷积神经网络是在UCF101数据集上训练的用于行为识别的运动网络[15],该网络由5个卷积层和3个全连接层构成,具体网络结构如表1所示。我们将光流图序列作为该网络的输入,取第2个全连接层的特征作为数据集的CNN特征表达,最终每个视频样本被表示成一个4 096维的特征向量。

表1 卷积神经网络模型结构

1.3 自适应融合模型

本文使用的自适应融合模型是利用决策层融合的思想,对2个通道的概率输出进行加权融合。该模型由2个分类网络wh和wc以及一个单节点逻辑函数wq构成。而分类网络由一个全连接层和一个softmax输出层构成。其结构图如图4所示。

原始数据的特征输入到分类网络之后即可得到对应分类概率输出。进行特征融合时,首先,将原始数据集划分为训练集和测试集,对训练集数据提取改进的密集轨迹特征和光流CNN特征,并对改进的密集轨迹特征进行Fisher Vector编码[16];然后,将编码后的改进密集轨迹特征和光流CNN特征分别输入到对应分类网络,训练过程如下。

1)初始化wh,wc和wq,参数随机取值;

2)利用误差反向传播算法(error back propagation,BP)更新wh和wc;

3)固定wh和wc,利用BP算法更新权重qi(wq);

4)迭代进行第2)和第3)步骤,直至损失函数收敛,得到最优权重。

训练得到最优权重后,将测试集数据特征输入到对应分类网络,并将最优权重应用于测试集数据概率输出的融合过程,得到测试集数据识别结果。

2 实验结果与分析

我们在红外行为识别数据集InfAR上测试了提出的方法。该数据集样本包括12个行为类型,如图5所示,分别是fight,handclapping,handshake,hug,jog,jump,push,punch,skip,walk,wave1和wave2。每个行为类型有30个视频样本,样本分辨率为293×256,帧率为25帧/s。样本复杂度适中,涵盖了有无遮挡、背景干扰以及不同视角(正面和侧面)的情况,具有较好的代表性。

现有研究工作[17]测试了各类局部描述子在该数据集上的识别效果,目前效果较好的局部描述子是密集轨迹描述子和代表运动信息的HOF描述子,识别准确率分别达到了68.15%和66.94%。

2.1 融合前的实验

在这部分实验中,我们利用支持向量机(support vector machine,SVM)的分类结果分别评估改进的密集轨迹特征和光流CNN特征的判别能力。

在实验中,我们还评估了SVM的不同核函数对实验结果的影响。核函数选取线性核时,损失函数-C的值设置为30;选用高斯核时,-C值取32,gamma函数值设置为0.000 97。为体现结果无偏性,取10次分类结果的平均值作为最后的识别准确率。

图5 InfAR 红外行为识别数据集的12个动作类型Fig.5 12 action types of the InfAR dataset

实验结果如表2所示。可以看出,改进后的密集轨迹特征确实比原始密集轨迹特征具有更好的识别性能,线性核分类器得到的识别准确率较改进前的原始密集轨迹特征提高了近2%,高斯核分类器得到的识别准确率较改进前的原始密集轨迹特征提高了近4%。这说明在原始密集轨迹特征中加入灰度值权重确实能更好地强调出灰度值较大的运动轨迹,突出连续图像序列间的运动信息。

对光流CNN特征,我们直接将提取的光流CNN特征输入到SVM分类器。选取线性核函数时的识别准确率是52.08%,而选取高斯核函数时的识别准确率只有38.16%。这是因为本文提取的特征向量维数远大于样本数目,这种情况下线性核的性能要比高斯核更好。另外,可以看出,该特征在实验中的识别准确率不高,这可能是因为我们使用的卷积神经网络模型是在UCF101数据集上训练的。该数据集中的样本都是可见光数据,训练网络模型时提取的特征在很大程度上依赖图像的纹理、颜色等信息,但实验使用的红外数据并不能提供这样的细节信息。

表2 实验结果对比

2.2 自适应融合实验

在这部分实验中,我们将CNN特征和编码后的改进密集轨迹特征作为自适应融合模型的输入,对分类网络的概率输出进行加权融合。

在自适应融合模型的训练过程中,每个行为类别取20个视频作为训练样本,10个视频作为测试样本。网络学习速率设置为0.005,权重衰减系数设置为0.000 5,每次处理20张图片,训练600轮。测试时,将测试样本特征分别输入到对应分类网络,通过优化后的权重比例对二者的概率输出进行加权融合。

融合后的实验结果如表3所示。其中,OF_CNN对应的识别准确率是直接对CNN特征进行线性核SVM分类的结果,Improved Dense对应的识别准确率是对改进密集轨迹特征进行FV编码后再进行线性核SVM的结果。

表3 自适应融合后的实验结果

从实验结果中可以看出,通过训练,自适应融合模型可以根据2种特征的判别能力给其概率输出分配不同的权重,有效地强化了判别能力较强的特征的分类结果,使得自适应融合后的识别结果比现有最高的识别准确率高出近5%。

2.3 算法运行时间评估

实验的硬件平台是一台Linux 操作系统的PC机,CPU:I7-5930k ,64 GByte内存;软件MATLAB版本是R2014b。

该算法中,较为耗时的部分是改进密集轨迹特征和光流CNN特征的提取过程。在这部分实验中,360个视频样本共59 719帧。我们测试了不同大小图片尺寸对实验耗时的影响,实验结果如表4和表5所示。

表4 改进密集轨迹特征提取用时实验结果

由表4可以看出,在提取改进的密集轨迹特征时,图像尺寸对实验耗时有较大的影响,这是因为适当缩小图像尺寸可以较大地减少兴趣点采集过程的工作量,有效提高处理速度。

表5 光流CNN特征提取用时实验结果

在光流CNN特征提取的过程中,对原始图像(293×256)计算光流用时16 140 s,对尺寸为227×227的图像计算光流用时10 591 s。CNN的输入光流图像大小为227×227,提取CNN特征用时2 674 s。对比表4和表5发现,在该过程中,调整图像大小并不能明显提高处理速度,这可能是因为图像中大部分运动的点都得以保留,对光流提取过程的影响较小。

在自适应融合实验中,训练数据为240个光流CNN特征样本和240个改进密集轨迹特征样本,训练模型用时40.5 min;测试过程中,测试数据为120个光流CNN特征样本和120个改进密集轨迹特征样本,用时约6 min。

综上所述,本文提出的算法在整体上尚未达到实时性的要求。但是在一些对实时性没有要求的应用场景,如视频检索、目标分类中,该算法仍能发挥较好的应用优势。

3 结束语

本文提出了一种基于双通道特征自适应融合的红外行为识别方法。该方法结合红外图像的特性改进了现有密集轨迹特征,采用决策层自适应融合的方式融合了改进后的密集轨迹特征和光流CNN特征用于红外行为识别。实验结果表明,自适应融合之后的识别结果比现有最好的识别结果高出近5%,即改进的密集轨迹特征确实比原始密集轨迹特征有更强的描述能力。在接下来的工作中,我们考虑对该卷积神经网络模型进行微调训练,调整网络结构和参数设置,进一步提高红外数据集上的行为识别准确率和识别速度。

[1] VISHWAKARMA S,AGRAWAL A.A survey on activity recognition and behavior understanding in video surveillance[J].The Visual Computer,2013,29(10):983-1009.

[2] 李瑞峰, 王亮亮, 王珂. 人体动作行为识别研究综述[J]. 模式识别与人工智能, 2014, 27(1): 35-48. LI Ruifeng, WANG Liangliang, WANG Ke, A Survey of Human Body Action Recognition[J]. Pattern Recognition and Artificial Intelligence, 2014,27(1):35-48.

[3] LAPTEV I.On space-time interest points[J].International Journal of Computer Vision,2005,64(2-3):107-123.[4] LAPTEV I, MARSZAEK M, SCHMID C, et al. Learning realistic human actions from movies[C] // 26th IEEE Conference on Computer Vision and Pattern Recognition. Anchorage, AK, United states: IEEE Computer Society, 2008: 1-8.

[6] WANG L, QIAO Y, TANG X. Action recognition with trajectory-pooled deep-convolutional descriptors[C]// IEEE Conference on Computer Vision and Pattern Recognition, CVPR 2015. Boston, MA, United states: IEEE Computer Society, 2015: 4305-4314.

[7] JI S, XU W, YANG M, et al. 3D convolutional neural networks for human action recognition[J]. Pattern Analysis and Machine Intelligence, IEEE Transactions on, 2013, 35(1): 221-231.

[8] SIMONYAN K, ZISSERMAN A. Two-stream convolutional networks for action recognition in videos[C]// 28th Annual Conference on Neural Information Processing Systems 2014, NIPS 2014. Montreal, QC, Canada: Neural information processing systems foundation, 2014: 568-576.[9] HAN J, BHANU B. Human activity recognition in thermal infrared imagery[C]//Computer Vision and Pattern Recognition-Workshops, 2005. CVPR Workshops. San Diego, CA, USA: IEEE Press, 2005: 17-17.

[10] HOSSEN J, JACOBS E, CHOWDHURY F K. Human suspicious activity recognition in thermal infrared video[C]//Infrared Sensors, Devices, and Applications IV. San Diego, California, United States: SPIE 9220, 2014, 9220(4):1-8.

[11] 邵延华,郭永彩,高潮.基于稠密轨迹特征的红外人体行为识别[J].光电子.激光,2015,26(4):758-763. SHAO Yanhua,GUO Yongcai,GAO Chao,Infrared human action recognition using dense trajectories-based feature[J].Journal of Optoelectronics Laser,2015,26(4):758-763.

[12] 郑胤,陈权崎,章毓晋.深度学习及其在目标和行为识别中的新进展[J].中国图象图形学报,2014,19(2):175-184. ZHENG Yin,CHEN Quanqi,ZHANG Yujin.Deep learning and its new progress in object and behavior recognition[J].Journal of image and graphics,2014,19(2):175-184.

[13] CHÉRON G, LAPTEV I, SCHMID C. P-CNN: pose-based CNN features for action recognition[C]// 2015 IEEE International Conference on Computer Vision (ICCV). Santiago: IEEE, 2015: 3218-3226.

[14] BROX T, BRUHN A, PAPENBERG N, et al. High accuracy optical flow estimation based on a theory for warping[C]//European conference on computer vision. Prague, Czech Republic: Springer Berlin Heidelberg, 2004: 25-36.

[15] GKIOXARI G, MALIK J. Finding action tubes[C]// IEEE Conference on Computer Vision and Pattern Recognition, CVPR 2015. Boston, MA, United states: IEEE Computer Society, 2015: 759-768.

[16] PERRONNIN F, SNCHEZ J, MENSINK T. Improving the fisher kernel for large-scale image classification[C]//European conference on computer vision. Berlin Heidelberg: Springer Berlin Heidelberg, 2010: 143-156.

[17] GAO C, DU Y, LIU J, et al. A New Dataset and Evaluation for Infrared Action Recognition[C]//CCF Chinese Conference on Computer Vision. Xi’an China: Springer Berlin Heidelberg, 2015: 302-312.

(编辑:刘 勇)

s:The National Natural Science Foundation of China (61571071,61102131); The Natural Science Foundation of Chongqing Science and Technology Commission (cstc2014jcyjA40048); The Wenfeng Innovation and Start-up Project of Chongqing University of Posts and Telecommunications (WF201404)

Infrared action recognition method based on adaptive fusion of dual channel features

LV Jing1, GAO Chenqiang1, DU Yinhe1, CHENG Hua2
(1.Chongqing Key Laboratory of Signal and Information Processing, Chongqing University of Posts and Telecommunications, Chongqing 400065, P.R. China; 2. China Ship Development and Design Center, Wuhan 430064, P.R. China)

According to the poor performance problem of existing action recognition algorithm in infrared videos, a novel infrared action recognition method based on adaptive fusion of dual channel features is proposed in this paper. In this method, the features of two channels are the improved dense trajectory feature and the convolutional neural network feature based on optical flow, respectively. The former is obtained through adding gray value weight into the original dense trajectory feature, which emphasizes the imaging characteristics of infrared videos. And the latter is achieved through applying the convolutional neural network to the optical flow sequence form the original videos, which has superior global description ability. Finally, the recognition result is achieved by fusing the probability outputs of two channels using an adaptive fusion model. Experimental results show that the proposed method has effectively improved the recognition accuracy of existing infrared action datasets.

action recognition; infrared video; dual channel feature; adaptive fusion

2016-04-08

2017-04-10 通讯作者:吕 静 1471978933@qq.com

国家自然科学基金(61571071,61102131);重庆市科委自然科学基金(cstc2014jcyjA40048);重庆邮电大学大学文峰创新创业项目(WF201404)

10.3979/j.issn.1673-825X.2017.03.017

TP391.4

A

1673-825X(2017)03-0389-07

吕 静(1991-),女,山东菏泽人,硕士研究生,主要研究方向为图像处理、行为识别。E-mail: lvjing0915@gmail.com。

高陈强(1981-),男,重庆市人,教授,博士,主要研究方向为图像处理、深度学习、行为识别。E-mail: gaocq@cqupt.edu.cn。

杜银和(1989-),男,安徽合肥人,硕士研究生,主要研究方向为行为识别、深度学习。E-mail:yinhedu@gmail.com。

程 华(1982-),男,湖北赤壁人,博士,主要研究方向为船舶电气和图像处理。E-mail: hchenghuab@163.com。

猜你喜欢
光流密集红外
利用掩膜和单应矩阵提高LK光流追踪效果
网红外卖
环球时报(2022-05-23)2022-05-23 11:28:37
耕地保护政策密集出台
今日农业(2021年9期)2021-11-26 07:41:24
密集恐惧症
英语文摘(2021年2期)2021-07-22 07:56:52
闪亮的中国红外『芯』
金桥(2021年4期)2021-05-21 08:19:20
TS系列红外传感器在嵌入式控制系统中的应用
电子制作(2019年7期)2019-04-25 13:17:14
基于物理学的改善粒子图像测速稳健光流方法研究
基于快速递推模糊2-划分熵图割的红外图像分割
欧盟等一大波家电新标准密集来袭
融合光流速度场与背景差分的自适应背景更新方法