关 爽,殷海兵
(中国计量学院 信息工程学院,浙江 杭州 310018)
基于三维变换域频谱差的视频显著性检测算法
关 爽,殷海兵
(中国计量学院 信息工程学院,浙江 杭州 310018)
显著性区域检测是计算机视觉的重要课题,对视频质量评价和感知视频编码算法优化也至关重要。大多显著性检测算法不能权衡准确率和复杂度,限制了它们在视频预处理和实时处理中的应用。提出了一种基于三维变换域频谱差(3DTDSD)的快速视频显著性检测算法,分别以关键帧及其前一帧为中心建立一定数量图像帧的滑动窗,得到两组3D视频体,用傅里叶变换将两组视频变换到三维频域,两组三维数据之间的差值经过反变换得到显著性图,最后通过连通分析、阈值判断等得到显著区域。频域算法具有运算速度快的特点,实验对比和算法复杂度分析证明了该算法的有效性和快速性。
视频;显著性;三维变换;3D视频体
近年来显著性检测已受到广泛关注,它旨在发现人眼较为关注的区域、过滤掉不重要区域。显著性检测源于人类视觉系统,人眼总是关注图像或视频的特定区域,这是人类视觉系统的固有属性。显著性区域表示人眼关注位置,是评价感知视频质量的关键因素。采用这种HVS特性并将它应用在视频质量评价中可以极大地提升视频质量,并有助于感知视频编码算法优化[1]。由于显著性检测对许多视觉应用提供了一个快速预处理过程,所以它也是计算机视觉的一个重要课题。
已有图像显著性检测方法大多基于HVS特性,Itti和Koch[2]设计了一个模拟人类视觉搜索过程的模型,检测静态图像显著性区域,它也被扩展到视觉识别工作中。Hou和Zhang[3]提出了一种快速傅里叶谱残差的方法,该算法分析了原始信号与平滑图像在log谱上的差异,将差异值转化为空间域信号,最终得到图像的显著性图。
不同于单幅图像,视频具有很强的空时域相关性,视频显著性在于检测出不同于背景的显著运动区域。目前典型的视频显著性检测算法主要有:文献[4]在图像显著性检测的基础上加入运动信息,从亮度、颜色、方向和运动出发研究显著性;文献[5]使用稀疏光流估计帧间的运动信息,采用随机一致性算法检测不同物体的运动信息;文献[6]将视频体内X-T或Y-T平面看作二维矩阵S,分解成低秩部分和稀疏部分,并利用RPCA将其最小化,根据检测得到的X-T与Y-T平面的显著性结果,合并成最终的视频显著性图;文献[7]在帧序列构成的3D视频体空间内,利用谱残余的方法在X-T与Y-T平面分别计算显著性,通过自适应阈值判断,将X-T与Y-T的二值化表示合并成帧序列的显著性图。
视频由三维数据构成,包含大量信息,并带有场景切换和不同程度的背景运动等,所以对于视频来说,显著性检测算法越精确其复杂度也越高,快速的算法又不能保证检测准确率,因此,高效的视频显著性区域检测仍是一个难题。
虽然上述模型取得了不错的结果,但它们作为视频预处理方法不够快速有效。本文权衡准确率和复杂度,旨在找到一种准确快速的视频显著性检测方法。文献[3]的谱残差方法虽然快速,但它只考虑到图像空间域相关性,对于时域相关性强、场景复杂的视频序列并不适用;同时受到文献[7]在时间轴上组建视频体的启发,本文将结合视频空时域相关性在三维频域研究显著性算法。
对于视频序列的显著性,除了空域相关性,还要考虑到视频序列时域相关性以及视觉暂留效应的影响,本文通过建立时域滑动窗,在三维变换频域研究视频序列的显著性。
人眼的感兴趣点在一定的时间内保持不变[8]。计算关键测试帧(即当前测试帧,下文简称关键帧)t的显著性时,考虑到t之前的时间区间,认为t的前几帧与当前帧有很大相关性。文献[9]对关键测试帧t之后的时间区域做了研究,根据邻近重建帧的PSNR值得出结论:t帧和t之后时间区间内的帧与有很高的相关性。
图1 滑动窗示例
实验发现滑动窗的滑动步长也是一个影响显著性检测精确度和效率的关键参数。为了确定滑动窗的步长,假设A是整个21帧滑动窗中第N帧(N=1,2,…,21)的saliency图,B是该帧作为关键帧测试取得的saliency图,B-A表示两者之间的误差,以图2为例。经过大量测试统计可以发现从6~16帧之间,B-A的数量级都在10-16上,关键帧的前后各5帧内显著性检测丝毫不受影响,所以这11帧数据在变换后直接作为相应各帧的saliency图,最终确定滑动窗步长n=11帧,当第11帧作为关键帧时可以得到6~16帧的saliency图,接着滑动窗向后滑动11帧,到第22帧作为关键帧再得到17~27帧的saliency图,参见图1。
经过上述分析,确定了滑动窗长度和滑动步长,具体算法流程介绍如下,假设测试序列的宽度为W,高度为H。
1)选取时域3D视频体
选取关键测试帧t及其前后各10帧数据Data1(大小为W×H×21),同时取其前一帧t-1和其前后10帧数据Data2(大小为W×H×21),这些数据作为待处理的3D视频体[7]。
2)三维变换
对取得的数据Data1,Data2分别做n维傅里叶变换得到三维频谱μ(x,y,z)和ν(x,y,z)
μ(x,y,z)=FFTN(Data1(x,y,z))
由于理论水平未能达到实际应用的要求,大多数科研人员只能借助国外编写的一些仿真软件(如Adams、RecurDyn等软件)来解决设计、分析中的问题,而软件的使用需要具备一定的理论基础,欲达到熟练、深入的应用程度,则需要较高的理论水平。另外,借助仿真软件并不能解决所有实际应用中的问题,有时需要自行编写程序,如将程序写入不能安装大型软件的微芯片,这种情况对理论的要求更高。再者,从自主知识产权、国家科研知识储备以及教育系统学科建设等角度来看,掌握及传授此部分理论知识是必须的。
(1)
ν(x,y,z)=FFTN(Data2(x,y,z))
(2)
3)计算频谱差得显著性图
在变换域内计算两组三维数据的差值并做反变换,滤波后得显著性图。
(3)
Smap(x,y,z)=G*ξ(x,y,z)
(4)
式中:IFFTN表示n维逆傅里叶变换;ξ(x,y,z)是反变换之后得到三维视频体数据;G为三维高斯滤波器;Smap(x,y,z)表示滑动窗内21帧显著性图,这里选取关键帧及其前后各5帧(总共11帧)作为显著性图。
4)提取显著性区域
(5)
5)窗口时域滑动
做完上述检测后,滑动窗沿着视频播放方向顺延11帧,得到下一个21帧3D视频体继续检测,算法流程图如图3所示。
本文采用CRCNS数据库进行大量测试,数据库有100个测试序列涵盖各种类别的场景,包括室内场景、户外场景、电视片段和视频游戏等,该数据库标定了人眼的追踪位置。
图2 选取不同关键帧时saliency差异(截图)
图3 算法流程图
3DTDSD算法的检测结果见图4,由于页面限制,文章只给出beverly08测试序列第144~148帧。由图可知,显著区域和数据库标定的人眼追踪位置基本一致,表明检测到的区域有效。
图5是几种视频显著性检测方法的对比,从图中可以看出CIOFM模型[3]由于块分割的原因,只能检测出显著物体的一个大致轮廓,并且会受到背景信息的干扰;SR模型[4]虽然对图像显著性检测有很好的效果,但是由于没有考虑时域特征,不适用于视频显著性检测;PFT模型应用相邻图像相位信息检测显著性,基本能检测到显著的运动物体,但是当视频背景较复杂时,其检测准确性会降低。通过比较可看出本文3DTDSD算法模型准确性较高。
图4 3DTDSD算法检测到的显著性图及显著性区域
图5 视频显著性模型对比
表1给出了每种模型的计算复杂度对比。从CRCNS数据库的100个测试序列中,选取10个不同场景的序列进行测试,这里均用每种算法处理一帧视频图像的平均时间表示。由于本文3DTDSD算法可以一次性检测11帧视频连续帧的显著性区域,算法快速有效,并且通过几种模型复杂度的对比,可看出3DTDSD算法计算效率较高。
综合实验结果,3DTDSD算法提高了检测准确性,并且计算复杂度也明显降低,尤其对于复杂的视频内容。
表1 不同视频显著检测模型的计算复杂度对比
本文提出一种基于三维变换域频谱差(3DTDSD)的快速视频显著性检测算法,分别以关键帧及其前一帧为中心建立滑动窗得到两组3D视频体,根据傅里叶变换将两组视频体变换到三维频域,两组三维数据之间的差值经过反变换得到显著性图,最后通过连通分析、阈值判断等得到显著区域。该算法快速有效,两组视频体经过一次变换能得到11帧图像的显著性图。实验结果表明,本文算法提高了检测结果的准确性,并且计算复杂度也明显降低。
相对于人类视觉系统,本文算法也有一定的局限性,本算法适用于检测视频的运动区域,当视频序列中没有运动物体或场景有很大幅度晃动时,检测准确率就会有所降低,为此笔者也会继续研究,寻找解决方法。同时,视频显著性的应用十分广泛,笔者也将进一步研究显著性在视频质量评价中的应用。
[1]LU Zhongkang,LIN Weisi,YANG Xiaokang,et al.Modeling visual attention’s modulatory aftereffects on visual sensitivity and quality evaluation[J].IEEE Trans.Image Process,2005,14(11):1928-1942.
[2]ITTI L,KOCH C,NIEBUR E,et al.A model of saliency-based visual attention for rapid scene analysis[J].IEEE Trans.Pattern Analysis and Machine Intelligence,1998,20(11):1254-1259.
[3]HOU Xiaodi,ZHANG Liqing.Saliency detection:a spectral residual approach[C]//Proc.Computer Vision and Pattern Recognition,CVPR 2007.New York:IEEE Press,2007:1-8.
[4]ITTI L,DHAVALE N P,PIGIN F.Realistic avatar eye and head animation using a neurobiological model of visual attention[C]//Proc.48th Annual International Symposium on Optical Science and Technology.USA:SPIE Press,2003:64-78.
[5]ZHAI Y,SHAH M.Visual attention detection in video sequences using spatiotemporal cues[C]//Proc.14th Annual ACM International Conference on Multimedia.New York,USA:ACM Press,2006:815-824.
[6]XUE Yawen,GUO Xiaojie,CAO Xiaochun.Motion saliency detection using low-rank and sparse decomposition[C]//Proc.IEEE International Conference on Acoustics,Speechand Signal Processing,ICASSP,2012.Canada:IEEE Press,2012:1485-1488.
[7]CUI X,LIU Q,METAXAS D N.Temporal spectral residual:fast motion saliencydetection[C]//Proc.17th ACM international conference on Multimedia.[S.l.]: ACM Press,2009:617-620.
[8]ALEXANDRE N,OLIVIER L M,PATRICK L C,et al.Considering temporal variations of spatial visual distortion in video quality assessment [J].IEEE Journal of Selected Topics in Signal Processing,2009,3(2):253-264.
[9]谭晶晶,殷海兵.基于视频质量评价的时域失真测量[J].电视技术,2013,37(8):86-89.
Video Saliency Detection Algorithm Based on 3D Transform Domain Spectral Difference
GUAN Shuang,YIN Haibing
(CollegeofInformationEngineering,ChinaJiliangUniversity,Hangzhou310018,China)
Saliency region is very important for video quality assessment and the optimization of perception video coding algorithm,it is also an important issue in computer vision.However,the accuracy and complexity of most algorithmes are not uniform well, which limites their application in the video preprocessing and real-time processing.In this paper,a fast video saliency detection algorithm based on 3D transform domain spectral difference (3DTDSD)is proposed.Firstly,it takes the keyframe and its previous frame as the center,establishe a sliding window to get two sets of 3D video cube.Secondly,with a Fourier transform,the cubes are transformed into three-dimensional frequency domain.Thirdly,the difference between the two sets of three-dimensional data after inverse transform can get the saliency map.Finally,through the connectivity analysis and threshold judgement get the saliency region.The experimental results show that the algorithm improve the accuracy of the test results,and computational complexity is also significantly reduced.
video;saliency;3D transform;3D video cube
国家科技支撑计划项目(2013BAH54F04)
TN919.81
A
10.16280/j.videoe.2015.05.007
2014-08-28
【本文献信息】关爽,殷海兵.基于三维变换域频谱差的视频显著性检测算法[J].电视技术,2015,39(5).
关 爽(1989— ),女,硕士生,主研视频编码算法优化;
殷海兵(1974— ),教授,硕士生导师,主要研究方向为高清视频编码芯片算法定制和VLSI结构设计。
责任编辑:时 雯