摘 要: 针对现有的运动分割和背景估计方法无法分割停止运动的对象、不适用于复杂动态场景等不足,首先提出一种基于动态纹理(DT)的背景⁃前景混合模型(FBM),实现动态场景下前景和背景的联合表示。FBM包括一组关于位置的DT成份和一组全局DT成份,前者用于模拟本地背景运动,后者用于模拟持续性的前景运动。其次,提出一种可学习FBM参数的EM算法及变分近似策略,使得FBM在不需要人工选择阈值和不需要单独训练视频的前提下,实现多种运动复杂场景下的前景运动分割,并检测出停止运动的对象。仿真实验结果表明,与当前最新的运动分割和背景估计方法相比,该方法可显著提升背景估计和运动分割的精度。
关键词: 运动分割; 背景估计; 动态纹理; EM算法; 阈值; 分割精度
中图分类号: TN911.73⁃34; TP391 文献标识码: A 文章编号: 1004⁃373X(2016)11⁃0063⁃07
Abstract: Since the available motion segmentation and background estimation method can′t segment the static object, and is unsuitable for complex dynamic scenes, a foreground⁃background hybrid model (FBM) based on dynamic texture (DT) is proposed to realize the union expression of background and foreground in dynamic scenes. The FBM is composed of a set DT components about location and a set global DT components. The former is used to simulate the local background motion, and the latter is used to simulate the persistent foreground motion. The EM algorithm for learning FBM parameters and variation approximation strategy are proposed, which can realize the foreground motion segmentation in various moving complex scenes and detect the static object while FBM needn′t threshold artificial selection and individually training video. The simulation experiment results show that, in comparison with the latest motion segmentation and background estimation method, the proposed method can significantly improve the accuracy of background estimation and motion segmentation.
Keywords: motion segmentation; background estimation; dynamic texture; EM algorithm; threshold; segmentation accuracy
0 引 言
将背景和前景分离是计算机视觉领域的一个重要步骤。如果背景在大部分时间内处于静止状态,则当前背景消减算法效果明显[1⁃2]。对于具有动态背景的场景(比如移动的树叶、水流或喷泉),可利用动态纹理(Dynamic Textures,DTs)表示背景运动区域[3],DTs是一种将视频看作来自线性动态系统一个样本的概率运动模型。为了实现背景和前景的分离,大部分算法需要人工设置一个背景得分阈值,场景不同,该阈值也会有显著差异[4]。此外,大部分算法还需要只包含背景的“干净”的训练视频等先验知识[5]。
动态纹理模型在动态场景中的微观和宏观运动模式聚类方面展示了一定潜力[6⁃7]。文献[8]利用多种DT纹理对视频块进行聚类,进而实现运动分割。然而,该算法存在的一个缺点就是它只基于运动,因此无法分割已经停止运动的对象。文献[9]中的人群分割方法将临时停止运动的行人看作背景,因此无法计算静止人体数量。为此,本文提出一种可以同时实现动态场景下运动分割和背景估计的联合背景⁃前景混合模型(FBM),与单独进行背景消减或运动分割的方法相比,FBM可提高复杂动态场景下前景和背景的分离精度。
1 相关工作
人们已经提出多种方法进行运动分割和背景估计,比如文献[5]利用自适应高斯混合模型对背景消减进行分析,提出一种基于局部图像邻域和全局一致性属性的运动分割和背景估计方法。该方法假设背景在短时间内相对静止,因此在动态性较高的场景下算法性能较差。文献[10]中的联合域⁃范围算法利用联合特征空间模拟每个像素的前景和背景,通过比较前景和背景得分实现背景消减。然而,该方法以颜色分布为基础,因此不适用于复杂动态场景,也无法实现多种运动的前景分割。
另外,文献[11]通过分离“显著”(前景)运动和背景运动实现背景消减。文献[12]通过背景的低秩表示将运动对象检测和背景学习集成到一个过程中,以适应全局变化。文献[13]提出一种自适应SG拓展模型及一种相应的在线学习算法,SG拓展模型中的DTs构成混合成份,而在线学习算法可解释场景随着时间而发生的变化。文献[14]提出一种基于局部PCA的DT算法,当前帧中的每一区域如果没有被PCA基有效模拟,则将其标识为前景。文献[15]利用DTs模拟整个视频帧,利用一个稳健的卡尔曼滤波器将DTs没有有效解释的像素标识为前景。以上方法提高了复杂运动的分割精度。然而它们无法直接用于背景消减。分割出来的每一块区域必须对应于一个独一无二的运动,因此混合运动(比如水流、树木)条件下的背景将被过分割。另外由于这些方法基于光流和参数模型,假设环境中各部位比较平坦,因此不适用于背景或前景具有复杂动态外观的场景。为了解决以上方法的不足,本文首先提出一种基于动态纹理的背景⁃前景混合模型(FBM),实现动态场景下前景和背景的联合表示。其次,提出一种可学习FBM参数的EM算法及变分近似策略。最后利用高难度动态场景数据集FBDynScn评估了FBM在背景消减和运动分割上的有效性。
2 本文方法
2.1 动态纹理
动态纹理可看作由包含观察变量和隐藏状态变量的随机过程构成;观察变量对时间时的视频帧外观进行编码,隐藏状态变量对视频在一段时间内的动态特征进行编码。通过线性动态系统(LDS)将状态和观察变量联系起来:
2.2 前景⁃背景混合模型
前景⁃背景混合模型(FBM)包含用于同时进行背景估计和运动分割的两组DT模型:一组关于位置的DT模型,用于模拟局部背景运动;一组与位置无关的DT模型,用于模拟前景中的全局一致运动。本文提出的前景⁃背景混合和联合估计算法见图1。
输入视频被分割为一组视频块(空间时间立方体)。利用带有MRF约束的EM算法来训练FBM,得到B个与位置相关的背景DT和K个全局前景DT。最后,前景和背景似然图进行比较,实现联合运动分割和背景估计。
视频被分割为一组互相重叠的视频块(个时间⁃空间立方体),沿着间隔均匀的网格提取出这些视频块。视频帧中共有个背景位置,每个位置在时域上共有个视频块。在FBM中,每个位置关联了一个与位置相关的背景DT成份而前景用个DT成份来模拟。本文用索引0来表示处的背景成份,用索引来表示前景成份。在FBM中,在位置处观察到的视频块是其背景DT和个全局前景DT混合之后的一个样本,即:。
2.3 用于参数估计的EM算法
3.3 概 述
在FBM中,基于MRF的EM算法见算法2。为了对前景和背景DT初始化,采用一种自适应阈值算法,由最小方差和运动似然概率阈值(和)选择视频块来学习初始的DT模型。初始化后,对所有视频块运行EM算法。在EM期间,假设前景DT只模拟带有运动的视频块(前景运动总是处于动态之中),而后景DT模拟运动和非运动视频块(背景可静可动)。EM算法收敛后,根据后验概率把每个视频块分配给最有可能的混合成份(要么背景,要么前景),进而生成分割结果。如果有些视频块在背景成份下的似然概率较低,则将这些视频块作为非运动视频块,据此检测出停止运动的对象。
4 实验和结果
4.1 数据集
为了评估FBM的性能,收集一个新的数据集FBDynSyn,该数据集难度较大,由7个视频组成,这些视频的背景复杂且具有多个前景对象(比如水面上的人体和船只,喷泉,树木),如图1所示。视频为灰度视频且尺寸不同,平均尺寸为160 × 304 × 316。利用前景对象和背景的真实分割结果为每个视频提供注解。另外,还利用文献[13]中难度最大的视频数据“Sailing02”测试了本文算法的性能。
4.2 实验配置
将每个视频分割为10 × 10 × 15且时域和空域重叠的数据块(步进量为5 × 5 × 10)。全局前景成份数量根据每个视频中的运动成份数量确定。设置时可获得类似的背景估计结果,此时将所有的前景运动划分为同一类型。对MRF模型,采用图2(b)中的邻域,且设置。为了分割视频,利用EM算法并结合视频来学习时的FBM(算法2)。对初始化步骤,设置最小方差阈值运动似然概率阈值。
将本文FBM与当前最新的背景消减和运动分割算法做比较。这些算法要么只能进行背景消减,要么只能进行运动分割,而本文算法可两种任务同时进行。对背景消减,与文献[17]中的自适应GMM算法做比较,该算法可自动选择成份数量。考虑基于DT且将视频块尺寸设置为7×7的算法[14](表示为DT),以及稳健型卡尔曼滤波器(RKF)[15](均设置)。利用文献[14]测试带有3个成份且性能最优的自适应背景DTM算法(表示为BDTM3)。还利用文献[13]中视频块尺寸为7×7且的PCA模型。同时测试文献[12]中的DECOLOR算法,该算法是近期提出的一种运动对象检测算法,与FBM一样支持批处理模式。最后,本文数据集并没有为每个场景提供一个单独的训练视频。
对运动分割,与包含个成份的DTM模型[8]做比较(额外成份用于背景运动)。引入相同的MRF约束作为FBM来对DTM模型进行拓展。还利用个成份来与文献[18]中的时域切换LDT做比较。其他参数设置与FBM相同。
为了衡量背景估计的精度,通过在背景得分图上扫描阈值(比如从FBM中的背景成份),并计算相对真实背景分割的正确率(TPR)和虚警率(FPR)来计算ROC曲线。利用ROC曲线下的面积(AUC)来衡量总体性能。采用文献[19]中的Rand索引(RI)来评估运动分割结果,以衡量真实结果和分割结果间的一致性比例。
4.3 背景估计的结果
表1比较了FBM和其他背景消减算法的AUC。FBM的平均AUC最高,为0.984,排名第二的算法BDTM3的AUC为0.954。请注意,BDTM3在每个位置采用了3个背景DT成份,而FBM在每个位置只采用了一个背景DT。即使如此,FBM通过模拟全局前景运动,提高了AUC水平。
4.4 运动分割的结果
表4给出了运动分割的Rand索引结果,图5给出了每个视频的分割示例,其中,前景分割用红色、绿色或紫蓝色表示,而背景分割没有上色。停止运动的对象用黄色表示。FBM的平均RI值为0.94,远优于LDT的0.76和DTM的0.51。DTM即使多采用一个DT成份也无法将复杂背景作为单一部分来模拟。相反,它会对背景过分割,将多个前景运动分到同一部分(比如船2人体2)。LDT对同质背景的场景具有优异性能(比如人体2树1)。然而,如果背景复杂且具有不同运动特征(比如喷泉2人体2),则LDT失效。相反,FBM可正确分割出背景复杂的不同前景运动。最后,FBM可成功分割出停止运动的对象(比如图5中停止运动的人体1),而DTM和LDT等单纯的运动分割算法无法分割出这些对象。
5 结 语
针对现有的运动分割和背景估计方法的不足,本文提出一种新的前景⁃背景混合模型,可进行联合运动分割和背景估计。另外,文中还提出了EM算法来估计FBM的参数,同时针对带有MRF约束的FBM提出一种变分后验概率。实验结果表明,与其他最新算法相比,利用FBM进行联合背景估计和前景分割可提升背景估计和运动分割的精度。如果利用视频对FBM进行训练,则可对任何新的视频帧实现在线背景估计和运动分割。下一步研究中,将考虑视频帧的在线更新,同时研究利用变分贝叶斯等方法实现成份数量的自动选择。
参考文献
[1] 赵谦,周勇,侯媛彬,等.一种自适应码书模型背景更新算法[J].电视技术,2013,37(3):186⁃190.
[2] HAINES T S F, XIANG T. Background subtraction with Dirichlet process mixture models [J]. IEEE transactions on pattern analysis and machine intelligence, 2014, 36(4): 670⁃683.
[3] KOLEINI M, AHMADZADEH M R, SADRI S. A new efficient method to characterize dynamic textures based on a two⁃phase texture and dynamism analysis [J]. Pattern recognition letters, 2014, 45(2): 217⁃225.
[4] SHU G, DEHGHAN A, SHAH M. Improving an object detector and extracting regions using superpixels [C]// Proceedings of 2013 IEEE Conference on Computer Vision and Pattern Re⁃cognition. Portland: IEEE, 2013: 3721⁃3727.
[5] KIM W, KIM C. Background subtraction for dynamic texture scenes using fuzzy color histograms [J]. IEEE signal processing letters, 2012, 19(3): 127⁃130.
[6] MUMTAZ A, COVIELLO E, LANCKRIET G R G, et al. Clustering dynamic textures with the hierarchical em algorithm for modeling video [J]. IEEE transactions on pattern analysis and machine intelligence, 2013, 35(7): 1606⁃1621.
[7] WANG S J, YAN W J, LI X, et al. Micro⁃expression recognition using dynamic textures on tensor independent color space [C]// Proceedings of 2014 22nd International Conference on Pattern Recognition. Stockholm, Sweden: IEEE, 2014: 4678⁃4683.
[8] CHAN A B, VASCONCELOS N. Modeling, clustering, and segmenting video with mixtures of dynamic textures [J]. IEEE transactions on pattern analysis and machine intelligence, 2008, 30(5): 909⁃926.
[9] CHAN A B, VASCONCELOS N. Counting people with low⁃level features and Bayesian regression [J]. IEEE transactions on image processing, 2012, 21(4): 2160⁃2177.
[10] LIN L, XU Y, LIANG X, et al. Complex background subtraction by pursuing dynamic spatio⁃temporal models [J]. IEEE transactions on image processing, 2014, 23(7): 3191⁃3202.
[11] TIAN Y L, SENIOR A, LU M. Robust and efficient foreground analysis in complex surveillance videos [J]. Machine vision and applications, 2012, 23(5): 967⁃983.
[12] ZHOU X, YANG C, YU W. Moving object detection by detecting contiguous outliers in the low⁃rank representation [J]. IEEE transactions on pattern analysis and machine intelligence, 2013, 35(3): 597⁃610.
[13] CHAN A B, MAHADEVAN V, VASCONCELOS N. Genera⁃lized Stauffer⁃Grimson background subtraction for dynamic scenes [J]. Machine vision and applications, 2011, 22(5): 751⁃766.
[14] BOUWMANS T, GONZÀLEZ J, SHAN C, et al. Special issue on background modeling for foreground detection in real⁃world dynamic scenes [J]. Machine vision and applications, 2013, 25(5): 1101⁃1103.
[15] ALI I, MILLE J, TOUGNE L. Space⁃time spectral model for object detection in dynamic textured background [J]. Pattern recognition letters, 2012, 33(13): 1710⁃1716.
[16] HO H J, PYNE S, LIN T I. Maximum likelihood inference for mixtures of skew student⁃t⁃normal distributions through practical EM⁃type algorithms [J]. Statistics and computing, 2012, 22(1): 287⁃299.
[17] ZIVKOVIC Z. Improved adaptive Gaussian mixture model for background subtraction [C]// Proceedings of the 17th International Conference on Pattern Recognition. Stockholm, Sweden: IEEE, 2014: 28⁃31.
[18] CHAN A B, VASCONCELOS N. Variational layered dynamic textures [C]// Proceedings of 2009 IEEE Conference on Computer Vision and Pattern Recognition. Miami, USA: IEEE, 2009: 1062⁃1069.
[19] ANDERSON D T, ROS M, KELLER J M, et al. Similarity measure for anomaly detection and comparing human beha⁃viors [J]. International journal of intelligent systems, 2012, 27(8): 733⁃756.