基于感兴趣区域的航拍视频压缩编码技术综述

2015-06-22 14:40:00周佳睦王海婴
电视技术 2015年5期
关键词:比特率感兴趣航拍

刘 欣,周佳睦,王海婴

(北京邮电大学 网络系统与网络文化重点实验室,北京 100876)

基于感兴趣区域的航拍视频压缩编码技术综述

刘 欣,周佳睦,王海婴

(北京邮电大学 网络系统与网络文化重点实验室,北京 100876)

航拍视频监控的应用日益广泛,而有限的信道容量和存储空间促进了新压缩技术的提出与发展,这其中,针对人眼的视觉特性,基于感兴趣区域的视频压缩编码技术发展迅速。全面分析总结了基于感兴趣区域的视频压缩编码技术在航拍视频编码中的应用。

感兴趣区域;分层编码;渐进传输

当前,航拍视频监控是一种有效的收集信息的方法,可以应用在军事行为、灾害管理以及商业等领域中。随着数字图像处理技术的发展,航拍视频数据量激增。为了解决日益增长的应用需求和有限的网络带宽之间的矛盾,大量的航拍视频开始通过计算机进行自动处理。

与其他视频监控技术不同,航拍视频可以覆盖较大范围的空间区域,尤其适合监控快速移动的目标。而在实际应用中,为了保证实时性,并不需要清晰地传输每一帧图像中的全部内容。航拍视频中的感兴趣区域(Region-of-Interest, ROI)通常是人工目标,如道路、建筑、房屋等,以及运动物体。在相同的带宽下,对人们关注的区域进行高质量的编码传输,而对背景区域进行低质量编码传输,得到的效果要好于对整帧画面统一编码传输的方法。

传统的视频编码核心技术大多是通过去除视频中的时间、空间和统计等冗余信息来实现数据压缩,这样并没有很好地利用人眼的主观感知特性。因此,为了更有效地存储和传输海量的视频数据,出现了基于人眼感知机制的压缩方法。

感知视频编码利用人眼的感知性质,在没有感到明显的质量下降的情况下,去除视频中的感知冗余。根据感知理论,人们通常将注意力集中在画面中感兴趣的区域,而不是整幅画面。根据这一特性,可以从视频中提取感兴趣的目标或区域,在编码时对其分配较多的比特数并优先传输,将其他区域视为背景,分配较少的比特数。这样,在带宽有限的情况下,可以保证重点区域优先编码和传输,并且在解码端可以对感兴趣区域优先解码。即使在码流被截断时,背景的解码受到影响,但感兴趣区域仍可以清晰呈现。对感兴趣区域和背景区域分别处理,既避免了计算资源浪费,又降低了分析难度。

1 视觉注意机制

在观察整个视觉场景时,人眼的注意力一次只集中在一个或者为数很少的几个区域上,这个过程被称为视觉注意(Visual Attention),注意力集中的区域被称为感兴趣区域。图1是典型的视觉注意机制示例,由于形状、颜色与周围形成鲜明反差,观察者会迅速地将注意力集中在图中深色的圆盘上。

视觉注意是人类视觉系统(Human Visual System,HVS)中一项重要心理调节机制,能够影响人们对各种不同刺激进行辨认和识记,并引导人们有选择地获取所关注目标的特征,从而降低信息处理量。认知心理学研究表明,人类处理视觉信息分为视感觉处理和视知觉处理两个阶段[1]。其中,视感觉以并行的方式接受外界的视觉刺激,视知觉以串行的方式解释视感觉信息的意义。由于外界存在各种不同视觉刺激,视感觉提供的信息量远远大于视知觉阶段的处理能力。同时这些视觉信息中仅有一部分对人类认知活动起重要意义,没有必要对所有信息进行处理。因此,HVS需要利用视觉注意机制对大量视觉信息进行筛选,降低信息处理量,才能实现视感觉和视知觉这两个阶段的匹配,使人类可以快速地处理视觉信息,并及时作出反应。

图1 视觉注意机制示意图

视觉注意的一般表现形式是眼动(Eye Movement),根据是否伴随眼动,可以将视觉注意分为显式选择性注意(Overt Attention)和隐式选择性注意(Covert Attention)。由于人眼具有中央凹特性,即视网膜中心部分的分辨率远高于周围部分[2],人类注意力转移的时候通常带有明显的人眼注视焦点的转移,这便是显式选择性注意。而隐式选择性注意则是指不伴随注视焦点转移的注意力转移,例如人在正视前方的时候仍然可以注意到两侧运动的物体。目前针对这两种注意形式的注意力转移都有相关的研究工作[3],其中通过捕捉人眼运动来提取显式注意感兴趣区域的方法最为直观、快速、准确。另有研究[4]表明,虽然选择性注意分为显性和隐性两种,但人眼注视点移动到新的位置必然会使注意焦点也随之移动,因此基于眼动捕捉的方法总能反映人眼的视觉注意焦点。

根据在视觉活动中所处的阶段,视觉注意通常分为自下而上(bottom- up)和自上而下(top-down)两种基本类型[3]。自下而上的视觉注意由数据驱动,发生在视觉活动的初期阶段,基于输入视觉刺激信号的初级特征(如颜色、方向、亮度)建立,不受特定认知任务对视觉注意的影响。图1体现的正是自下而上的视觉注意,在没有任务指导的情况下,由于形状、颜色特征与周围区域有显著不用,人眼将注意力集中在两张图中深色的圆盘上。自上而下的视觉注意与人的主观意识、记忆以及当前任务等有关,发生在视觉活动的后期,如在自然状态下,画面中人脸区域通常是感兴趣区域,在监控视频中,与任务相关区域是感兴趣区域。

航拍视频中,由于一般是远景画面,画面中数据量巨大,同时有大量树木、建筑等结构复杂的纹理图案,单纯数据驱动的方法不能起到很好的效果。同时,航拍视频中人们感兴趣的区域往往是一些特定目标,如运动物体、机场、跑道、桥梁等,利用这些先验知识,采用任务驱动的注意模型,根据目标特征的检测提取感兴趣区域更适合于航拍应用。

2 感兴趣区域提取方法

基于ROI的视频编码将视频场景分成感兴趣区域和非感兴趣区域分别进行处理,利用HVS更合理地分配比特资源和计算资源,可以有效去除感知冗余,提高编码效率。

如何提取出符合HVS感知结果的感兴趣区域是ROI视频编码技术的一个关键问题。现在应用较广的感兴趣区域提取方法可以分为手动设置、数据驱动提取、任务驱动提取。手动设置的方法适用于对准确度要求高的场景,但高度依赖于人工。数据驱动和任务驱动的方法分别利用了第1节介绍的自下而上和自上而下的2种视觉注意机制,通过建立视觉模型,自动提取感兴趣区域。这3种方法的原理、特点和适用场景各有不同,本章将结合应用对它们分别进行介绍。

2.1 手动设置

手动设置,即用户通过鼠标、触屏或眼动仪(Eye movement tracker)[5]等输入设备人工地从视频中提取感兴趣区域。图2是手动设置的示意图,图中矩形区域为用户手动选取的ROI。这种方法直接根据用户的需要设置ROI,因为少了ROI自动提取的处理,而具有提取速度快的优点。此外,在一些对准确度要求高的场景中,自动的方法往往不能满足要求,需要用户进行手动ROI设置。如医疗系统中,ROI自动提取若出现错误可能会导致关键部位的影像不清晰,严重影响诊治结果,而利用手动方法,可以避免这种风险。文献[6]提出了一种基于WiMAX无线网络的医疗视频传送系统,在传输过程中系统对用户手动设置的感兴趣区域采用高级别的安全机制,以保证对关键部位影像能够正确传输。在带宽受限的实时应用中,利用手动设置方法提取ROI还可以提高系统的交互性。如在实时航拍视频中,接收端用户随时可以根据需要手动选择ROI,编码端则根据新的ROI划分,重新分配资源,使用户可以看到所选目标的细节信息,实现与用户的交互。

图2 手动设置感兴趣区域示意图

目前,手动设置的方法还存在一定不足。首先,手动提取ROI依靠人工,进行操作的用户一般需要有相关的知识技能,才能完成任务。此外,手动方法对硬件设备要求较高,不仅需要有输入设备及相关设备来处理用户的输入操作,还需要占用一定带宽传送控制指令。另一方面,ROI的设置与编码器重新编码之间总存在着传输时延和处理时延[7],而由于带宽和编码器性能的限制,这些延时难以忽略,如果感兴趣区域变化过快,用户将无法接收到符合要求的视频画面。为了减小时延,编码器可以对用户设置的ROI进行预测,使编码器可以根据预测结果提前进行编码。

由于依靠人工,且对设备要求高,手动方法难以大规模应用,但在航拍视频场景中,凭借准确度高、交互性好的优点,仍有广阔前景。

2.2 数据驱动提取ROI

数据驱动模型基于自下而上的视觉注意机制建立,主要研究画面中的初级特征(如颜色、方向、亮度)对人眼视觉注意的影响,与认知任务无关。在现有的视觉注意模型中,Itti等[8]提出的基于显著图的模型(以下简称“Itti模型”)最具有代表性。如图3所示,显著图描述了画面各部分的显著程度,显著程度高的区域设定为ROI。显著图是一张灰度图,亮度越高,显著度越高。圆圈是以显著度最高点为中心的圆,将它所在的区域设定为感兴趣区域。

图3 Itti模型提取显著图示例

根据HVS对视觉信号的处理机制,Itti模型利用高斯滤波器、Gabor滤波器得到图像在多个尺度上颜色、亮度和方向的显著图,然后通过中央-周边算子(center-surround)以及线性相加的方式,将不同尺度不同特征的特征图合为一张显著图。得到显著图后,Itti模型采用WTA(Winner-Take-All)神经网络与返回抑制机制从显著图中获得注意焦点(Focus of Attention, FOA),最后将以FOA为中心、半径固定的圆所在的区域设定为感兴趣区域。大量实验[9]表明没有上层任务指导,完全根据图像中各区域的显著程度进行视觉焦点转移的情况下,Itti模型基本可以搜索出各个注意区域。

在不同应用场景中,视频画面特性可能有非常大的差别,如何根据实际应用更有效地得到显著图,并提取ROI是目前的研究热点。一种应用于红外图像的ROI提取方法[10]针对红外图像分辨率、信噪比和对比度较低,且为灰度图的特点,对Itti模型进行了改进,使用小波变换替代高斯滤波生成多尺度图像,利用交替式有效子窗口搜索A-ESS替代WTA神经网络来获得FOA。Zhai等人[11]将视频场景时域上的运动特征引入,在快速运动场景和慢速运动场景下均提取出了正确的感兴趣区域。

现有的数据驱动模型对于内容比较简单的自然图像可以很好地提取出ROI,但是对于航拍视频却难以获得理想的检测结果。这是因为航拍视频内容复杂、信息量大、纹理信息丰富,而数据驱动模型在计算显著程度时通常依靠局部信息,没有充分考虑全局信息[12];除此之外,航拍图像的应用背景通常比较特殊,所以数据驱动、独立于任务的ROI检测算法在应用于航拍图像时存在一定的局限性。

2.3 任务驱动提取ROI

任务驱动模型基于自上而下的视觉注意机制建立,与观察者已有的经验、心理模型以及所处的任务等因素有关。由于涉及记忆、控制等模块的分工协作,甚至包含解释感觉信息等十分复杂的过程,人们难以得到通用的任务驱动模型,但在实际应用中,针对某一任务,利用其先验知识,可以有效地提取ROI。例如,在人物视频中,由于人脸区域通常是感兴趣区域,使用人脸检测算法引入人脸对视觉注意的影响可以大幅提高ROI提取的准确程度。

如前所述,航拍视频具有内容复杂、信息量大、纹理信息丰富等特点,因此单纯的基于数据驱动的建模方法难以得到理想的ROI,但由于航拍视频应用背景特殊,具有充足的先验知识,因此很适合利用任务驱动模型提取ROI。下面针对航拍视频中不同检测目标介绍目前常用的算法。

建筑物是城市区域的重要标志,检测结果可用于城市规划、智能驾驶等民用领域,以及军事目标识别、打击等军事领域。在高分辨率图像上,建筑物目标一般结构复杂、形状多样,且所处环境复杂、干扰较大。一类方法是边缘驱动或区域驱动算法[13],关注像素或区域的部分特征,具有简单高效的优点。此类方法对建筑物边缘进行折线逼近和感知编组,对于平顶直角建筑物的提取准确率高、鲁棒性好;采用预定义形状和大小的滑动窗模型提取建筑物等。另一类方法是基于对象分析图像进行信息提取[14],如通过Boosting算法训练分类器,根据选取的样本特征学习提取目标;采用对手惩罚竞争学习方法分割图像,并选择基于空间包络模式的支持向量机进行分类,最后通过结构特征确定建筑目标。

机场跑道的识别对于飞机起降等过程十分重要。由于机场跑道具有一些普遍特征,即自身灰度比较平稳,且呈长方形,所以此类检测问题可以转化为检测直线。最为经典的直线检测算法即为霍夫变换,它对噪声不敏感,但是计算复杂度高,实时性差。针对霍夫变换的改进方法有基于图像空间多尺度划分的霍夫变换方法[15],可以检测出边缘较短的线段,再通过线段连接,得到完整的跑道边缘。另一种常用的方法为链码跟踪法[16],其计算量小,但对噪声敏感。将改进的链码跟踪与分层霍夫变换相结合,既可以精确地检测出目标,又可以大大提高运算速度,该方法可以进行实时高精度检测,并且对于遮挡干扰、模糊干扰都具有良好的抵抗性。

城市道路的识别对于地图、导航等十分必要,由于城市道路通常处于密集建筑物群和其他地物中,背景复杂。因此自动提取的方法,如基于边缘、基于平行线对、基于二值化和知识提取的方法,得到的信息过多,不适合实际应用。文献[17]提出了基于统计-几何模型的方法,根据道路的形状和灰度特征建立几何模型,并根据概率分配得到检测结果,该方法具有较高的稳定性。文献[18]提出的基于动态规划的提取方法,先从低分辨率图像中建立道路的特征模型,再通过改进代价函数在较高分辨率图像中提取道路区域。结合LiDAR点云数据,可以降低算法对单一数据源的依赖性。

桥梁对于运输、军事打击等具有重要意义。根据桥梁是架设在水面上,以及桥梁和水域各自的灰度特征和几何性质存在很大差异的特点,可以建立典型场景模型进行匹配。模型驱动的方法计算量小、实时性好,但是建立模型需要大量的图像以取得先验知识,使得其应用具有局限性。由于不同场景的桥梁类型不同,具体特征也存在较大差异。有很多方法选择了检测河流区域,然后通过河流和桥梁的位置关系计算得出桥梁所在区域[19]。根据桥梁的灰度范围和灰度梯度与河流存在明显反差,首先建立河流特征模型,并通过形态学等方法处理提取河流,然后即可通过河流走向及水域间距离搜索得到图像中的桥梁位置。考虑到一些图像中桥梁和水面、陆地的灰度并不十分明显,文献[20]还提出了通过水面纹理特征分割水域的方法,该方法能够有效识别近景、远景和低对比度航拍图像中的桥梁区域,定位精度较高。

现有的检测运动目标的方法,大多数都是针对静止背景,或背景变化较小的场景,通常可以采用简单的帧差法进行运动目标的提取。但是在航拍图像中,随着拍摄的进行,镜头在不断运动,背景也存在着不规则的运动。随着背景运动补偿技术的发展,运动背景下的目标定位成为了可能。现有的方法通常为,先得到背景的仿射模型参数,以进行运动背景补偿,再使用基于运动向量聚类的方法定位运动目标。为得到背景的模型参数,可以利用稀疏采样块的方法,具体如局部补偿误差函数泰勒展开算法或Huber函数估计方法,以及利用图像特征点的方法,如最小亮度变化算法、圆形模板和多格算法等[21]。

3 基于感兴趣区域的编码技术

基于ROI的编码技术,通常采用分级压缩/解压缩的图像编码方式,对非感兴趣区域采用较高的压缩比,而对感兴趣的目标区域采用较低的压缩比,从而大幅减少了数据的实时传输量,同时对目标识别有很好的效果。图4对比了航拍视频中,采用相同比特率,普通编码与ROI编码的同一帧图像。基于ROI的编码技术(图4b)将桥梁设为感兴趣区域,给该区域(方框内)分配更多的比特资源,使其失真变小;非感兴趣区域(如圆圈内)的比特资源变少,其失真较普通编码更大。由于在实际应用中,感兴趣区域的失真程度往往决定着视频编码的质量,因而基于ROI的编码有着更高的应用价值。

图4 相同比特率下普通编码与基于ROI编码对比

目前常用的基于ROI的编码方法有编码预处理、可变比特率编码、恒定比特率编码和分层编码。编码预处理在编码前即对视频进行处理,可以用于不同类型的编码器。可变比特率编码和恒定比特率编码分别控制视频的输出质量和比特率在较小范围内波动。分层编码则是考虑到信道的特性,根据给定的比特率,得到最优质量的视频编码。

3.1 编码预处理

编码预处理是指在编码前对视频序列进行预处理,减少非感兴趣区域的细节信息,同时保留感兴趣区域信息。由于非ROI的细节信息变少,编码器可以用更少的比特对这部分进行编码,而编码后ROI的质量与原画质相近,利用HVS的视觉注意机制,实现了基于感兴趣区域的编码。

编码预处理通常利用空间模糊来减少细节信息。对画面中某一区域进行模糊处理的强度与该区域的感兴趣程度相反,感兴趣程度越高,模糊强度越低。一种最简单的预处理方法就是将视频画面分为前景和背景,只对背景区域进行模糊处理,但这样会使前景和背景之间产生明显的边界现象。为了解决边界问题,Itti[2]采用了变化连续的模糊处理,与感兴趣区域距离越远,模糊强度越高。除了空间模糊,编码预处理还可以通过时域处理实现[22]。编码器在编码时会利用视频的时域冗余度进行压缩,即将画面中的点用同一位置的不同帧像素的残差表示。对视频序列进行时域的“模糊”,可以减小残差,使编码器用更少的比特对视频进行编码。

由于是在编码前对视频进行处理,编码预处理不需要改变编码器结构,就能与任何编码器结合进行基于感兴趣区域的编码,十分易于实现。同时,由于很多编码器都是以“块”为单位进行编码,通过修改编码器实现的ROI编码方法容易引起明显的块效应,利用编码预处理技术可以有效避免这一问题。

编码预处理将质量控制与编码分离,虽然便于与不同编码器结合,但也导致其在与具体编码器结合时,无法充分发挥编码器性能,存在效率低下的问题。

3.2 可变比特率编码

可变比特率编码是指输出码率可变的编码,其输出码率可以根据输入信号的复杂度进行自适应调整。基于ROI的可变比特率编码根据人眼对画面中不同区域的感兴趣程度,以不同的编码参数进行编码,使得输出视频的感知质量相对平稳。由于可变比特率编码的目的是保持输出质量不变,不同帧的编码比特数可能有很大差异。

现有的一些编码器支持对不同区域使用不同参数进行编码,因此可以直接实现可变比特率编码。FMO(Flexible Macroblock Ordering)是H.264编码标准提供的一种技术。不同于通常的图像扫描顺序,FMO允许宏块以一定的逻辑规则映射到相应的片(slice group)里,突破了传统意义上片的划分。利用FMO灵活分片的特性,根据视觉感兴趣程度将宏块划分到不同片,再分别以不同的参数(QP、目标比特数等)进行编码,是目前基于H.264的感兴趣区域编码的一类常用方法[23]。

可变比特率编码允许码率根据场景的复杂度在一定范围内变化,因而能够获得近似恒定的视频服务质量,它能较好地平衡视频图像质量和输出码率波动之间的关系。由于用较多的比特对感兴趣程度高的区域编码,用较少的比特对感兴趣程度低的区域编码,可变比特率编码更适合于存储,而不适合流式传输。

3.3 恒定比特率编码

恒定比特率编码(Constant Bit Rate, CBR)方法将编码视频的比特率控制为基本恒定,只在目标比特率附近有较小的波动,因此编码输出的质量随着内容复杂度的变化而变化。为保持比特率恒定,通常的做法是改变编码参数。考虑到人眼的视觉特性,赋予感兴趣区域较多的比特数,而减少对背景编码分配的比特数,可以在不同视频场景下,保持每帧编码的比特率不变,而编码后的视频质量存在一定的差异。

为了在ROI和非ROI之间合理地分配比特数,从而在使用相同的比特数进行编码的条件下,达到更好的视频感知质量。可以在编码时分配给ROI较多的比特数,提高整体的视频质量。同时,为了降低编解码的计算复杂度,需要调整编码参数,如运动估计的模式、运动估计子像素的精度、运动估计搜索范围以及运动估计多参考帧等。这样,由于减少了ROI以外区域的计算复杂度,整体的编码时间大大缩短。文献[24]建立了运动外推编码复杂度传播模型,该模型决定了帧内ROI和非ROI之间的比特分配,而视频的帧间比特分配由比例积分微分(PID)决定,由此取得了一致感知质量和平滑缓冲区波动之间的平衡。

文献[25]根据人眼注意机制,将宏块按照其在帧内的位置分成了5种类型。该方法选用平方率量化模型表示码率、量化步长和均方差(MAD)之间的关系。针对场景变化较小、运动缓慢的视频,采取线性MAD预测模型,使得运算复杂度降低;通过MAD确定帧的复杂度,进一步决定比特分配。再通过宏块的类型确定QP值,并限定了QP的变化范围以保证画面的平滑。

根据HVS对高频信号失真不敏感的特点,文献[26]结合了视觉感知图对ROI进行编码。在H.264编码过程的整数变换后、量化前,使用频率系数矩阵将高频分量按照视觉重要程度进行截断。从而给视觉重要的区域分配了更多的比特数,提高了这些区域的质量。

文献[27]在MPEG-4平台下,提出了一个区域权重率失真模型。基本层在编码ROI区域时的QP值取决于该模型计算出的各区域的编码权重。在增强层,通过位平面平移的方法来改变ROI的重要程度。例如,当码流被截断时,被放在比特流的前端包含ROI的宏块,就可以得到保留,与其他部分相比,被提升的宏块具有更好的视频质量。文献[28]针对MPEG-4的视频编码,提出了一种基于凸优化的对象级码率控制算法。该方法利用率失真(R-D)模型,计算出当整体的失真程度最小时,一帧内多个VOP之间的比特最优分配。为实现对象级的ROI编码,在MPEG-4中,可以给不同的对象(Visual Object ,VO)分配不同的权重。然而,如何准确分割对象是基于对象的编码方法的难点。

在流式传输中使用恒定比特率CBR编码最为有效。使用CBR编码时,比特率在流的进行过程中基本保持恒定,并且始终处于由缓冲区大小确定的时间窗内。CBR编码的缺点在于编码内容的质量不稳定,所以CBR流的某些部分质量会比其他部分差,相邻流的质量也会出现差异。

3.4 分层编码

由于网络的异构性特点,以及网络流量随着时间的变化而变化,网络信道容量不再是固定的参数。一方面,编码器难以确定在不同比特率下如何使得编码视频的质量最优,另一方面,解码端可能无法及时解码所有接收到的比特以重建视频信号。因此要求比特流在一定的范围内波动时,对于任意的比特率进行部分解码,并在该比特率下得到重建的最优质量视频信号。

MPEG-2标准中提出了信噪比可扩展、空间可扩展和时间可扩展的方法,根据信道容量的不同,只解码部分比特流,使得比特率可以根据接收到的比特数进行自适应调整。层间可扩展性编码通常的特性为:增强层的数据或者全部被接收解码,或者全部没有解码,完全没有起到增强的作用。而在MPEG-4中,精细可分级编码(Fine Granularity Scalability, FGS)增强层的比特流在编码完成后,每幅图像可以被截成任意比特数的流,解码器可以从基本层和截断的增强层比特流中重建出一个具有增强效果的视频。增强层的视频质量与解码器分配给每幅图像解码的比特数成正比。

多向位平面解码过程(MWBDP)[29]在解码时增加了一个延迟单元。在与寻找开始标志和多VLD分量结合后,可以重建一个快速位平面解码器。在FGS的增强层中,所有的解码过程共享一个帧缓冲区,该方法可以实现一个近似实时的解码器。宏块同步解码方案中,FGS增强层宏块可以在与之对应的(即具有相同地址的)基本层宏块重建后立刻开始解码,而不需要基本层的帧全部重建后再开始解码。该方案在基本层和增强层中,减少了内存读取的次数,并且更好地利用了高速缓冲存储器。

H.264中的FMO技术在基于ROI的可伸缩视频编码上也有不少应用。在分层编码的架构中使用FMO结构,一方面有效地提高了解码的容错性,另一方面实现了基于ROI的选择性增强编码和优先传输,从而有效地克服了网络带宽的抖动带来的影响。文献[30]利用运动矢量估计和分隔编码模式分别对基本层和增强层的ROI进行定位选择,并结合FMO特性,对ROI和背景区域做不同的片划分,使ROI片的优先级最高。对运动矢量较大和分割尺寸较小的ROI宏块进行位平面提升,从而在码流被截断时,这些宏块被保留的几率增大,优化了增强层的解码质量。同时对增强层ROI采取了基于FMO特性的编码方法,提高了解码的容错能力。

4 总结与展望

本文总结并分析了现有的几种基于感兴趣区域的编码技术。利用人眼的感知特性,在视频中提取感兴趣区域,可以在人感觉无明显质量损伤的条件下,去除更多的数据冗余。从而在有限的带宽环境下,传输更多的数据,得到符合标准质量的视频。航拍图像中,感兴趣区域集中在运动目标以及桥梁、机场、道路、建筑等人工目标。针对每一类具体目标,分别介绍了几种代表性的自动或半自动ROI提取方法,并对其优缺点作了简要介绍。对此类算法的评价,传统的客观质量评价指标,诸如均方误差(MSE)、峰值信噪比(PSNR)等存在一定的缺陷,近年来也有很多人提出了与ROI技术相适应的评价指标。基于感兴趣区域的编码技术,基本思想是提高分配给感兴趣区域的比特数,并赋予其较高的优先级进行编码传输。

值得注意的是,有很多因素影响到感兴趣区域的提取和压缩,如何减少环境以及观测者差异对感兴趣区域的影响,仍然是一个有待研究的问题。随着对人眼的视觉感知机制理解的加深,将出现更多更有效的感兴趣区域压缩方法,用于解决持续增长的高分辨率视频存储和传输问题。

[1] 张鹏,王润生.由底向上视觉注意中的层次性数据竞争[J].计算机辅助设计与图形学学报, 2005, 17(8): 1667-1672.

[2]ITTI L.Automatic foveation for video compression using a neurobiological model of visual attention[J]. IEEE Trans. Image Processing, 2004, 13(10): 1304-1318.

[3]CONNOR C E, EGETH H E, YANTIS S.Visual attention: bottom-up versus top-down[J].Current Biology, 2004, 14(19): 850-852.

[4]LE CALLET P, NIEBUR E.Visual attention and applications in multimedia technologies[J].Proceedings of the IEEE, 2013, 101(9): 2058-2067.

[5]KOMOGORTSEV O, KHAN J.Predictive perceptual compression for real time video communication[C]//Proce. the 12th Annual ACM International Conference on Multimedia.New York:[s.n.],2004: 220-227.

[6]MARTINI M G, HEWAGE C.Flexible macroblock ordering for context-aware ultrasound video transmission over mobile WiMAX[J].International Journal of Telemedicine and Applications, 2010(6): 6.

[7]FENG Y, CHEUNG G, TAN W, et al.Hidden markov model for eye gaze prediction in networked video streaming[C]// 2011 IEEE International Conference on Multimedia and Expo (ICME).[S.l.]:IEEE Press, 2011: 1-6.

[8]ITTI L, KOCH C, NIEBUR E.A model of saliency-based visual attention for rapid scene analysis[J].IEEE Trans.Pattern Analysis and Machine Intelligence, 1998, 20(11): 1254-1259.

[9]冯俊丽.基于Itti模型的计算机视觉注意模型研究[J].科技风, 2012 (20): 118-118.

[10]马新星,沈同圣,徐健.一种基于ROI的红外舰船目标定位方法[J].红外技术, 2013, 35(11): 702-706.

[11]ZHAI Y, SHAH M.Visual attention detection in video sequences using spatiotemporal cues[J]//Proc.the 14th annual ACM International Conference on Multimedia.New York:[s.n.],2006: 815-824.

[12]张宝薇.基于感兴趣区域的遥感图象压缩方法研究[D].哈尔滨:哈尔滨工业大学, 2006.

[13]陶文兵,柳健,田金文.一种新型的航空图像城区建筑物自动提取方法[J].计算机学报, 2003, 26(7): 866-873.

[14]孙显,王宏琦,张正.基于对象的 Boosting 方法自动提取高分辨率遥感图像中建筑物目标[J].电子与信息学报, 2009, 31(1): 177-181.

[15]王敏,张艳宁,孙瑾秋.一种遥感图像机场跑道的多尺度提取方法[J].中国体视学与图像分析, 2009, 14(3): 256-260.

[16]董银文,苑秉成,石钊铭, 等.基于直线特征的航拍图像机场跑道自动识别算法[J].系统工程与电子技术, 2013, 35(4): 876-879.

[17]杨云,朱长青,张德.高分辨率遥感影像上道路中心线的半自动提取[J].计算机辅助设计与图形学学报,2007,19(6):781-85.

[18]朱晓强,余烨,刘晓平,等.基于航拍图像和 LiDAR 点云的城市道路提取[C]//全国第19届计算机技术与应用 (CACIS) 学术会议论文集 (上册).合肥:[出版者不详],2008:1-6.

[19]王伟明,徐胜荣.一种使用黑板模型实现的图象分割策略及在桥梁目标识别中的应用[J].计算机学报, 1995, 18(2):127-134.

[20]董银文,苑秉成,石钊铭.基于区域特征的航拍图像水上桥梁自动识别[J].武汉大学学报:信息科学版, 2013, 38(9): 1073-1077.

[21]刘振华,黎宁,贾亮.改进的航拍图像序列背景运动补偿技术[J].计算机工程, 2009, 35(2): 222-224.

[22]DIKICI C, ISIL B H.Attention-based video streaming[J].Signal Processing: Image Communication, 2010, 25(10): 745-760.

[23]PENG F, ZHU X, LONG M.An ROI privacy protection scheme for H.264 video based on FMO and chaos[J].IEEE Trans.Information Forensics and Security,2013, 8(10): 1688-1699.

[24]JIN R, CHEN J.The coding rate control of consistent perceptual video quality in H.264 ROI[C]// International Symposium on Computer Network and Multimedia Technology.[S.l.]:IEEE Press, 2009: 1-4.

[25]SHI Y, YUE S, YIN B, et al.A novel ROI-based rate control scheme for H.264[C]// Proc.the 9th International Conference for Young Computer Scientists.[S.l.]:IEEE Press, 2008: 77-81.

[26]ZHENG Y, FENG J, MA H, et al.H.264 ROI coding based on visual perception[C]// Proc.5th International Conference on Visual Information Engineering.[S.l.]:IEEE Press, 2008: 829-834.

[27]LAI W, GU X D, WANG R H, et al.A content-based bit allocation model for video streaming[C]// Proc.IEEE International Conference on Multimedia and Expo.[S.l.]:IEEE Press,2004, 2: 1315-1318.

[28]WU Q, CHAN S C, SHUM H Y.A convex optimization-based object-level rate control algorithm for MPEG-4 video object coding[C]// Proc.IEEE Asia Pacific Conference on Circuits and Systems.[S.l.]:IEEE Press, 2006: 784-787.[29]TUNG Y S, WU J L, HSIAO P K, et al.An efficient streaming and decoding architecture for stored FGS video[J].IEEE Trans.Circuits and Systems for Video Technology,2002, 12(8): 730-735.

[30]朱金秀,郝文瑞.基于感兴趣区域的可伸缩性容错编码[J].计算机工程与设计, 2009 (21): 4901-4903.

责任编辑:闫雯雯

Compression Coding of Aerial Video Based on Region-of-Interest

LIU Xin, ZHOU Jiamu, WANG Haiying

(SchoolofInformationandCommunicationEngineering,BeijingUniversityofPostsandTelecommunications,Beijing100876,China)

As the application of aerial video surveillance has become more and more popular, the limited channel capacity and storage prompt the development of compression.In particular, the video compression coding based on region-of-interest considering human visual system have

great attention.This paper thoroughly reviews the recent advances of video compression and coding based on region-of-interest.

ROI;layer coding; progressive transmission

TN911.73

A

10.16280/j.videoe.2015.05.031

2014-08-03

【本文献信息】刘欣,周佳睦,王海婴.基于感兴趣区域的航拍视频压缩编码技术综述[J].电视技术,2015,39(5).

猜你喜欢
比特率感兴趣航拍
基于深度学习的有源智能超表面通信系统
航拍下的苗圃与农场
中外文摘(2021年10期)2021-05-31 12:10:40
更 正
含能材料(2021年1期)2021-01-10 08:34:34
难忘的航拍
基于多个网络接口的DASH系统设计与实现
《航拍中国》美得让人想哭
陕西画报航拍
陕西画报(2017年1期)2017-02-11 05:49:48
相同比特率的MPEG视频双压缩检测*
这样的智能厨房台面,你会感兴趣吗?
工业设计(2016年8期)2016-04-16 02:43:24
梦断交易会
兴趣英语(2013年9期)2013-11-28 05:49:22