李 杰,周 萍
(1.桂林电子科技大学计算机科学与工程学院,广西桂林 541004;2.桂林电子科技大学电子工程与自动化学院,广西桂林 541004)
随着计算机技术的高速发展和人类对计算机依赖性的不断增强,人机交流变得越来越普遍,人机交互能力也越来越受到研究者的重视,语音情感识别就是人机交互与情感计算的交叉研究领域。语音中的情感之所以能够被识别与表达,是因为语音特征在不同情感状态下的表现不同。因此,很多研究者对特征与情感类别之间的对应关系产生了浓厚的兴趣并进行了深入的探讨。Murray I和Amott J L完成的实验得出了基频、能量、时长等韵律特征,以及语音质量特征与情感之间的定性关系[1],使得韵律学特征成为语音情感识别的常用特征。此后,研究者又加入了共振峰参数和语音学特征,如MFCC,使得韵律学特征与语音学特征结合识别情感。通常在利用这些基本特征进行研究时,还需要求出其派生特征和各种统计特征,如范围、均值和方差等,并把它们组成特征向量。由于到目前为止,声学特征与情感状态的对应关系缺乏统一的结论,为了尽可能保留有意义的信息,研究者只能在研究中保留这维数少则几十条多则上百条的特征向量。但根据模式识别的理论,高维特征集合不仅不会提高识别率,还会造成“维数灾难”[2]。大量的研究表明:语音情感识别的关键就在于从数量众多的特征中求得高效的情感声学特征组,这就需要用到特征降维技术。
目前,已有数篇综述文献总结了语音情感识别的研究成果[3~6],但主要都是针对识别算法的研究进展进行综述。本文从模式识别的角度对目前语音情感识别研究中所采用的特征降维技术进行总结,并对近几年提出的情感特征参数进行阐述。
基于语音的情感识别大致分为预处理、特征提取和情感分类三步,大致框架如图1所示。特征提取作为情感分类的前向步骤,能直接影响到最终的识别效率,是从输入的语音信号中提取能够区分不同情感的参数序列。在提取特征数据时,为获得最优特征子集还需进行对特征降维。
图1 语音情感识别系统Fig 1 Speech emotion recognition system
本文从发音语音学和声学语音学两方面出发,将语音情感分为基于发音特征参数和基于声学特征参数。
此类特征按照语音信号生成的数学模型不同,分为线性激励源—滤波器(source-filter)语音生成模型特征和非线性语音生成模型特征。
2.1.1 线性激励源—滤波器语音生成模型特征
在激励系统中,声门每开启和闭合一次的时间就是基音周期,其倒数称为基频,决定了语音的音调高低。由于语音是声门激励信号和声道冲激响应的卷积,直接对语音提取基音周期将受到声道共振峰的影响,所以,需要先求出声门激励信号(声门波)。获得声门波的常用方法有线性预测法和倒谱分析法,都是基于声道建模,通过逆滤波消除共振峰的影响得到声门波。由于这2种方法只是对声道传输特性的近似,故通过逆滤波得到的声门波差分波形频谱都会不可避免地带有“波纹”。为了准确估计声门波参数,研究者提出了对声门波进行参数建模的方法,其中LF[7]模型最常用。赵艳等人[8]将通过该方法提取的音质参数运用到情感识别中去,取得了不错的识别率。
归一化振幅商(normalized amplitude quotient,NAQ)是由文献[9]提出的,一种新的用来刻画声门激励特性的时域参数。Airasm A P[10]和白洁等人[11]分别比较了连续语音中单一元音的较短片段、整句及元音段NAQ值的情感识别效果,实验表明了元音段的NAQ值是一种具有判别力的语音情感特征。
共振峰是当声音激励进入声道引起共振产生的一组共振频率。不同情感的发音可能使声道有不同的变化,因此,共振峰是反映声道特性的一个重要参数。提取共振峰参数的方法主要有倒谱法和线性预测法(LPC)。
2.1.2 非线性模型特征
传统的线性声学理论认为,声音的产生取决于声带的振动和声道内的激励源位置。而Teager H等人[12]认为声源是声道内非线性涡流的交互作用。为度量这种非线性过程产生的语音,文献[12]提出了能量操作算子(teager energy operator,TEO)。随着TEO的提出,许多基于TEO的特征被用于识别语音中的情感。文献[13]将多分辨率自带分析与TEO结合,提出一种新的特征参数TEOCEP,其识别性能优于使用短时能量的自带倒谱参数。高慧等人[14]结合小波分析将不同形式的TEO与MFCC结合提出了5种非线性特征,当与文本有关时,这些特征语音情感识别的效果优于MFCC。林奕琳[15]将基于TEO的非线性特征用于带噪语音情感的识别,证明了上述特征具有较高鲁棒性。
2.2.1 听觉模型特征
研究者发现人耳在嘈杂的环境中之所以仍能正常地分辨出各种声音,耳蜗是其中的关键所在。耳蜗相当于一个滤波器组,在低频区呈线性关系,在高频区呈对数关系,从而使得人耳对低频信号更敏感。根据这一原则,研究者根据心理学实验得到了类似于耳蜗作用的一组滤波器组——Mel频率滤波器组。研究者又利用这一原理和倒谱的解相关特性提出了Mel频率倒谱系数(Mel frequency cepstrum coefficient,MFCC)。MFCC在语音情感识别领域已经得到广泛的应用。
2.2.2 非基于模型特征
这类特征通常不假设语音模型,如语速、短时平均过零率、发音持续时间和能量等,文献[5]对这些特征进行了详细的叙述。研究者发现以往常被用于诊断喉部疾病的谐波噪声比(HNR)可以有效评估说话人嗓音嘶哑程度,余华[16],赵艳等人[8]已把HNR作为特征参数成功运用于语音情感识别当中。
高维数据特征不仅可能造成维数灾难,而且其可能存在较大的数据冗余,影响识别的准确性。为了有效地进行数据分析,提高正确识别率和降低计算工作量,特征降维就显得异常重要。特征降维包括特征抽取和特征选择。特征抽取是用全部可能的变量把数据变换(线性或非线性变换)到维数减少了的数据空间上。特征选择是选出有用的或重要的特征,而去除其他的特征。
3.1.1 线性特征抽取算法
主成分分析(principal component analysis,PCA)和线性判别分析(linear discriminant analysis,LDA)是最常用的线性特征抽取算法。PCA因未能利用原始数据中的类别信息,降维后的数据有时反而不利于模式分类,直接用于语音情感识别时效果并不好。LDA考虑了训练样本的类别信息,强调了不同类别样本之间的分离,用于语音情感识别时取得了良好的识别率[17]。文献[2]针对PCA,LDA在不同性别、不同情感状态有不同的识别表现,设计了结合PCA和LDA的分层次语音情感识别系统,取得了较高识别率。
3.1.2 非线性流形特征抽取算法
近年来,研究人员发现语音信号中的特征数据位于一个嵌入在高维声学特征空间的非线性流形上,这使得流形学习算法开始被用于语音特征参数的非线性降维处理。
等距映射(isometric feature mapping,Isomap)和局部线性嵌入(locally linear embedding,LLE)算法是该类算法中较为常用的。Isomap和LLE都属于非监督方式的降维方法,没有给出降维前后数据之间的映射关系,新的测试数据并不能直接投影到低维空间,直接应用于语音情感识别时识别率都不高,甚至不如线性的PCA[18],因此,应用于语音情感识别时算法都需要进行改进。陆捷荣等人[19]在Isomap算法基础上提出基于增量流形学习的语音情感特征降维方法,实验表明具有较好的识别效果。Ridder等人使用考虑数据类别信息的监督距离修改LLE算法中的邻域点搜索,提出了一种监督式的局部线性嵌入(supervised locally linear embedding,SLLE)算法,文献[18]又在 SLLE基础上提出了一种改进的监督局部线性嵌入算法(improved-SLLE),并用Improved-SLLE实现了对48维语音情感特征参数数据的非线性降维,提取相应的特征进行情感识别,取得了90.78%的正确识别率。
增强型 Lipschitz嵌入(enhanced Lipschitz embedding,ELE)算法是尤鸣宇[2]基于 Lipschitz嵌入算法[20]提出的一种新的特征降维算法。ELE主要对样本点到样本集合(各种情感)中各点的最短距离的求取和新加入测试点的投影方式进行补充完善。在ELE中,当有新进测试点需进行投影时,距离矩阵M被重新构造以包含新样本点的信息,虽然这种方法需要消耗一定的计算时间,但却可以最大限度地发挥算法的优势,而且由于ELE算法较简单,投影新测试点时并不需要重新构建距离矩阵M。ELE解决了Isomap和LLE所未解决的将新进测试样本投影到目标空间的问题。同时,文献[2,21]也证明了基于ELE的语音情感识别系统具有较高正确率,且对噪声具有较高的鲁棒性。
按照特征子集的生成方法,特征选择可分为穷举法、启发式算法和随机算法。
3.2.1 穷举法
穷举法是一种最直接的优化策略,对p个变量中选出d个变量,搜索nd=p!/(p-d)!d!种可能的子集。尽管该方法确定能找到最优子集,但是,由于计算开销过大,实用性不强。
3.2.2 启发式算法
启发式算法是使用启发式信息得到近似最优解的算法。它是一个重复迭代而产生递增或递减的特征子集的过程,从当前特征子集出发,搜索下一个增加或删除的特征时,需要通过一个启发函数来选择代价最少的方案。此类方法不需要遍历所有特征组合,就可以估计出一个较为合理的特征子集,具有实现过程简单、运行速度快等优点。语音情感识别中常用的启发式算法有顺序向前选择(SFS)、顺序向后选择(SBS)、优先选择(PFS)、顺序浮动前进选择(SFFS)和逐步判别分析法(SDA)等。Kwon O W等人[22]采用SFS和SBS两种方法进行特征选择,建立了声学特征的情感判别力强弱排名的二维等级图,指出基频、对数能量和第一共振峰对语音情感识别的重要性。Lugger M等人[23]使用SFFS先从韵律特征和嗓音特征中分别选取4个特征参数,而后又从混合特征集中选取8个特征,其中包括6个韵律特征和2个嗓音特征。谢波等人[24]针对普通话情感语音特征分别用PFS,SFS,SBS和SDA进行特征选择,分析了特征个数和特征选择方法对平均准确率的影响,最后进行了特征选择的有效性分析。
3.2.3 随机算法
随机算法可分为完全随机与概率随机两类,前者指纯随机产生子集,后者指子集的产生依照给定的概率进行。目前,被运用于语音情感识别的有遗传算法(genetic algorithm,GA)和神经网络分析法等。
遗传算法是一种以遗传和自然选择的进化论思想为启发的算法,通过选择并遗传适应环境的特征得到所需特征子集。首先,选取适应性函数值最大的若干个特征组成初始特征集,并从该集合中选取2个特征,被选中的机率与其“适应能力”呈正比。在这2个特征间使用“交配”算法和“突变”算法,再从得到的特征中选取“适应能力”强的几个加入特征子集。重复前两步,直到获得所需的分类特征子集。王颖[25]提出了一种改进的自适应遗传算法语音情感识别方法,实验结果表明,改进后的算法具有良好的识别效果。
神经网络分析法是王小佳[26]利用神经网络的贡献原理选出有效特征的方法。王小佳将其提取的101个语音情感特征通过神经网络贡献分析进行选择,通过聚类性分析验证了所选择特征的有效性。
1)研究者们已分析了多种类型的特征,但就特征提取而言,不同的提取方法会产生不同的特征精度,如基频的提取目前仍是一项开放的研究课题。因此,需要研究出更加精确的特征提取方法。
2)由于语音情感变化会造成诸多语音特征发生变化,将多种特征融合起来可以更全面地表现情感。多类特征组合是特征获取的一个新兴研究方向,目前已有少部分学者开始研究。
3)对语音情感进行高效识别,必须对特征降维方法进行更针对的研究,目前,特征降维应用于语音情感识别还只是一个起步阶段,需要更多的研究和尝试。
[1]Murray I,Amott J L.Towards the simulation of emotion in synthetic speech:A review of the literature on human vocal emotion[J].Journal of the Acoustic Society of American,1993,93(2):1097 -1108.
[2]尤鸣宇.语音情感识别的关键技术研究[D].杭州:浙江大学,2007.
[3]余伶俐,蔡自兴,陈明义.语音信号的情感特征分析与识别研究综述[J].电路与系统学报,2007,12(4):77 -84.
[4]林奕琳,韦 岗,杨康才.语音情感识别的研究进展[J].电路与系统学报,2007,12(1):90 -98.
[5]赵腊生,张 强,魏小鹏.语音情感识别研究进展[J].计算机应用研究,2009(2):428 -432.
[6]章国宝,宋清华,费树岷,等.语音情感识别研究[J].计算机技术与发展,2009(1):92-96.
[7]Fant G,Liljencrants J,Lin Q.A four-parameter model of glottal flow[J].STL-QPSR 4,1985,26(4):1 -13.
[8]赵 艳,赵 力,邹采荣.结合韵律和音质参数的改进二次判别式在语音情感识别中的应用[J].信号处理,2009(6):882-887.
[9]Paavo A,Tom B,Erhhi V.Normalized amplitude quotient for parameterization of the glottal flow[J].Journal of the Acoustical Society of America,2002,112(2):701 -710.
[10]Airasm A P.Emotions in short vowel segments:Effects of the glottal flow as reflected by the normalized amplitude quotient[C]//Proceedings of Tutorial and Research Workshop on Affective Dialogue Systems,2004:13 -24.
[11]白 洁,蒋冬梅,谢 磊.基于NAQ的语音情感识别研究[J].计算机应用研究,2008,25(11):3243 -3258.
[12]Teager H,Teager S.Evidence for nonlinear production mechanisms in the vocal tract[C]//Speech Production & Speech Modeling,1990:241 -261.
[13]Jabloun F.Large vocabulary speech recognition in noisy environments[D].Ankara,Turkey:Bilrent University,1998.
[14]高 慧,苏广川.情绪化语音特征分析与识别的研究进展[J].航天医学与医学工程,2004,17(5):77-80.
[15]林奕琳.基于语音信号的情感识别研究[D].广州:华南理工大学,2006.
[16]余 华,黄程韦,金 赟,等.基于改进的蛙跳算法的神经网络在语音情感识别中的研究[J].信号处理,2010(9):1295-1299.
[17]Go H,Kwak K,Lee D,et al.Emotion recognition from the facial image and speech signal[C]//Proceedings of Annual Conference of SICE,2003:2890 -2895.
[18]张石清,李乐民,赵知劲.基于一种改进的监督流形学习算法的语音情感识别[J].电子与信息学报,2010(11):2724-2729.
[19]陆捷荣.基于流形学习与D-S证据理论的语音情感识别研究[D].镇江:江苏大学,2010.
[20]Bourgain J.On lipschitz embedding of finete metric spaces in hilbert space[J].Journal of Mathemetics,1985,52(1 -2):46 -52.
[21]刘 佳.语音情感识别的研究与应用[D].杭州:浙江大学,2009.
[22]Kwon O W ,Chan K,Hao J.et al.Emotion recognition by speech signals[C]//Proceedings of Eurospeech,Geneva,2003:125 -128.
[23]Lugger M,Yang B.The relevance of voice quality features in speaker independent emotion recognition[C]//IEEE International Conference on Acoustics,Speech and Signal Processing,Honolulu,HI,2007:17 -20.
[24]谢 波,陈 岭,陈根才,等.普通话语音情感识别的特征选择技术[J].浙江大学学报:工学版,2007(11):1816-1822.
[25]王 颖.自适应语音情感识别方法研究[D].镇江:江苏大学,2009.
[26]王小佳.基于特征选择的语音情感识别研究[D].镇江:江苏大学,2007.