魏 勋,耿志辉,王晓攀
(1.中国人民解放军63891部队,河南洛阳471003;2.中国人民解放军63888部队,河南济源454650)
当前的很多语音识别系统在实验室环境下都可以达到相当高的识别正确率,但在实际环境中,性能会急剧下降。其根本原因在于不同环境下语音的畸变引起了训练环境和测试环境的不匹配,导致训练数据所获得的语音信息无法正确表达测试环境的数据,即噪声鲁棒性问题。因此,如何提高系统的鲁棒性是语音识别的一个关键难点,语音识别的鲁棒性特征提取方法可以很好地解决这一问题。
语音识别就是让机器通过识别和理解过程把语音信号转变为相应的文本或命令的技术,它包含2种含义:①将口述语言逐字逐句地转换成相应的文字;②对说的话所包含的要求或询问做出正确的响应,而不拘泥于转换成书面文字。典型语音识别系统的实现过程如图1所示。
实际语音识别环境复杂多变,在此主要考虑其中最重要的因素,即加性噪声和卷积噪声。
假设干净语音用序列x[m]表示,卷积噪声用滤波器h[m]表示,加性噪声用n[m]表示,带噪语音用y[m]表示。在时域、频域,分别有以下关系:
图1 语音识别系统基本原理框图
在等式(2)两边取模平方,则其幅度谱之间的关系为:
式(3)中忽略了 2|X[k]|◦|H[k]|◦|N[k]|cosθk,θk表示复变量N[k]和X[k]◦H[k]之间夹角。
对于倒谱域,倒谱参数定义如下:
式中,C为离散余弦变换矩阵。对式(3)两边取对数,有:
根据式(4)的定义,容易得到:
其中非线性函数:
MFCC是基于人耳听觉,加入了与人类听觉系统有关的Mel滤波器组,流程如图2所示。
Wnt/β-catenin通路的活性决定了MPCs是分化为成骨细胞还是软骨细胞。实验表明[23],敲除βcatenin的间充质细胞,会向软骨方向分化,而使骨生成受到抑制,生成异位的软骨。
图2 MFCC流程
设滤波器组的个数为M,每个滤波器的定义如下:
Mel域频率定义为:
式中,f为线性域频率;m为Mel域频率。式(8)中f[m]由下式计算:
式中,N为快速傅里叶变换点数;Fs为采样率;fl和fh分别为滤波器组的最低频率和最高频率;M为滤波器组的维数。则滤波器组输出为:
语音识别所使用的参数,例如MFCC,本身都是随机变量,因而有相应的概率分布,训练环境和测试环境的不匹配也就表现为概率分布上的差异。一般可以通过对参数进行规整或归一化来减小这种差异,最经典和常用的累计分布函数匹配的方法就正是基于这一点。下面给出的3种方法是对这一思想的引伸。
式(6)中若不考虑加性噪声,则有
下标t表示第t帧,对于干净倒谱序列X={x0,x1,…xT-1},均值¯x为:
然后对每一帧减去这个均值,即归一化,有
可以看出,归一化后的带噪倒谱是原来干净倒谱的归一化结果,完全去除信道h的影响,补偿了信道畸变。
MVN不仅考虑倒谱均值的归一化,同时也考虑了方差,它是CMN的一个扩展。大量实验表明,噪声的影响往往表现为干净语音分布参数的变化,最常见的是均值的偏移和方差的压缩和扩张。定义方差:
则MVN的计算公式为:
人类对语音的听觉感知可以抑制相对平稳、变化缓慢的非语言背景。通常来说,信道相对于语音的变化是平缓的甚至常量,因此可以通过一个低端截止频率非常低的带通滤波器,抑制住频带上缓变的部分。RASTA滤波方法采用的带通滤波器传递函数为:
仿真平台采用欧洲电信标准委员会(ETSI)发行的Aurora 2.0数据库,基于ETSI_ES _201 _108标准,采用14维特征向量(13维MFCC和对数能量),语音采用帧输入,帧长为25 ms,帧移长度为10 ms,加窗为汉明窗,Mel滤波器组为23维,最低频率64 Hz,最高频率4 kHz,采样率8 kHz。选用Aurora 2.0的数据库的性能评测标准,即相对于ETSI标准参考MFCC提取程序训练识别结果的性能提升。相对性能提升计算公式为:
Aurora 2.0数据组织可分为两部分:训练集和测试集。训练集包括干净训练集和带噪训练集。干净训练集没有加入噪声,用来训练一个对应用于干净语音的模型;带噪训练集加入了不同信噪比的噪声,用于训练一个带噪声数据的模型。测试集按照不同的测试目的,分为A、B、C三个部分。
CMN的识别结果相对于MFCC的性能提升如表1所示。可以看出,在带噪模型训练方式下,CMN的识别性能都有所提升,特别对测试集C这种不可见信道的情形,这说明CMN对消除信道影响很有效。但在干净模型下的测试集C,结果有些异常,这与干净模型下环境的高度不匹配有关。
表1 CMN的仿真结果
MVN的识别结果相对于MFCC的性能提升如表2所示。和CMN相比较,MVN可能削弱了它在去除信道影响方面的优势(如带噪模型下的测试集C),但对其他测试集的识别结果以及平均性能都有一定的提高。
表2 MVN的仿真结果
RASTA滤波的识别结果相对于MFCC的性能提升如表3所示。通过RASTA滤波后,识别性能有了普遍的提升,说明RASTA滤波对去除信道噪声的低频成分中人耳听不到的部分是有效的。
表3 RASTA滤波的仿真结果
训练环境和测试环境的不匹配是造成实际情况下语音识别性能下降的主要原因,CMN可以补偿信道畸变,但当信道出现非平稳加性噪声时,性能会有较大下降;MVN虽在语音识别中较有效,但由于噪声的多变而影响其应用范围;RASTA滤波通过一个低端截止频率非常低的带通滤波器抑制频带上缓变的部分,是一种用于减小传输通道影响的方法。实际应用中,可以针对不同的噪声环境采用不同的算法。
[1]GONG Y F.Speech Recognition in Noisy Environment:a Survey[J].Speech Communication,1995,16(3):261-291.
[2]ZHANG Jun,WEIGang.RobustMulti-stream Speech Recognition Based on Weighting the Output Probabilities of Feature Components[J].声学学报(英文版),2009,33(3):269-279.
[3]关 勇,李 鹏.基于计算听觉场景分析和语者模型信息的语音识别鲁棒前端研究[J].自动化学报,2009,35(4):410-460.
[4]惠 博.语音识别特征提取算法的研究及实现[D].陕西:西北工业大学硕士论文,2008:34-37.
[5]赵 力.语音信号处理[M].北京:机械工业出版社,___2009.