基于i⁃vector说话人识别算法中训练时长研究

2016-04-12 00:00:00马平黄浩程露红杨萌萌
现代电子技术 2016年14期

摘 要: 为了进一步提升i⁃vector说话人识别模型的系统性能,探讨了基于i⁃vector的说话人识别系统中训练时长、男女比例和高斯混合度对系统识别性能的影响。针对训练时长、男女比例和高斯混合度设置了一组实验,结合目前最流行的语音识别工具Kaldi进行验证,得出i⁃vector说话人识别算法的最佳参数,为以后的基于i⁃vector说话人识别算法研究提供数据依据。

关键词: 说话人识别; i⁃vector; Kaldi; 训练时长

中图分类号: TN911⁃34; TP391 文献标识码: A 文章编号: 1004⁃373X(2016)14⁃0001⁃03

Research on training duration of speaker recognition algorithm based on i⁃vector

MA Ping, HUANG Hao, CHENG Luhong, YANG Mengmeng

(School of Information Science and Engineering, Xinjiang University, Urumqi 830046, China)

Abstract: In order to further enhance the system performance of speaker recognition model based on i⁃vector, the effect of the training time, the sex ratio and Gaussian mixture in the speaker recognition system based on i⁃vector on the performance of system identification is discussed in this paper. In this article, a set of experiments is set in allusion to the training time, the sex ratio and Gaussian mixture, and is verified in combination with the most popular voice recognition tool Kaldi. The best parameters of the speaker recognition algorithm based on i⁃vector were obtained, which provided a data basis for later research on the speaker recognition algorithm based on i⁃vector.

Keywords: speaker recognition; i⁃vector; Kaldi; training duration

0 引 言

说话人识别是指计算机通过对说话人语音信号进行分析处理,进而提取能反映特定说话人生理和行为的语音特征参数来自动识别说话人身份的技术。该技术已广泛应用于国家安全、司法鉴定、电话银行、语音拨号等诸多领域。说话人识别根据识别目标的不同,可分为说话人辨别和说话人确认两类,本文主要研究基于i⁃vector说话人辨认模型来分析和测试语料时长、男女比例和高斯混合度之间的关系。

当前由NIST组织的比较流行的国际说话人评测系统,主要是建立在以混合高斯模型⁃通用背景模型(Gaussian Mixture Model⁃Universal Background Model,GMM⁃UBM)[1]的基础上。随后学者们在此基础上进行了改进,从而得出高斯混合模型超矢量⁃支持向量机(Gaussian Mixture Model Super⁃support Vector Machine,GSV⁃SVM)[2]、联合因子分析(Joint Factor Analysis,JFA)[3]及i⁃vector(identity vector)[4]等说话人建模技术,其中i⁃vector识别系统已成为当今最前沿最有效的说话人识别技术,其性能明显优于GSV⁃SVM和JFA这两种识别系统。通过总结以往的研究成果发现在训练和提取i⁃vector时,对语料的时长、高斯混合度及男女比例不是太关注。但在实际的实验中,提取i⁃vector特征的语料参数也非常重要,需要经过多次测试比较,找到训练时长、混合度、男女比例和系统性能之间的关系,从而减少训练时间和工作量,为以后的研究提供一个基本的数据依据。

1 基于i⁃vector的说话人识别系统

1.1 i⁃vector基本原理

基于身份认证矢量i⁃vector说话人辨别系统的基本思想是假设说话人信息以及信道信息同时处于高斯混合模型高维均值超矢量(Super Vector,SV)空间中,通过利用在这个超矢量空间中训练包括说话人信息和信道差异的全差异(Total Variability,TV)空间,将每个说话人语音数据的均值超矢量S分解为:

[S=m+Tω] (1)

式中:S代表高斯混合模型的高维均值超矢量;m代表与特定说话人信息和信道信息无关的一个超矢量;T为全差异空间,将高维的高斯混合模型均值超矢量在该子空间上进行投影,得到低维的总体变化因子矢量[ω],[ω]是包含整段语音中的说话人信息和信道信息的一个全差异因子,即i⁃vector。其实现框图如图1所示。

基于GMM⁃UBM的说话人系统的通用背景模型(UBM)是由大量说话人的语料通过期望最大化(EM)[5]训练得到的,其代表着统计平均的说话人信息和信道信息,在此基础上,将注册语料通过最大后验概率算法(MAP)[6]自适应得到目标说话人模型。

1.2 i⁃vector特征提取

对于给定的训练语音数据s,首先根据训练所得的UBM提取Baum⁃Welch统计量:

式中:[Ns[c]]和[fs[c]]为语音s特征参数(维度为D)对于混合度为C的UBM的零阶和一阶统计量;[γc(ot)]为观察矢量[ot]对于给定UBM的第c个混合度的后验概率的输出;语音s所有混合度的一阶统计量[fs=(f1s,f2s,…,f(c)s)]。为了便于计算,先对一阶统计量和均值进行归一化[7]:

[fsc←fsc-Nscmc] (4)

[mc←0] (5)

然后再对一阶统计量和全差异空间T用UBM的协方差进行规整,假设UBM的协方差矩阵[Σ[c]]为对角正定矩阵,如下:

式中:[Σ-1/2[c]]是矩阵[Σ[c]]逆的Cholesky分解[8];T[c]为全差异空间T(维度为D×M)的子矩阵,[T=(T(1)′,T(2)′,…,T(c)′)]。根据估计出的统计量提取i⁃vector如下:

式中:[Ls]是一个M×M的矩阵;[ωs]为语音s的i⁃vector特征。在已知全差异空间T的前提下,就可以求出任何语音的i⁃vector特征,所以准确估计全差异空间T是求i⁃vector的关键。

1.3 全差异空间T的构建

全差异空间T包含了说话人信息和信道信息两者在空间上的统计分布,可以通过大量的语音利用EM算法训练得到。首先初始化T,对s条训练语音数据计算以下变量:

式中:[fsc,Nsc,ωs]是由式(2)、式(3)、式(9)得到的。T的更新过程可以利用式(13)实现:

[Tc=EcF-1c] (13)

1.4 余弦距离打分及系统性能评价

余弦距离打分实际上是一种对称式的核函数分类器,也就是说目标矢量与测试矢量交换后不影响打分结果。通过计算目标说话人i⁃vector矢量[ωtar]和测试i⁃vector矢量[ωtst]的余弦距离分数作为判决分数,再与阈值[θ]进行比较,从而得到结果,如式(14)所示:

说话人识别系统中经常采用识别率对系统性能进行评价,其计算公式如下:

[ρ=正确识别个数总的识别数×100 %] (15)

2 实验条件设置

本文在Linux操作系统服务器版Ubuntu 12.04.4下以Kaldi语音识别工具[9]为平台进行仿真。Kaldi作为当前最新也是最流行的语音识别工具,它是由剑桥大学开发的一个开源工具包,由C++编写而成且被Apache License v2.0进行授权许可。仿真实验采用微软的语音库MSRA。该语音库包括了100个男性和100个女性说话人发声的干净单声道语音,每人分别为150句,每条语音的长度大约在8~10 s,其数据采样率为16 b/16 kHz。实验中选男女各80人作为训练集,其余的男女各20人作为测试集。

本实验的目的在于探讨不同时长及混合度与i⁃vector识别系统性能之间的关系,因此在实验中不考虑信道因素、噪声因素对说话人识别系统的影响。在进行语音特征提取时,选用预加重的系数是0.95,采用Hamming窗,帧移为10 ms,帧长为30 ms,并选用由Mermelstein和Davis提出的Mel倒谱系数(Mel Frequency Cepstrum Coefficient,MFCC)特征,MFCC特征维数为12,外加其一维能量以及一、二阶差分和能量,所以MFCC的总维数为42。在进行i⁃vector训练时,通过选择训练语句的条数来设定时长,训练语句平均取自男女各80个说话人中,训练时长分别设定为1 600条,4 800条,8 000条,11 200条,14 400条,17 600条,20 800条,24 000条。为了更精确地讨论高斯混合度和训练时长对i⁃vector的影响,将高斯混合度数分别设定为64,128,256,512,1 024,2 048。在此基础上,实验还设定了一组不同男女比例混合度对i⁃vector识别系统的影响,分别为女性说话人占总数的0%,20%,40%,60%,80%,100%。

3 实验结果与分析

根据训练语句的多少,依次由少到多记为1~8,在测试阶段,用男女各20个说话人的150条语句作为测试集进行验证,通过式(15)计算出不同时长和高斯混合度的识别率,实验结果如表1所示。

从表1知,当混合度在512维,训练语句在14 000左右时效果最好,因此固定时长和高斯混合度的维数,通过调节男女混合比例来进行测试,其结果见表2。

在训练时长和高斯混合度一定的情况下,男女混合的比例对i⁃vector说话人识别系统的性能也有较大的影响;从实验的结果可以看出,当女生的比例占所有总数的60%时,识别效果最优。因此在今后的i⁃vector说话人识别系统中,要充分考虑语音数据的男女比例。

4 结 语

本文旨在通过设置不同的训练语音时长和高斯混合度的维数及男女比例,在基于i⁃vector的说话人识别系统上探讨了三者对i⁃vector的影响,通过实验发现,高斯混合度和语音时长之间存在着对应关系,为今后说话人识别研究提供了一个基本的数据依据。本实验只是探讨了单一信道的语音,没有考虑信道和噪声对系统的影响,在今后的说话人识别测试中,可以考虑以上两个因素对系统性能的影响,讨论在这两种情况下,高斯混合度和语音时长及男女混合比例之间的关系。

注:本文通讯作者为黄浩。

参考文献

[1] REYNOLDS D A, QUATIERI T F, DUNN R. Speaker verification using adapted gaussian mixture model [J]. Digital signal processing, 2000, 10(1/2/3): 19⁃41.

[2] CAMPBELL W M, STURIM D E, REYNOLDS D A. Support vector machines using GMM supervectors for speaker verification [J]. IEEE signal processing letters, 2006, 13(5): 308⁃311.

[3] KENNY P, OUELLET P, DEHAK N, et al. A study of interspeaker variability in speaker verification [J]. IEEE transactions on audio, speech and language processing, 2008, 16(5): 980⁃988.

[4] DEHAK N, KENNY P, OUELLET P, et al. Front⁃end factor analysis for speaker verification [J]. IEEE Transactions on audio, speech and language processing, 2011, 19(4): 788⁃798.

[5] GHAHRAMANI Z, HINTON G. The EM algorithm for mixtures of factor analyzers: CRG⁃TR⁃96⁃1 [R]. Toronto: Department of Computer Science, University of Toronto, 1966.

[6] GAUVAIN J L, LEE C H. Maximum a posterior estimation for multivariate Gaussian mixture observations of Markov chains [J]. IEEE transactions on speech and audio processing, 1994, 2( 2): 291⁃298.

(上接第3页)

[7] GLEMBEK O, BURGET L, MAĚJKA P, et al. Simplification and optimization of I⁃vector extraction [C]// Proceedings of IEEE International Conference on Acoustics,Speech and Signal Processing. Prague: IEEE, 2011: 4516⁃4519.

[8] SEEGER Matthias. Low rank updates for the cholesky decomposition [EB/OL]. [2010⁃12⁃04]. http://upseeger.epfl.ch/papers/cholupdate.pdf.

[9] POVEY D, GHOSHAL A, BOULIANNE G, et al. The Kaldi speech recognition toolkit [EB/OL]. [2013⁃02⁃03]. http: //blog.csdn.net/jiangyangbo/article/.

[10] 方昕,李辉,刘青松.利用i⁃vectors构建区分性话者模型的话者确认[J].小型微型计算机系统,2014(3):685⁃688.

[11] 栗志意,张卫强,何亮,等.基于总体变化子空间自适应的i⁃vector说话人识别系统研究[J].自动化学报,2014(8):1836⁃1840.