10.3969/j.issn.1000-386x.2016.12.032
一种基于GMM-DNN的说话人确认方法
针对说话人确认中话者建模问题,提出 GMM-DNN 的混合建模方法。该方法先通过 GMM提取原始语音特征的统计特征,然后进一步通过 DNN 非线性映射的方式将统计特征变换到一个与说话人相关的线性可分空间。选用栈式自编码神经网络 SAE (Stacked Auto-encoder Neutral Network)作为深度神经网络的基本模型。在注册阶段从已训练的 DNN 网络中抽取最后一层作为说话人模型,称为 p-vector。测试阶段,通过抽取测试语音的 p-vector 与注册说话人 p-vector 进行匹配,从而作出判决;另外还详细说明了DNN 隐藏层的作用。通过对 NIST 语料库的实验表明,采用 GMM-DNN 的说话人确认方法相对于传统的 GMM-UBM话者建模方法具有一定的优势。
说话人识别、深度神经网络、高斯混合模型、统计参数
33
TP3(计算技术、计算机技术)
北京市科委项目Z141100006014002。
2017-01-16(万方平台首次上网日期,不代表论文的发表时间)
共5页
131-135