10.3969/j.issn.1001-4616.2022.04.015
基于深度学习的长语音口音识别研究
普通话口音识别是物证鉴定的重要技术之一.目前普通话口音识别技术主要基于传统机器学习方法建立,也未针对长语音做专门设计,识别精度不高.针对以上问题,本文提出了基于深度学习的长语音口音识别方法.该方法首先将长语音切分为句子级别的多个短语音,然后使用经过预训练的X-vectors模型提取特征,再基于不同方法对句子特征进行融合,最后采用Amsoftmax最大化口音类别间隔并进行分类.在真实的物证口音识别数据集上的实验结果显示,本文方法的识别精确率为94.1%,比非深度学习的基准方法和基于X-vectors的基准方法分别提升了21.6%和2.1%,验证了本文方法的有效性和针对长语音的口音识别能力.
深度学习、口音识别、长语音、普通话
45
TP18;TN912.34(自动化基础理论)
国家自然科学基金;江苏省社科基金项目;江苏省教育厅自然科学项目;江苏高校优势学科工程资助项目
2023-01-04(万方平台首次上网日期,不代表论文的发表时间)
共9页
110-118