基于深度神经网络的有监督语音增强研究

白爽冉

山东大学

下载全文

在线阅读

引用

摘要：

随着人工智能的发展，语音成为人机交互的重要方式。然而，现实生活中复杂多变的噪声严重影响语音识别系统的正确率，降低了用户体验。语音增强技术旨在抑制带噪语音中的噪声，以提高目标语音的感知质量和可懂度，从而使人机交互变得更加高效。传统的语音增强方法大多基于噪声估计来进行语音的降噪，过程简单易于实现，但对非平稳噪声的处理效果较差，在实际应用中具有一定的局限性。相比于传统的语音增强方法，基于深度学习的有监督语音增强方法能够自动深入地学习带噪语音特征与目标语音之间的非线性映射关系，在一定程度上提升低信噪比、非平稳噪声环境中的语音质量。本文主要关注基于深度神经网络的有监督语音增强方法，主要研究内容如下:　　(1)提出了基于门控循环单元(GRU)神经网络的语音增强方法。前馈全连接深度神经网络(DNN)虽然具有一定的非线性表达能力，但无法很好地学习语音信号的上下文信息。本文利用GRU的门控装置来学习语音信号中的长短时信息，可以有效弥补DNN模型的缺陷。更重要的是，所提的GRU模型与长短时记忆(LSTM)模型相比，具有更少的可训练参数，能够在保证神经元记忆能力的同时提高模型的训练速度。本文在匹配噪声测试集、不匹配噪声测试集以及不匹配信噪比测试集上对所提的GRU模型进行实验。实验结果表明，GRU模型的训练速度比LSTM模型的训练速度快，并且具有与LSTM模型相媲美的泛化能力，其增强的语音与LSTM模型增强的语音具有相当的感知质量和可懂度。最后，在真实噪声测试集上进一步验证了基于GRU语音增强方法的有效性。　　(2)提出了联合卷积神经网络和门控循环单元神经网络的CNN-GRU语音增强方法。CNN具有强大的特征学习能力，擅长挖掘数据中隐藏的结构信息。GRU是一种门控循环神经网络，能够学习语音信号中的长时依赖信息。本文先利用卷积层学习语音信号中的局部特征，然后通过在卷积层后连接门控循环单元层来学习不同时间段局部特征之间的关联性，最后利用全连接层学习语音特征与理想目标之间的非线性映射关系，从而可以充分学习语音信号的时频相关性。本文在匹配噪声测试集、不匹配噪声测试集、不匹配信噪比测试集以及真实噪声测试集上对CNN-GRU模型进行实验，并与CNN模型和GRU模型对比。实验结果表明，CNN-GRU模型具有较好的泛化能力，其增强的语音与CNN模型和GRU模型增强的语音相比，具有更好的感知质量。　　本文最后对全文的研究工作进行总结，并对该课题未来的研究方向进行展望。

关键词：有监督语音增强;深度神经网络;噪声环境;低信噪比

授予单位：山东大学

授予学位：硕士

学科专业：系统分析与集成

导师姓名：刘允刚

学位年度：2019

语种：中文

分类号：TN912.35

在线出版日期：2019-09-16（万方平台首次上网日期，不代表论文的发表时间）

个人中心

我的学术圈

我的书案

退出

学位专题

基于深度神经网络的有监督语音增强研究