基于深度学习的复杂环境声音识别研究

夏蒸富

重庆交通大学

下载全文

在线阅读

引用

摘要：

除视觉系统之外，听觉系统作为人类用于感知环境的最重要途径之一，用于接收外界声音信号，经过大脑处理后获得蕴藏于其中的信息。人类生活中存在的声音种类可大致划分为三大类：语音，音乐以及环境声音。其中，环境声音所包含的信息范围较广：既可能包含某种特定场景的信息，例如描述下雨天的下雨声；也可能包含某种行为发生时伴随的声响，例如射击时发出的枪击声。因此，充分挖掘环境声音所蕴藏的信息，并有效地对其进行利用，这对监测生态环境、维护公共场所安全以及帮助听力障碍人群感知外界环境等方面均具有重要意义。目前，随着大数据时代的来临以及人工智能相关软硬件设施设备的完善发展，采用深度学习方法解决环境声音识别领域问题，逐渐受到研究学者们的青睐。　　然而，环境声音识别问题还存在许多方面有待解决优化。第一，即使是非噪声条件下的环境声音，并不像语音和音乐那样具有大量结构化特征，而是具有大量非稳态、非结构化特征，具有类内差异大、类间差异小的特点，即属于同一类别的环境声音音频，其时域、频域以及时频域特征也可能存在较大差异，这对环境声音识别带来较大困难；第二，大部分现有研究成果所用环境声音音频数据较纯净，噪声强度较弱，因此这些方法基本能够获得较好的环境声音识别效果，但是噪声条件下环境声音识别研究相对较少，该研究方向还有很多值得研究探讨的问题；第三，除了科技公司之外，能够对环境声音识别研究者们提供实际应用的系统还相对较少，大多数研究还是倾向于计算机理论仿真与验证。综上所述，本文主要围绕以下三个方面展开研究：　　（1）在非噪声条件下，针对环境声音时频域特征复杂多变，导致难以准确地提取重点显著特征的问题，研究基于改进精简双线性网络的环境声音识别方法。在保持精简双线性网络架构不变的情况下，通过将密集连接网络用于特征提取、更换降维映射函数、引入能够从水平和竖直方向进行联合加权增强重点显著特征的协同注意力模块，搭建了改进精简双线性网络的环境声音识别模型。环境声音识别公开数据集以及实际采集音频数据集上的测试证明了所提方法的有效性。此外，通过对模型决策中起主要作用的区域进行可视化，直观地展示协同注意力模块的效果。　　（2）在噪声条件下，针对环境声音受噪声干扰，导致识别效果较差的问题，研究基于逐通道阈值残差收缩模块以及双向长短时记忆模块结合网络的环境声音识别方法。对环境声音识别公开数据集进行加噪声处理，获得 8 种信噪比不同的带噪声数据集。主要研究了两个方面的内容：不同程度噪声对环境声音识别数据集的特征分布影响以及对模型识别性能影响。结果表明，在对数据集的特征分布影响方面，适当程度的噪声能够使得数据集的特征分布变得相对松散，增强可分离性；在对模型识别性能影响方面，随着噪声强度的逐渐提升，模型识别性能的总体趋势表现为降低，但中途存在起伏现象。　　（3）设计并且实现了一个环境声音识别系统。采用Vue框架搭建前端，MySQL数据库进行数据管理，Python、Tensorflow以及使用Python编程语言开发的免费开源Web框架Django作为后端，搭建了环境声音识别系统。该系统具有用户注册与登录、音频特征可视化、训练与优化模型、模式切换以及识别结果展示这五个功能。该系统操作简单易用，为环境声音识别模型进行实际应用提供了参考。

关键词：环境声音识别;密集连接网络;注意力机制;逐通道阈值残差收缩;双向长短时记忆

授予单位：重庆交通大学

授予学位：硕士

学科专业：机械工程;机械电子工程

导师姓名：董绍江

学位年度：2023

语种：中文

分类号：TN912.34

在线出版日期：2023-09-14（万方平台首次上网日期，不代表论文的发表时间）

个人中心

我的学术圈

我的书案

退出

学位专题

基于深度学习的复杂环境声音识别研究