10.3969/j.issn.2095-2163.2021.11.012
基于特征压缩和残差网络的语音重放检测
目前的语音重放攻击检测系统中,绝大部分性能良好的系统采用的特征和网络模型的数据量都很大,训练速度慢、对设备要求高.因此本文提出了一种基于CQT(Constant Q Transform)变换的时间帧压缩方法,以减小特征尺寸和网络模型参数量,从而加快训练速度、降低设备要求.首先,将语音信号的CQT谱在时间帧维度上压缩,得到一维特征,成百倍地减少特征数据量;其次,对应设计一维小型残差网络模型,以辅助进一步减少数据量;最后,在ASVspoof2019挑战赛的PA数据集上训练并测试网络模型性能.实验结果表明,本文的特征提取算法和网络模型,相比挑战赛的基线系统以及其他特征-模型的性能有明显提升,t-DCF为0.1051,EER为3.74%,并且训练速度快、设备要求低.
CQT变换;语音重放攻击检测;特征提取;时间帧压缩;小型残差网络
11
TN912.34;TP183
四川省科技计划项目;四川省教育厅项目
2022-01-05(万方平台首次上网日期,不代表论文的发表时间)
共6页
54-58,63