10.16451/j.cnki.issn1003-6059.202303006
用于流式语音识别的轻量化端到端声学架构
在流式识别方法中,分块识别破坏并行性且消耗资源较大,而限制自注意力机制的上下文识别很难获得所有信息.由此,文中提出轻量化端到端声学架构(CFLASH-Transducer).为了获取细腻的局部特征,采用轻量化的FLASH(Fast Linear Attention with a Single Head)与卷积神经网络块结合.卷积块中采用Inception V2网络,提取语音信号多尺度的局部特征.再通过Coordinate Attention机制捕获特征的位置信息和多通道之间的相互关联.此外,采用深度可分离卷积,用于特征增强和层间平滑过渡.为了使其可流式化处理音频,采用RNN-T(Recurrent Neural Network Transducer)架构进行训练与解码.将当前块已经计算的全局注意力作为隐变量,传入后续块中,串联各块信息,保留训练的并行性和相关性,并且不会随着序列的增长而消耗计算资源.在开源数据集THCHS30上进行训练与测试,CFLASH-Transducer取得较高的识别率.并且相比离线识别,流式识别精度损失不超过1%.
自动语言识别、流式识别、Fast Linear Attention with a Single Head(FLASH)、卷积神经网络(CNN)、Re-current Neural Network Transducer(RNN-T)
36
TN912.34;TP391.4
天津市虚拟仿真实验教学项目;天津理工大学校级重点教学基金项目
2023-04-25(万方平台首次上网日期,不代表论文的发表时间)
共12页
268-279