跨模态信息融合的端到端语音翻译

引用

摘要：

语音翻译旨在将一种语言的语音翻译成另一种语言的语音或文本.相比于级联式翻译系统,端到端的语音翻译方法具有时间延迟低、错误累积少和存储空间小等优势,因此越来越多地受到研究者们的关注.但是,端到端的语音翻译方法不仅需要处理较长的语音序列,提取其中的声学信息,而且需要学习源语言语音和目标语言文本之间的对齐关系,从而导致建模困难,且性能欠佳.提出一种跨模态信息融合的端到端的语音翻译方法,该方法将文本机器翻译与语音翻译模型深度结合,针对语音序列长度与文本序列长度不一致的问题,通过过滤声学表示中的冗余信息,使过滤后的声学状态序列长度与对应的文本序列尽可能一致;针对对齐关系难学习的问题,采用基于参数共享的方法将文本机器翻译模型嵌入到语音翻译模型中,并通过多任务训练方法学习源语言语音与目标语言文本之间的对齐关系.在公开的语音翻译数据集上进行的实验表明,所提方法可以显著提升语音翻译的性能.

关键词：语音翻译、神经机器翻译、端到端模型、多模态学习

所属期刊栏目：34

分类号：TP391(计算技术、计算机技术)

资助基金：国家自然科学基金U1836221

在线出版日期：2023-04-19（万方平台首次上网日期，不代表论文的发表时间）

页数：共13页

页码：1837-1849

英文信息展示

个人中心

我的学术圈

我的书案

退出

期刊专题

跨模态信息融合的端到端语音翻译