10.3969/j.issn.1000-386x.2021.10.049
基于改进的N-gram模型和知识库的文本查错算法
针对语音识别引擎识别后文本容易发生散串错误和同音字错误,提出一种基于改进的N-gram模型和专业术语查错知识库的查错算法.采用Witten-Bell平滑算法解决N-gram模型训练过程中数据稀疏问题,并对N-gram模型增加权重分配,增强模型对散串错误的查错率.针对铁路特殊用语规定和同音字错误,构建一种适应关键字的专业术语查错知识库,实现知识库的自动更新.经过实验对比,该算法查错确率为87.9%,相比通用的N-gram查错模型提高52.8百分点.该算法的提出为后续的纠错以及语音识别准确率的提高奠定了基础,并对铁路车务系统语音识别技术的应用具有重要意义.
N-gram模型;铁路车务标准用语;散串错误;专业术语查错知识库;同音字错误
38
TP391(计算技术、计算机技术)
中国铁路总公司科技研究开发计划重点项目;甘肃省工业交通自动化工程技术研究中心2019年开放基金项目
2021-10-18(万方平台首次上网日期,不代表论文的发表时间)
共7页
310-315,320