DOI：10.3969/j.issn.1000-386x.2021.10.049

基于改进的N-gram模型和知识库的文本查错算法

引用

摘要：

针对语音识别引擎识别后文本容易发生散串错误和同音字错误,提出一种基于改进的N-gram模型和专业术语查错知识库的查错算法.采用Witten-Bell平滑算法解决N-gram模型训练过程中数据稀疏问题,并对N-gram模型增加权重分配,增强模型对散串错误的查错率.针对铁路特殊用语规定和同音字错误,构建一种适应关键字的专业术语查错知识库,实现知识库的自动更新.经过实验对比,该算法查错确率为87.9％,相比通用的N-gram查错模型提高52.8百分点.该算法的提出为后续的纠错以及语音识别准确率的提高奠定了基础,并对铁路车务系统语音识别技术的应用具有重要意义.

关键词：N-gram模型;铁路车务标准用语;散串错误;专业术语查错知识库;同音字错误

所属期刊栏目：38

分类号：TP391(计算技术、计算机技术)

资助基金：中国铁路总公司科技研究开发计划重点项目;甘肃省工业交通自动化工程技术研究中心2019年开放基金项目

在线出版日期：2021-10-18（万方平台首次上网日期，不代表论文的发表时间）

页数：共7页

页码：310-315,320

英文信息展示

个人中心

我的学术圈

我的书案

退出

期刊专题

基于改进的N-gram模型和知识库的文本查错算法