期刊专题

10.3969/j.issn.1673-5137.2023.03.009

基于BERT条件随机场的标点预测模型

引用
随着人工智能领域的快速发展,语音识别技术已经逐渐应用于各种场景,如电信客服,智能家居,实时翻译等领域.目前的语音识别应用需求,除了单纯高质量输出识别文本,为其识别结果添加合适语境的标点也是及其重要的.为提高文本自动标点的准确率,本文针对互联网数据提出了文本预处理方案,利用深层模型BERT提取隐含的上下文语义特征,并结合CRF加强对输出序列的约束,利用BERT-CRF的融合模型进行标点预测,实验证明BERT-CRF在中文互联网测试集上平均F1分数相比BERT-Softmax提升了6.16%,并通过实验证实了CRF在标点预测任务起到关键作用.针对网络输入长度受限问题,本文提出了提出了截断式推理机制,使模型能够在保留预测效果的同时能够接受任意长度的输入,并通过实验得到模型最佳推理长度区间为60~80.

语音识别、标点预测、BERT、CRF

TP391;TN912.34;TP181

2023-06-28(万方平台首次上网日期,不代表论文的发表时间)

共6页

58-63

相关文献
评论
暂无封面信息
查看本期封面目录

现代传输

1673-5137

51-1692/TN

2023,(3)

相关作者
相关机构

专业内容知识聚合服务平台

国家重点研发计划“现代服务业共性关键技术研发及应用示范”重点专项“4.8专业内容知识聚合服务技术研发与创新服务示范”

国家重点研发计划资助 课题编号:2019YFB1406304
National Key R&D Program of China Grant No. 2019YFB1406304

©天津万方数据有限公司 津ICP备20003920号-1

信息网络传播视听节目许可证 许可证号:0108284

网络出版服务许可证:(总)网出证(京)字096号

违法和不良信息举报电话:4000115888    举报邮箱:problem@wanfangdata.com.cn

举报专区:https://www.12377.cn/

客服邮箱:op@wanfangdata.com.cn

打开万方数据APP,体验更流畅