10.3969/j.issn.1673-5137.2023.03.009
基于BERT条件随机场的标点预测模型
随着人工智能领域的快速发展,语音识别技术已经逐渐应用于各种场景,如电信客服,智能家居,实时翻译等领域.目前的语音识别应用需求,除了单纯高质量输出识别文本,为其识别结果添加合适语境的标点也是及其重要的.为提高文本自动标点的准确率,本文针对互联网数据提出了文本预处理方案,利用深层模型BERT提取隐含的上下文语义特征,并结合CRF加强对输出序列的约束,利用BERT-CRF的融合模型进行标点预测,实验证明BERT-CRF在中文互联网测试集上平均F1分数相比BERT-Softmax提升了6.16%,并通过实验证实了CRF在标点预测任务起到关键作用.针对网络输入长度受限问题,本文提出了提出了截断式推理机制,使模型能够在保留预测效果的同时能够接受任意长度的输入,并通过实验得到模型最佳推理长度区间为60~80.
语音识别、标点预测、BERT、CRF
TP391;TN912.34;TP181
2023-06-28(万方平台首次上网日期,不代表论文的发表时间)
共6页
58-63