学位专题

目录>
<

基于预训练语言模型的藏文分词与词性标注研究

索朗次仁
西藏大学
引用
藏文有着悠久的历史,语法理论体系健全。长久以来党和国家一直心系着藏民族地区语言文字保护和传承问题,藏文信息技术的研究取得了很好地成果。藏文信息处理研究中,藏文分词与词性标注作为藏文自然语言处理的基础性研究任务,是藏文句法分析、分本分类、机器翻译、语音识别等众多自然语言处理基础和关键。已有很多学者、研究机构进行深入的探究,提出了很多解决方案,包括基于规则、基于统计、基于深度学习等,也取得了较好的研究成果,但是由于藏文语言自身的特点,计算机处理时存在一些问题,使的藏文词法分析还有较大的研究空间。  为了提高藏文分词和词性标注的准确率,进一步推动藏文信息处理的基础性研究工作,本文在比较不同神经网络模型处理该任务的基础上,选择了自然语言处理任务中表现较突出的BERT模型作为基础,并结合藏文文本的特点,提出了基于藏文子词词典的遮蔽预训练方法,训练得到藏文预训练语言模型,实验验证了本文模型能够有效处理藏文分词和词性标注任务,并为藏文信息处理其他任务提供了帮助。  本文主要完成了以下研究工作:  1.构建了藏文分词和词性标注数据集。为了机器学习的需要,对藏文语料进行预处理,包括分句等。构建了用于藏文预训练语言模型训练及藏文分词和词性标注的训练和测试语料。  2.构建了藏文子词词典。针对目前藏文语料质量偏低、数量较少,且其中参杂中英文等多种文本,采用语料学习的方法构建的藏文子词词典难以涵盖所有藏文词语的问题,提出了一种介于藏文构件和字之间的藏文子词学习方法,通过藏文构字、构词规则将藏字或词拆分为一个或多个构件组成的子词从而构建了一个藏文子词词典,通过测试,证明方法有效性。  3.基于藏文子词遮蔽的预训练语言模型。针对藏文静态词向量模型的不足。本文根据构建的藏文子词词典,提出了一种基于子词级的藏文遮蔽预训练方法,使用藏文子词级词向量表示方式和藏文子词级的位置向量嵌入方式作为BERT模型的输入,训练得到了适用藏文的预训练语言模型,并在词预测实验及对比实验中验证模型的有效性。  4.基于预训练语言模型的藏文分词和词性标注。针对目前藏文分词与词性标注存在的虚词、未登录词识别难等问题。在预训练语言模型的基础上利用少量的标注语料进行微调,通过迁移学习的方法将高质量语料上学习到的语法、语义特征映射到低质量的藏文语料。通过实验展示了预训练语言模型在分词、词性标注及命名实体识别等特定下游任务上的有效性。  本文取得了以下研究成果:  1.获取了用于藏文预训练模型的训练和测试语料178M以及用于分词和词性标注微调阶段的训练和测试语料各有约31M和75M。语料涉及新闻、娱乐、诗歌、文化、宗教等多个领域。  2.本文通过实验验证了所提出的藏文子词词典方法的有效性。提出了一种基于子词拆分的藏文子词词典构建方法,该方法能够准确对标准藏字进行拆分从而序列化,符合预训练语言模型的输入要求,提高了网络性能,同时也能兼顾了未登录词、兼类词等的识别。  3.本文通过实验证明了预训练语言模型的有效性。根据基于藏文子词的遮蔽预训练思路,在1062180个藏文句子上进行遮蔽训练,得到了适用藏文的预训练语言模型,在预训练阶段,将藏文音节的词向量和位置向量叠加作为模型的输入,通过子词级文本表示与子词级遮蔽训练,实现了对整个藏文音节(词)的遮蔽,提升了BERT模型的藏文词向量表达能力和预测能力。  4.本文通过实验证明了基于预训练语言模型的藏文分词和词性标注及命名实体识别的有效性。通过更改藏文预训练语言模型网络参数,利用少量的标注语料进行微调后识别效果提升显著。提出了一种基于子词拆分的藏文分词和词性标注方法。a)在藏文分词任务中,选取第公开的藏文分词评测语料进行实验。结果表明,基于预训练语言模型的分词结果F1值为92.97%,比没有经过预训练的分词提升2.57%;不同词位标注法中,2词位标注法F1值为95.8%,比4词位标注法提升2.83%;b)在藏文词性标注任务中,再分词基础上,根据标准规范对数据集进行训练测试,准确率达到 97.04%。相比于传统的词性标注方式效果显著;c)在藏文命名实体识别中,对比目前主流的四个命名实体识别神经网络模型, BiGRU-CRF 模型、BiLSTM-CRF 模型、IDCNN-BiLSTM-CRF模型、IDCNN-BiGRU-CRF模型,本文F1值为98.85%,效果最佳。

藏文分词;词性标注;预训练语言模型;命名实体识别

西藏大学

硕士

中国少数民族语言文学

高定国

2023

中文

TP391.1

2023-09-19(万方平台首次上网日期,不代表论文的发表时间)

相关文献
评论
相关作者
相关机构
打开万方数据APP,体验更流畅