基于半监督多特征模型的中文医疗文本命名实体识别方法研究

杨廷伟

北京化工大学

下载全文

在线阅读

引用

摘要：

中文医疗文本记录中涵盖的命名实体包含着大量与患者健康密切相关的医疗信息，快速准确的识别出中文医疗文本数据中的医疗命名实体，是推动医疗智能化发展的关键问题。但中文医疗文本记录中包含患者的个人信息，因此公开的中文医疗文本数据很少，并且带有标注信息中文医疗文本数据较少，严重阻碍了中文医疗命名实体识别的发展。　　随着命名实体识别技术的发展，使用深度学习的方式进行命名实体识别任务已成为研究人员关注的焦点。BiLSTM(Bi-directional Long Short-Term Memory，BiLSTM)模型利用提取到的文本数据中的上下文特征，达到了识别命名实体的目的。但BiLSTM提取到的文本特征单一，而且模型的训练速度慢，本文针对“特征提取单一，训练速度慢”的问题，提出使用BiLSTM和IDCNN(Iterated Dilated Convolution Neural Networks，IDCNN)混合模型，并行提取文本的上下文特征和实体的周边特征来实现中文医疗文本数据中的命名实体识别，缩短模型的训练时间，提高模型的识别效果。在识别过程中，本文还针对“出现无效标签”的问题，在混合模型的基础上加入CRF(Conditional Random Field，CRF)，学习标签间的约束规则，降低识别结果中无效标签出现的概率。另外，针对“带标注信息医疗文本有限”的问题，本文使用半监督学习的方式，结合带标注信息和不带标注信息的医疗文本数据对多特征模型进行训练。通过实验论证半监督多特征模型命名实体识别方法的可行性和有效性。本文中还使用3个公开数据集的通用新闻语料，结合有监督和半监督学习方式对多特征模型进行训练，实验结果验证了本文所提方法的合理性和通用性。　　本文提出的多特征模型，实现了加速模型训练，提高命名实体识别效果的目的，而且使用半监督学习，降低了标注文本数据的资源消耗，对于标注数据较少的领域进行命名实体识别任务，具有重要的科学意义和使用价值。

关键词：医疗文本;命名实体识别;多特征模型;半监督学习

授予单位：北京化工大学

授予学位：硕士

学科专业：软件工程

导师姓名：姜大光

学位年度：2020

语种：中文

分类号：TP391.1

在线出版日期：2020-11-17（万方平台首次上网日期，不代表论文的发表时间）

个人中心

我的学术圈

我的书案

退出

学位专题

基于半监督多特征模型的中文医疗文本命名实体识别方法研究