基于改进的深度信念网的中文电子病历命名实体识别方法研究

李五锁

北京化工大学

下载全文

在线阅读

引用

摘要：

随着计算机相关领域的科学与技术的飞速发展，医疗卫生领域的信息技术也得到了广泛的普及应用并且迅速的提高。在国家一系列的政策的大力支撑下，迅速普及了医院信息系统(HospitalInformationSystem，HIS)。由此而带来了巨量的、叙述形式记录的电子病历(ElectronicMedicalRecords，EMR)医疗数据。EMR中也包含了大量的医疗文本信息有待挖掘，于是自然语言处理(NaturalLanguageProcessing，NLP)的命名实体识别(NamedEntityRecognition，NER)被引入其中。命名实体识别的方法是国内外各类研究人员的重要的研究方向之一。至今，NER虽然有了长时间的发展，然而其识别的准确率与F1-值并不能够满足现在的需求。其主要表现为，传统的机器学习的NER方法，基本为计算条件概率的最大化，难以获取文本数据中，类似同、反、近义等词的相关语义、句义深层信息。有鉴于此，本文基于深度学习对EMR进行NER研究。其主要研究内容如下几个方面，　　首先，本文对国内外各类常用的传统的命名实体识别方法，进行针对性研究其中包含的深层原理、优缺点以及现实中的应用。并对当前电子病历命名实体识别的研究瓶颈进行分析，并且针对性的提出改进思路。　　其次，针对国内的统一规范的电子病历数据的严重缺乏。本文研究了一种增量式的融合中文文本病历库的方法。该方法实现将非结构化的文本病历数据进行融合，且不影响原系统稳定性，操作简单，效率高，不需要二次修正。并依照该方法形成了EMR的融合库，以供NER或者进一步的研究。　　随后，本文对深度学习中的基础模型——深度信念网(DeepBeliefNetwork，DBN)，进行详细的研究。同时，针对电子病历的NER，提出改进的DBN模型，增加词性节点，以促进识别的效果。然后，基于改进的DBN，采用词向量作为输入的方式，既解决了深度学习的模型无法将文本数据作为直接的输入，同时也可获取语义、句义等信息。　　最后，本文研究了基于改进的DBN的命名实体识别方法。然后将其与传统的DBN的方法以及传统的机器学习的方法中的最大熵马尔科夫模型（MaximumEntropyMarkovModels，MEMMs）、条件随机场模型(Conditionalrandomfield，CRF)，进行对比实验。记录其在训练数据、测试数据上的表现。实验结果表明本文提出的改进的DBN模型的NER方法效果最优，F1-值到达了91.749％，超过CRF模型方法约0.4％，超过MEMM模型方法约0.8％。　　实验结果表明，采用词向量DBN模型可以对中文电子病历进行命名实体识别，而带有词性节点的改进的DBN相比则效果更佳。其后，又对该实验的结果进行分析发现，通过使用词向量可以获得词语的语义等信息，将其作为DBN模型的输入可以对中文电子病历进行命名实体识别;并且，使用带有词性(Part-Of-Speech，POS)节点的改进的DBN模型的识别效果则更佳，也说明了词性与命名实体之间包含着深层关系。本文提出的带有POS节点的改进的DBN的NER方法，对推动中EMR的NLP研究提供参考、借鉴，以及对医疗信息提取、医疗决策以及辅助治疗等有着积极指导意义。

关键词：中文电子病历;命名实体识别;深度信念网;条件随机场;最大熵马尔科夫模型

授予单位：北京化工大学

授予学位：硕士

学科专业：软件工程

导师姓名：史晟辉

学位年度：2018

语种：中文

分类号：TP391.1

在线出版日期：2023-07-10（万方平台首次上网日期，不代表论文的发表时间）

个人中心

我的学术圈

我的书案

退出

学位专题

基于改进的深度信念网的中文电子病历命名实体识别方法研究