学位专题

目录>
<

基于改进的深度信念网的中文电子病历命名实体识别方法研究

李五锁
北京化工大学
引用
随着计算机相关领域的科学与技术的飞速发展,医疗卫生领域的信息技术也得到了广泛的普及应用并且迅速的提高。在国家一系列的政策的大力支撑下,迅速普及了医院信息系统(HospitalInformationSystem,HIS)。由此而带来了巨量的、叙述形式记录的电子病历(ElectronicMedicalRecords,EMR)医疗数据。EMR中也包含了大量的医疗文本信息有待挖掘,于是自然语言处理(NaturalLanguageProcessing,NLP)的命名实体识别(NamedEntityRecognition,NER)被引入其中。命名实体识别的方法是国内外各类研究人员的重要的研究方向之一。至今,NER虽然有了长时间的发展,然而其识别的准确率与F1-值并不能够满足现在的需求。其主要表现为,传统的机器学习的NER方法,基本为计算条件概率的最大化,难以获取文本数据中,类似同、反、近义等词的相关语义、句义深层信息。有鉴于此,本文基于深度学习对EMR进行NER研究。其主要研究内容如下几个方面,  首先,本文对国内外各类常用的传统的命名实体识别方法,进行针对性研究其中包含的深层原理、优缺点以及现实中的应用。并对当前电子病历命名实体识别的研究瓶颈进行分析,并且针对性的提出改进思路。  其次,针对国内的统一规范的电子病历数据的严重缺乏。本文研究了一种增量式的融合中文文本病历库的方法。该方法实现将非结构化的文本病历数据进行融合,且不影响原系统稳定性,操作简单,效率高,不需要二次修正。并依照该方法形成了EMR的融合库,以供NER或者进一步的研究。  随后,本文对深度学习中的基础模型——深度信念网(DeepBeliefNetwork,DBN),进行详细的研究。同时,针对电子病历的NER,提出改进的DBN模型,增加词性节点,以促进识别的效果。然后,基于改进的DBN,采用词向量作为输入的方式,既解决了深度学习的模型无法将文本数据作为直接的输入,同时也可获取语义、句义等信息。  最后,本文研究了基于改进的DBN的命名实体识别方法。然后将其与传统的DBN的方法以及传统的机器学习的方法中的最大熵马尔科夫模型(MaximumEntropyMarkovModels,MEMMs)、条件随机场模型(Conditionalrandomfield,CRF),进行对比实验。记录其在训练数据、测试数据上的表现。实验结果表明本文提出的改进的DBN模型的NER方法效果最优,F1-值到达了91.749%,超过CRF模型方法约0.4%,超过MEMM模型方法约0.8%。  实验结果表明,采用词向量DBN模型可以对中文电子病历进行命名实体识别,而带有词性节点的改进的DBN相比则效果更佳。其后,又对该实验的结果进行分析发现,通过使用词向量可以获得词语的语义等信息,将其作为DBN模型的输入可以对中文电子病历进行命名实体识别;并且,使用带有词性(Part-Of-Speech,POS)节点的改进的DBN模型的识别效果则更佳,也说明了词性与命名实体之间包含着深层关系。本文提出的带有POS节点的改进的DBN的NER方法,对推动中EMR的NLP研究提供参考、借鉴,以及对医疗信息提取、医疗决策以及辅助治疗等有着积极指导意义。

中文电子病历;命名实体识别;深度信念网;条件随机场;最大熵马尔科夫模型

北京化工大学

硕士

软件工程

史晟辉

2018

中文

TP391.1

2023-07-10(万方平台首次上网日期,不代表论文的发表时间)

相关文献
评论
相关作者
相关机构
打开万方数据APP,体验更流畅