学位专题

目录>
<

面向中医文本的关系抽取技术研究

赵立鹏
华北理工大学
引用
随着时代的进步创新,自然语言处理技术也逐渐的应用到中医领域。其中关系抽取旨在挖掘和抽取实体间的关系,或通过预定义的关系抽取目标实体的对应属性。研究内容总体上围绕“实体”和“关系”两个概念展开。因此课题的内容主要包含以下两个部分:  首先研究中医文本实体识别的方法。基于统计的机器学习方法比较依赖于人工特征的选择,需要手动从文本中选取各种能够高效表征任务的特征,并将这些特征融入进模型所能识别的特征向量中,后来又提出了一种不仅能够保留句子的上下文关联信息,同时也可以提取相应属性特征的神经网络——双向长短记忆神经网络。研究表明,该神经网络对于时间序列的标注通常可以取得很好的效果。课题采用了双向长短记忆神经网络和条件随机场相结合的模型来实现对于中医文本实体对的识别。  其次研究中医文本实体关系抽取的方法。传统的基于机器学习的实体关系抽取方法需要手动选取一些离散特征。针对不同领域的文本,专业性强,更多的是依赖领域专家的经验与判断。由于特征类型的选取直接影响到最终的抽取结果,很多时候,无法预知预先定义的特征是否有效,特征数量的选取也没有既定的规范,实际应用起来也是难度很大。近年来新提出的基于深度学习原理的关系抽取算法能够实现文本实体关系特征的自动抽取,不仅避免了使用现有自然语言处理工具所造成的误差传递,而且文本的结构语义信息得以保留。针对中医文本的概念模糊化、语言抽象化、通假字、实体名偏长、一词多义和多词一义等特点和难点。采用了门控制循环单元与卷积神经网络,并引入注意力机制,其中门控制循环单元是长短记忆神经网络的一种改进,减少了训练参数,提高了模型训练的速率。  通过与其他模型的对比实验表明,实体识别与关系抽取模型相较于传统方法在正确率、召回率和F值均取得了一定提升。

中医文本;实体识别;关系抽取;深度学习;注意力机制

华北理工大学

硕士

计算机应用技术

张振友;马月坤

2018

中文

TP393.09;TP391.1

2019-12-10(万方平台首次上网日期,不代表论文的发表时间)

相关文献
评论
相关作者
相关机构
打开万方数据APP,体验更流畅