学位专题

目录>
<

基于标注策略的生物医学实体关系联合抽取方法研究

曹宇
北京化工大学
引用
生物医学实体关系抽取是一项重要的信息提取任务,旨在从非结构化的生物医学文本中抽取出生物医学实体关系三元组。针对生物医学文本的实体关系抽取方法能够帮助人们更好的获取文本中潜藏的生物医学信息,在医药研发、智能诊疗等诸多方面都有重要的应用价值。传统的流水线抽取存在误差传播等问题,因此本文针对生物医学文本特点对面向生物医学领域的联合抽取方法进行了研究,本文主要工作如下所示:  (1)提出了基于BioBERT和多链接握手标注策略的生物医学实体关系联合抽取方法。通过BioBERT构建用于共享的句子编码层,减少误差传播的同时有效利用其包含的生物医学信息。又结合生物医学文本语义复杂、实体关系重叠的特点,采用多链接握手标注策略作为联合解码方式,使得方法能够更好的处理生物医学文本中的复杂实体关系。本文通过与基线模型的对比验证了多链接握手标注策略在生物医学文本上的效果,并在三个生物医学公共数据集上进行了实验,验证了方法的有效性。  (2)针对仅使用BioBERT存在的长距离间语义信息损失以及实体类别信息未被有效利用的问题,提出融合BiLSTM和实体类别标注模块的改进方法。该方法利用BiLSTM更好的捕获长文本间的语义依赖,更适用于生物医学长文本序列,并采用多层标注的方式实现对实体类别信息的有效利用。在三个生物医学数据集上进行实验,F1值均取得了一定提升,并进行消融实验验证了各模块的效果。  (3)针对部分生物医学数据集中每个句子仅有一个头实体的特点,提出了更适配该类数据集的单头多尾标注策略,设计实现了基于单头多尾策略和BioBERT的生物医学实体关系联合抽取方法。该方法能够有效抽取此类数据集的重叠三元组,与1、2中所提方法相比,该方法在保障了抽取结果的同时降低了训练时长。

生物医学文本;多层标注;实体关系;联合抽取

北京化工大学

硕士

计算机技术

史晟辉;汪洋

2022

中文

TP391.1

2022-11-04(万方平台首次上网日期,不代表论文的发表时间)

相关文献
评论
相关作者
相关机构
打开万方数据APP,体验更流畅