基于深度学习的中文实体关系抽取研究

郑肇谦

长春工业大学

下载全文

在线阅读

引用

摘要：

随着互联网技术不断发展和海量数据不断涌现，如何从海量非结构化数据中提取有用的结构化信息成为现阶段的研究热点，关系抽取应运而生。关系抽取作为上游提供基础数据的技术，在下游诸多领域都具有重要的应用价值，如知识图谱、语义理解、推荐检索、机器翻译和智能问答等。近几年，深度学习模型已经成为关系抽取的最先进方法，现有的工作也取得了相当大的成果，但还存在实体嵌套、关系重叠、暴露偏差等问题，严重影响了关系抽取模型的精度，本文从解决上述问题的角度出发，提出了两种实体关系联合抽取模型，主要工作内容包括如下几个方面：　　1.针对现有实体关系抽取方法中存在的实体嵌套问题，区别于原有基于词元（Token）进行关系抽取的思路，采用基于片段（Span）的思路进行关系抽取，并且设计和使用滑动窗口和三种映射策略将词元序列进行组合排列重新平铺成片段序列。　　2.针对现有实体关系抽取方法中存在的暴露偏差和关系重叠等问题，提出了一种基于片段多头选择的实体关系联合抽取方法（SpanbasedMultiHeadSelection，SMHS），将实体关系抽取转化为片段级的多头关系选择问题。首先通过片段标记器、片段嵌入的方式构造片段语义向量，结合所提出的片段映射策略将原本的词元序列转化为片段序列，然后利用LSTM、多头自注意力机制进行片段特征提取，最后使用多头选择机制进行片段级关系解码且引入片段分类任务辅助训练，单步解码出关系三元组。　　3.针对SMHS时间复杂度较大，推理速度较慢，提出了一种基于片段标注的实体关系联合抽取模型（Span-LabelingBasedModel，SLM），将实体关系抽取问题转化为片段标注问题。首先同样地通过将词元向量转化为片段语义向量，结合片段映射策略将词元序列转化为片段序列，然后利用GRU、多头自注意力机制进行片段特征抽取，最后利用精心设计的片段关系标签进行关系标签分类，单步解码出关系三元组。　　4.基于权威中文关系抽取数据集DuIE2.0进行实验，且重新对数据集的标注形式进行修改。为验证模型性能，选取了当前主流的关系抽取模型进行对比实验；为验证所提出模块的有效性，进行消融实验；为探究模型参数对模型的影响，进行影响因素实验。实验表明，本文所提出的两个模型取得了比当前主流抽取方法更好的效果；所提出模块对模型性能确有提升作用；确定了相关参数对模型的潜在影响，验证了模型的有效性和优越性。两个模型比较而言，SMHS的精度较SLM高，但SLM在时间空间复杂度和推理速度方面占据优势。

关键词：关系抽取;深度学习;联合抽取;片段抽取;暴露偏差;关系重叠

授予单位：长春工业大学

授予学位：硕士

学科专业：计算机科学与技术

导师姓名：赵辉

学位年度：2022

语种：中文

分类号：TP391.1

在线出版日期：2022-10-12（万方平台首次上网日期，不代表论文的发表时间）

个人中心

我的学术圈

我的书案

退出

学位专题

基于深度学习的中文实体关系抽取研究