信息抽取方法研究及其在政务文本知识图谱中的应用

李俊

北京化工大学

下载全文

在线阅读

引用

摘要：

随着大数据时代的到来，利用信息抽取技术可以有效地从海量文本数据中提取出重要的语义信息，并将非结构与半结构化数据高效地转变为统一的结构化数据。随着政府数字化转型改革的不断深入，与日俱增的政务文本数据已经成为社会治理的重要资源和决策关键，因此，借助自然语言处理、信息抽取、知识图谱等人工智能技术对政务文本数据进行知识梳理与信息挖掘，对提升决策者的知识阅读、信息获取效率，以及打造良好的智慧政务工作环境具有重要意义。　　当前政务提案文本的信息抽取方法研究仍处于起步阶段，其原因有两个方面:一方面是现有的命名实体识别模型与关系分类模型未能有效地提取文本的语义特征信息，导致现有模型精度不高，无法满足政务领域的业务需求;另一方面是缺乏政务领域基准数据集。基于此，本文展开了信息抽取方法研究及其在政务提案文本知识图谱中的应用。　　(1)针对现有命名实体识别模型准确率低且难以实现并行计算的问题，提出了一种基于分层Softmax策略的命名实体识别方法。通过结合Transformer结构特性与分层Softmax计算策略，利用文本中字符级、词级、位置的特征信息得到上下文依存信息，建立了一种并行化计算的高性能命名实体识别模型。模型在Resume、Weibo公开数据集上分别获得了96.24％和70.32％的最佳F1分数，其效果优于其他对比模型。　　(2)针对传统注意力机制计算性能差的问题，提出了一种基于目标注意力机制的关系分类方法。通过引入目标注意力机制来解决计算冗余问题，并充分利用词嵌入信息和位置嵌入信息得到上下文的重要语义信息,实现了一种结构简单且准确率高的关系分类模型。模型在SemEval-2010task8、Conll04公开数据集上分别获得了85.27％和71.39％的最佳F1分数，其性能明显优于其他对比模型。　　(3)针对政务领域基准数据集匮乏的问题，提出了一种基于粗细粒度划分的政务提案文本数据集构建方法，创建了面向政务提案文本领域的基准数据集。同时，利用Neo4j图数据库构建了基于信息抽取方法的政务提案文本知识图谱，并实现了政务提案文本知识图谱的可视化展示，使得所建的政务提案文本知识图谱有效地提升了政务文本数据采集、整理及应用水平，同时也促进了政府组织机构智慧政务的发展。

关键词：信息抽取;目标注意力机制;命名实体识别;知识图谱;政务文本

授予单位：北京化工大学

授予学位：硕士

学科专业：计算机科学与技术

导师姓名：耿志强

学位年度：2023

语种：中文

分类号：TP391.1

在线出版日期：2023-09-27（万方平台首次上网日期，不代表论文的发表时间）

个人中心

我的学术圈

我的书案

退出

学位专题

信息抽取方法研究及其在政务文本知识图谱中的应用