长文本语义相似度算法研究

张将

北京化工大学

下载全文

在线阅读

引用

摘要：

极速发展的信息技术和快速普及的移动终端促进了信息的传递，日益增长的文本数据成为人们了解信息的重要来源。文本语义相似度计算的应用场景越来越多，对短文本而言，信息检索中输入查询的问题返回最相关的答案，智能客服对话根据用户提出的问题从后台数据库中返回匹配的句子;而像段落这样的长文本则在新闻分类、抄袭判别、文章自动评分等方面有很多应用，具有一定的研究价值。自然语言处理技术的发展为计算文本相似度提供了方法，深度学习模型在短文本相似度任务上获得了良好的效果，然而已有方法在长文本应用的效果并不理想。这是因为和句子相比，段落在组成结构上更加复杂，因此段落的语义相似度计算难度更大。通过对已有方法的学习和总结，本文以段落为例，分别从段落的语义向量表示和段落文本摘要两个方面使用不同的算法计算段落语义相似度。　　段落由多个句子组成，每个句子又包含多个词语，因此可以认为段落的语义表示可以从句子的语义表示得来，基于这个事实，本文提出层次构建信息表示的方法获取段落向量，主要包含有单词编码、单词级注意力、句子编码、句子注意力组成，其中编码采用BiLSTM，注意力使用多头注意力机制，在最后使用CNN进一步提取语义特征，在得到段落对的向量后，通过计算两个向量间的余弦距离作为相似度的得分。相比于长短期记忆网络，本文的模型具有以下优势:(1)多头注意力可以从多个维度对序列数据进行特征的提取，并把多个维度的特征聚合作为最后的信息表示，还可以计算句子中任意两个词之间的语义关联度，这是传统的注意力机制无法得到的信息;(2)考虑到卷积神经网络在局部特征提取中的作用，在句子编码后使用卷积神经网络进一步提取局部特征。　　段落维度高、文本上下文跨度大的特点导致计算难度增大，如果可以将段落维度降低，就可以降低计算的难度。本文提出基于生成摘要的段落相似度算法，主要目的是对段落进行自动摘要，认为摘要可以表示段落的语义，这样段落间的相似度就转换为了句子对的相似度，利用已有算法可以很好解决。本文对已有的抽取式摘要和生成式摘要方法做了研究，提出基于层次结构的生成式文本摘要，利用encoder-decoder框架，在编码端对单词进行层次化编码，然后将得到的句子向量表示输入到BiLSTM进行选择，将新生成的句子级别向量作为中间语义状态，传递给解码端，解码端使用多层LSTM结合Attention进行解码。多层循环神经网络在一定程度上提高生成摘要的准确率，提高模型的泛化能力。

关键词：长文本分析;语义相似度;长短时记忆网络;卷积神经网络;多头注意力机制;层次结构;生成式摘要

授予单位：北京化工大学

授予学位：硕士

学科专业：计算机科学与技术

导师姓名：朱群雄

学位年度：2020

语种：中文

分类号：TP391.1

在线出版日期：2020-11-17（万方平台首次上网日期，不代表论文的发表时间）

个人中心

我的学术圈

我的书案

退出

学位专题

长文本语义相似度算法研究