基于深度学习的图像细粒度富语义字幕生成方法研究

史淳静

北京化工大学

下载全文

在线阅读

引用

摘要：

图像和文本是生活中最为常见的信息载体，图像字幕生成技术可以应用于导盲助残、多媒体教育、辅助医疗等多个不同领域，具有重要的研究价值和意义。图像字幕生成任务是一种跨模态的生成式任务，结合了计算机视觉与自然语言处理两大领域的关键技术。该任务旨在解析输入模型的图像，根据图像内容生成一段对应的文本描述。如何生成细粒度、富语义的文本，提高图像字幕生成的质量，成为研究的重点和难点。本文利用深度学习方法，就图像字幕生成任务中如何利用图像的实体细节信息、如何充分挖掘图像中潜在的关联关系、如何生成多样化的富语义文本分别展开了研究，主要研究内容如下:　　1、针对图像字幕生成模型如何对图像中存在的视觉实体细节进行捕捉和利用的问题，本文提出了一种基于图像线性视觉特征序列的图像字幕生成方法。该方法使用线性视觉特征序列表征图像的全局和局部视觉语义信息，并利用深度语义编解码器进行深度语义编码，并生成包含细节实体信息的细粒度文本。实验结果表明，该模型在生成文本时可以更多地考虑到图像中的视觉目标实体，增加文本细节，使得模型在公共数据集上的性能获得了提升。　　2、针对图像字幕生成模型如何对图像中潜在的实体间关联信息进行挖掘利用的问题，本文提出了一种基于空间场景图解析的图像字幕生成方法。该方法将图像中的语义信息抽象为空间场景图结果，并利用基于图卷积神经网络的编解码器进行语义编码和解析，最终生成细粒度的文本描述。实验证明，模型能够生成包含实体关联关系的、更细粒度的图像字幕描述，并在公共数据集上提升了部分性能。　　3、针对图像字幕生成模型如何丰富和提高生成的图像字幕内容质量的问题，本文提出了一种基于生成对抗训练的图像字幕生成方法。该方法基于生成对抗网络的核心思想，将图像字幕生成模型的训练过程抽象为一个对抗训练过程，加强了生成器的文本生成能力，生成了更加真实、生动的富语义图像描述。实验证明，经过对抗训练的模型能够生成更加具体、生动的语句，生成更多样化富语义的图像字幕。

关键词：图像字幕生成;深度学习;富语义文本;图像线性视觉特征

授予单位：北京化工大学

授予学位：硕士

学科专业：计算机科学与技术

导师姓名：耿志强

学位年度：2023

语种：中文

分类号：TP391.41

在线出版日期：2023-09-27（万方平台首次上网日期，不代表论文的发表时间）

个人中心

我的学术圈

我的书案

退出

学位专题

基于深度学习的图像细粒度富语义字幕生成方法研究