10.19665/j.issn1001-2400.2022.04.013
一种多模态特征编码的短视频多标签分类方法
随着智能手机的普及和移动互联网的发展,短视频作为一种新兴的用户生成内容得到快速传播,浏览短视频也成为了最流行的娱乐方式之一.短视频天然具有模态和语义上的关联性,如何利用这种关联性是短视频表示学习的关键.针对短视频的多标签分类问题,提出了一种基于多模态子空间编码的短视频多标签分类模型,该模型将多模态下的子空间编码学习同标签语义相关性学习整合为一个统一框架.模型利用子空间编码网络获取完备的公共表示,充分挖掘短视频多个模态下的一致性和互补性信息,同时去除冗余信息,减小噪声的影响,获取模态融合的公共完备表示;利用图卷积网络构建标签相关性矩阵,学习标签间语义关联表示,将其用于指导多标签分类任务.对特征层和标签层信息进行更充分的融合交互以提高分类性能.算法从整体上构建了模态重构损失和多标签分类损失,充分利用短视频的多模态特性和多标签关联,在公开数据集上进行实验,证明了所提模型在分类任务的有效性和优越性.
短视频、多模态融合、深度学习、多标签分类、神经网络
49
TP391(计算技术、计算机技术)
国家自然科学基金;天津市自然科学基金;博士后科学基金
2022-08-29(万方平台首次上网日期,不代表论文的发表时间)
共9页
109-117