面向跨模态数据协同分析的视觉问答方法综述

引用

摘要：

协同分析和处理跨模态数据一直是现代人工智能领域的难点和热点,其主要挑战是跨模态数据具有语义和异构鸿沟.近年来,随着深度学习理论和技术的快速发展,基于深度学习的算法在图像和文本处理领域取得了极大的进步,进而产生了视觉问答(visual question answering,VQA)这一课题.VQA系统利用视觉信息和文本形式的问题作为输入,得出对应的答案,核心在于协同理解和处理视觉、文本信息.因此,对VQA方法进行了详细综述,按照方法原理将现有的VQA方法分为数据融合、跨模态注意力和知识推理3类方法,全面总结分析了VQA方法的最新进展,介绍了常用的VQA数据集,并对未来的研究方向进行了展望.

关键词：跨模态数据、深度学习、视觉问答、数据融合、跨模态注意力、知识推理

所属期刊栏目：48

分类号：U461;TP308(汽车工程)

资助基金：国家自然科学基金;国家自然科学基金;国家自然科学基金

在线出版日期：2022-10-19（万方平台首次上网日期，不代表论文的发表时间）

页数：共12页

页码：1088-1099

英文信息展示

个人中心

我的学术圈

我的书案

退出

期刊专题

面向跨模态数据协同分析的视觉问答方法综述