10.3969/j.issn.1000-386x.2022.05.036
基于视听与字幕特征融合的暴力场景检测方法
在暴力场景检测任务中,现有的方法着重于对音频或视频的单模态特征进行研究.近年来,虽然基于视听融合的双模态特征已被应用于暴力场景检测并取得了不错的效果,但该方法仍然忽视了媒体中字幕所包含的信息.针对这种情况,提出一种融合视听与字幕信息多模态特征的分类模型用于暴力场景检测.通过基于可训练COPE特征提取的方法提取音频特征,并与基于CNN-LSTM的视觉特征和基于CNN-RNN的字幕特征进行融合.在公开暴力数据集上进行测试,实验表明提出的方法相比于现有方法取得了更高的mAP值,在暴力场景检测任务中表现较好.
暴力检测、多模态、特征融合
39
TP3(计算技术、计算机技术)
湖北省自然科学基金2019CFC919
2022-07-11(万方平台首次上网日期,不代表论文的发表时间)
共11页
230-240