基于多层聚焦Inception-V3卷积网络的细粒度图像分类
细粒度图片具有结构多变、背景干扰大、类间差异小、类内差异大等特点,准确地定位与提取判别性局部特征至关重要.本文提出一种多层聚焦卷积网络,通过首层聚焦网络能够准确、有效地聚焦于识别局域并生成定位区域,根据定位区域对原图像分别进行裁剪和遮挡后输入下一层的聚焦网络进行训练分类.其中单层聚焦网络以In-ception-V3网络为基础,通过卷积块特征注意力模块和定位区域选择机制来聚焦有效的定位区域;使用双线性注意力最大池化提取各个局部的特征;最后进行分类预测.本文在3个常用的细粒度数据集CUB-2011、FGVC-Aircraft以及Stanford Cars上进行了实验验证,分别获得了89.7%、93.6%和95.1%的Top-1准确率.实验结果表明,本模型的分类准确率高于目前主流方法.
多层聚焦卷积网络、Inception-V3网络、注意力机制、双线性注意力最大池化
50
TP391(计算技术、计算机技术)
国家自然科学基金;国家自然科学基金;云南省计算机技术应用重点实验室开放基金
2022-03-30(万方平台首次上网日期,不代表论文的发表时间)
共7页
72-78