结合食物标签语义嵌入和注意力融合的食物图像识别研究

周泳鑫

华南理工大学

下载全文

在线阅读

引用

摘要：

食物是人类的必需品，对人类的生活、健康有着重要的作用。这也使得食物相关的应用得到广泛的关注。食物图像识别是众多食物应用的基础任务，一旦确定了食物类别，就可以进行膳食管理，营养分析或自动结算等应用。随着近年来深度学习的发展，食物图像识别得到了很大的进展。　　食物图像识别归属于细粒度分类任务，然而不同于一般的细粒度类别，如鸟，车或飞机等，食物没有固定的空间结构或共有的语义模式。这使得基于空间关系约束的细粒度分类方法无法很好的应用在食物图像识别任务上。现有的食物识别方法都需要针对性的对局部和全局特征进行复杂处理。针对食物类别的特点，另一种常规的解决方法是引入额外的监督信息来促进图像识别。这些额外的监督信息通常来自于食物相关的上下文信息或外部知识，如食物图片的GPS定位，食物的餐厅来源，或食物的成分，烹饪方式，食谱等。然而直接收集这些额外的信息需要花费大量的人力成本和时间成本，收益低，也难以泛用到其他食物识别场景。针对以上问题，本文就基于深度学习的食物识别任务中的关键技术进行研究，提出了新的注意力模块以及多模态融合损失函数，解决食物图像识别的细粒度特征提取问题以及多模态信息融合问题。　　首先，本文提出了基于变换器Transformer的窗口注意力融合模块，该模块利用变换器Transformer固有的自注意力机制来自适应地选择原始图像的判别区域，在训练中不需要额外的锚框标注。具体来说，该模块融合了SwinTransformer不同尺度大小的窗口注意力权重，形成注意力掩膜。通过基于注意力掩膜的最大连通区域裁剪原始图像，可以得到食物图像局部关键区域。最后将该区域放大并输入到下一阶段的细粒度网络，迭代地学习细粒度特征。该模块解决了食物没有固定空间结构和语义模式的细粒度识别问题。　　其次，相比于其他上下文信息和外部知识，食物类别的名称便于获取，且与食物本身密切联系，包含着食物重要文本信息，如主要成分，烹饪方式或产地等。对此，本文提出了基于自然语言处理的上下文语义中心损失。利用BERT相关的自然语言处理方法来提取食物标签的上下文语义嵌入，并将该嵌入作为深度特征空间的类别中心，最小化图像特征与语义嵌入之间的距离，指引模型学习到相关的食物语义信息。训练中上下文语义中心损失联合了分类交叉熵损失进行监督学习，学习到的深度特征能够有效的提升食物识别的性能。　　最后，为了说明本文方法的有效性，本文在三个公开食物图像数据集(Food-101,VireoFood-172和ChineseFoodNet)里进行了大量的实验，并与目前已发表的先进的食物识别方法进行了充分的横向对比。实验结果表明，本文提出的语义中心损失(SCG)和窗口注意力融合模块(WAFM)的方法均能够接近和达到业界最优方法的识别效果，而结合两者的SCG-WAFM方法则成为了目前最先进的食物图像识别方法。此外，本文的模型不需要复杂的训练策略，可以直接端到端的训练，极大地简化了训练过程，端到端的推理也方便了模型部署。

关键词：食物图像;图像识别;细粒度分类;注意力融合;上下文语义

授予单位：华南理工大学

授予学位：硕士

学科专业：控制科学与工程

导师姓名：康文雄

学位年度：2022

语种：中文

分类号：TP391.41

在线出版日期：2022-12-23（万方平台首次上网日期，不代表论文的发表时间）

个人中心

退出

学位专题

结合食物标签语义嵌入和注意力融合的食物图像识别研究