DOI：10.19665/j.issn1001-2400.2020.02.014

卷积神经网络训练访存优化

引用

摘要：

虽然批归一化算法能有效加速深度卷积网络模型的收敛速度,但其数据依赖性复杂,训练时会导致严重的"存储墙"瓶颈.故对使用批归一化算法的卷积神经网络,提出多层融合且重构批归一化层的训练方法,减少模型训练过程中的访存量.首先,通过分析训练时批归一化层的数据依赖、访存特征及模型训练时的访存特征,分析访存瓶颈的关键因素;其次,使用"计算换访存"思想,提出融合"卷积层+批归一化层+激活层"结构的方法,并基于批归一化层的计算访存特征,将其重构为两个子层,分别与相邻层融合,进一步减少训练时对主存的读写,并构建了训练时的访存量模型与计算量模型.实验结果表明,使用NVIDIA TESLA V100 GPU训练ResNet-50、Inception V3及DenseNet模型时,同原始训练方法相比,其访存数据量分别降低了33％,22％及31％,V100的实际计算效率分别提升了20.5％,18.5％以及18.1％.这种优化方法利用了网络结构与模型训练时的访存特点,可与其他访存优化方法协同使用,进一步降低模型训练时的访存量.

关键词：深度卷积神经网络、模型训练、多层融合、批归一化重构、访存优化

所属期刊栏目：47

分类号：TP391(计算技术、计算机技术)

资助基金：国家核高基重点专项面向数据中心云平台与集群计算的智能计算单元2018ZX01028-102

在线出版日期：2020-04-27（万方平台首次上网日期，不代表论文的发表时间）

页数：共10页

页码：98-107

英文信息展示

个人中心

我的学术圈

我的书案

退出

期刊专题

卷积神经网络训练访存优化