基于FPGA的深度信念网络加速系统研究

赵洋洋

中国科学技术大学

下载全文

在线阅读

引用

摘要：

近几年，随着深度学习概念的提出，以及计算能力的不断提高，深度学习展示出了很高的科研价值和实用价值，受到了学术界和工业界的青睐。深度学习的概念源于人工神经网络，是机器学习中富有生命力的一个研究领域，其动机在于建立、模拟人脑的神经网络，来解释图像、声音和文本等数据。深度信念网络是深度学习中一种基础的深度神经网络类型，也是一种典型的深度生成式模型，由多层受限玻尔兹曼机堆叠而成。目前深度信念网络普遍应用于语音识别、手写识别、文本分类等应用领域。　　深度信念网络属于全连接神经网络，因此当网络规模不断增加时，其参数量和计算量均急剧增加。如何更快速有效地处理海量数据，是深度信念网络的主要研究方向之一。目前通过多核处理器集群、云计算平台或通用图像处理器对其加速都有比较成熟的研究，但仍存在计算效率低或能耗开销高等问题。　　采用现场可编程门阵列FPGA等可编程硬件加速深度学习算法是常用的加速手段之一。基于FPGA的深度学习加速器具有高性能、低功耗、可重构等特点。本文从深度信念网络的预测过程出发，研究在FPGA加速平台上对全连接结构的神经网络的高性能实现，并设计相应的加速系统，主要工作有:　　1.分析深度信念网络的预测算法，挖掘单层网络内和多层网络间的计算并行性，并根据FPGA的计算资源和存储资源情况，设计算法的基本计算单元，实现单FPGA加速系统。为达到高吞吐率的要求，计算单元主要采用流水线设计。　　2.将加速器设计扩展到多FPGA加速系统中，将深度信念网络按层横向划分，或层内按块划分，使其计算分布于多片FPGA上，采用流水线或并行计算进一步提升性能。　　3.根据实现的多FPGA加速系统，提取影响加速系统的关键因素，建立性能模型，分析不同划分方案下的加速系统适用的网络结构和应用场景。　　为了验证设计的硬件加速系统的性能和性能模型的正确性，本文通过实验，将加速系统的性能与CPU、GPGPU和传统的单FPGA加速系统进行对比。经实验验证，本文实现的加速系统具备良好的加速效果，且运行时功耗和能耗低，具有较高的能效性。

关键词：深度信念网络;加速系统;现场可编程门阵列;模块化设计

授予单位：中国科学技术大学

授予学位：硕士

学科专业：计算机系统结构

导师姓名：周学海;王超

学位年度：2017

语种：中文

分类号：TP393

页数：119

在线出版日期：2017-08-28（万方平台首次上网日期，不代表论文的发表时间）

个人中心

我的学术圈

我的书案

退出

学位专题

基于FPGA的深度信念网络加速系统研究