学位专题

<

基于FPGA的深度信念网络加速系统研究

赵洋洋
中国科学技术大学
引用
近几年,随着深度学习概念的提出,以及计算能力的不断提高,深度学习展示出了很高的科研价值和实用价值,受到了学术界和工业界的青睐。深度学习的概念源于人工神经网络,是机器学习中富有生命力的一个研究领域,其动机在于建立、模拟人脑的神经网络,来解释图像、声音和文本等数据。深度信念网络是深度学习中一种基础的深度神经网络类型,也是一种典型的深度生成式模型,由多层受限玻尔兹曼机堆叠而成。目前深度信念网络普遍应用于语音识别、手写识别、文本分类等应用领域。  深度信念网络属于全连接神经网络,因此当网络规模不断增加时,其参数量和计算量均急剧增加。如何更快速有效地处理海量数据,是深度信念网络的主要研究方向之一。目前通过多核处理器集群、云计算平台或通用图像处理器对其加速都有比较成熟的研究,但仍存在计算效率低或能耗开销高等问题。  采用现场可编程门阵列FPGA等可编程硬件加速深度学习算法是常用的加速手段之一。基于FPGA的深度学习加速器具有高性能、低功耗、可重构等特点。本文从深度信念网络的预测过程出发,研究在FPGA加速平台上对全连接结构的神经网络的高性能实现,并设计相应的加速系统,主要工作有:  1.分析深度信念网络的预测算法,挖掘单层网络内和多层网络间的计算并行性,并根据FPGA的计算资源和存储资源情况,设计算法的基本计算单元,实现单FPGA加速系统。为达到高吞吐率的要求,计算单元主要采用流水线设计。  2.将加速器设计扩展到多FPGA加速系统中,将深度信念网络按层横向划分,或层内按块划分,使其计算分布于多片FPGA上,采用流水线或并行计算进一步提升性能。  3.根据实现的多FPGA加速系统,提取影响加速系统的关键因素,建立性能模型,分析不同划分方案下的加速系统适用的网络结构和应用场景。  为了验证设计的硬件加速系统的性能和性能模型的正确性,本文通过实验,将加速系统的性能与CPU、GPGPU和传统的单FPGA加速系统进行对比。经实验验证,本文实现的加速系统具备良好的加速效果,且运行时功耗和能耗低,具有较高的能效性。

深度信念网络;加速系统;现场可编程门阵列;模块化设计

中国科学技术大学

硕士

计算机系统结构

周学海;王超

2017

中文

TP393

119

2017-08-28(万方平台首次上网日期,不代表论文的发表时间)

相关文献
评论
相关作者
相关机构
打开万方数据APP,体验更流畅