学位专题

目录>
<

可扩展64核处理器关键技术研究——单核、加速器架构及H.264解码器实现

俞政
复旦大学
引用
不断推陈出新的电子通讯、多媒体、信息安全以及云计算、大数据等新兴应用,给人们的生活带来日新月异的便利和享受,然而随之而来的往往是更加繁重而大量的运算,这无疑对数据处理终端,特别是移动嵌入式领域的硬件提出了更高的要求。人们在需求日益高性能的硬件的同时,却不得不面对“功耗墙”的窘迫。近年来,应运而生的多核处理器看似保持摩尔定律的继续发展。然而,传统的多核处理器在面对特定复杂应用时,不仅性能上仍难以满足需求,更表现出较低的能量效率。  基于此,本文针对上述四个应用领域,分析各个应用的特点,在传统处理器的可编程性和ASIC的高能效之中做出折衷,设计了面向上述特定应用、拥有丰富异构加速器的64核处理器,同时在单核设计中注重高性能和低功耗的优化,降低寄存器堆和指令存储的功耗,以求达到高能效的目标。  论文的主要工作可以归纳为以下几点:  (1)局域网(局部双向令牌环)+广域网(全局包交换)的片上互联方式  本文借鉴计算机通信领域中的局域网+广域网的概念,设计了全局二维网格结构的包交换网络,以及局部双向多令牌环的电路交换网络。一般应用的全局通信较弱而局部通信很强,在局部采用了由单一总控制器控制的双向环互联,降低了传统电路交换申请撤销路径的开销,单周期点到点通信提高了通信效率。全局包交换则可以充分利用片上交换链路的带宽,为整芯片资源共享提供通道。  (2)拥有丰富异构加速器的架构设计  针对不同的应用程序,提取出相应加速器模块,用硬件来提升应用程序的性能,在硬件开销很小的情况下,加速器能够带来的系统性能提升可高达10倍,本文还创新性地采用了上述的环来连接加速器与处理器,处理器与加速器之间基于环以及FIFO的通信方式使二者的通信表现出高性能低功耗的特性。  (3)低功耗寄存器堆设计  在嵌入式单核中,寄存器堆的功耗可以占到整个芯片的16%,本文针对寄存器堆存在的无用操作数的读取以及废弃变量的写回进行屏蔽,分别采用了异步时钟控制的读隔离和软件指导的写回丢弃,实现了寄存器堆功耗平均37%的降低。  (4)单指令多进程的架构设计  在嵌入式应用领域中,常有多道并行程序执行近乎一致代码的情形,在传统多核上的映射将导致多个核取同样的代码,从而导致大量的访问指令存储的冗余,针对此,本文提出了单指令多进程的架构,当出现上述情况时,可以将若干核重构成主-从模式,主核取指令,从核关闭指令存储,本设计的单指令多进程在4核主从模式下可降低平均21.9%的系统功耗。  (5)H.264基本档次解码器设计  针对H.264解码器的特点,提取出浓缩的运算核心模块,设计硬件加速器,并且进行软硬件的协同设计,采用四个单核+四个加速器可以实现基本档次帧内解码达到1080p@20fps的吞吐率,而利用16核+16加速器实现的并行解码则可以期望达到1080p@80fps的吞吐率。  (6)芯片物理设计  本次设计采用了TSMC65nm GP工艺,进行了芯片的物理设计,在物理设计中,采用了层次化流程,并且利用DC-Topographical+ICC的流程,大量采用了有用时钟偏差,sign-off时序报告中的关键路径为0.99ns(含0.1 ns uncertainty)。实现了1GHz的设计指标要求。基于Prime Time PX分析功耗,运行DES解码器时单节点功耗21.4mW。

多核处理器;结构设计;能耗控制;可编程性

复旦大学

硕士

微电子学与固体电子学

虞志益

2014

中文

TP332;TP302

82

2016-03-30(万方平台首次上网日期,不代表论文的发表时间)

相关文献
评论
相关作者
相关机构
打开万方数据APP,体验更流畅