片上多核处理器论文-王磊

片上多核处理器论文-王磊

导读:本文包含了片上多核处理器论文开题报告文献综述及选题提纲参考文献,主要关键词:片上多核处理器,新型非易失性存储器,混合缓存,读写策略

片上多核处理器论文文献综述

王磊[1](2019)在《片上多核处理器混合缓存架构生成与访问机制研究》一文中研究指出随着片上多核处理器核数的持续增加,对片上缓存容量的需求越来越大,传统的基于SRAM缓存所带来的功耗开销在多核处理器系统中所占比重越来越大。新型非易失性存储器(Non-volatile Memory,NVM)具有非易失性、近零的泄漏功耗和高存储密度等优良特性,为片上缓存设计提供了新的思路,但其也存在写延时大、写功耗大和有限的写寿命的问题等。因此,构建基于NVM与SRAM的混合缓存架构是一种更为合理的多核处理器缓存设计方法。本文针对基于一种新型非易失性存储器STT-RAM与SRAM的片上叁维多核处理器混合缓存架构生成与访问机制展开研究。本文首先分析并建立了片上多核处理器的功耗、热传播以及新型非易失性存储器的耐久性模型,在此基础上提出了一种基于STT-RAM与SRAM的混合缓存架构优化生成方法。该生成方法在满足多核处理器系统最大温度与NVM耐久性约束下,确定每级共享缓存层不同类型存储器的最佳容量,以使得系统功耗开销最小;并进一步考虑“暗硅”的影响,将每级缓存层最佳容量进行分配,确定每个缓存块的打开关闭情况,得到最优化的缓存块布局。基于Gem5仿真平台通过实验验证,相比采用同等面积的SRAM的片上缓存架构,采用所提出生成方法生成的缓存架构的多核处理器系统功耗降低了28.9%,性能提升了44.81%。其次,本文提出了一种混合缓存架构动态生成策略。该策略在片上多核处理器运行过程中,监测缓存块当前的使用率与热度指标,并与相应的阈值比较来判断是否可能被打开或者关闭。然后将缓存块进行优先级判断,并执行打开关闭算法,最终确定需要打开或者关闭的缓存块数目。本文还设计了指标采集器、读写命中率采集器和缓存块优先级判断器,以较低的硬件开销实现了动态生成策略。通过实验仿真,相比固定的混合缓存架构,采用所提出策略生成的混合缓存架构功耗降低14%,性能仅降低6%。最后,基于前述所提出的混合缓存架构,提出了一种混合缓存的访问机制。该访问机制首先将缓存行划分成了死亡行和写频繁行,然后根据这两种类型的缓存行从缓存填充、缓存替换和数据迁移叁个方面对传统访问机制进行了优化。该访问机制减少了不必要的缓存填充、优化了缓存行的替换并减少了对STT-RAM的写操作,从而降低了系统的功耗开销并提升了性能。通过实验仿真,在使用动态生成策略的情况下,相比于传统的写回访问策略,所提出的访问机制可以提升性能约24.1%,节省功耗约29%。(本文来源于《南京航空航天大学》期刊2019-06-01)

王子聪,陈小文,郭阳[2](2019)在《片上多核处理器Cache访问均衡性研究》一文中研究指出随着片上多核处理器(CMP)规模的不断扩大和处理核数的增多,系统对于片上缓存(Cache)在容量和速度方面有了更高的需求.为了能够有效利用Cache资源,非一致Cache体系结构(NUCA)被提出用于支持高容量低延迟的Cache组织结构.另一方面,片上网络(NoC)由于具备良好的可扩展性,在片上多核处理器的互连方式上具有显着优势.因此,基于片上网络的非一致Cache体系结构逐渐成为未来组织大容量Cache的主流系统架构.在这样的系统架构中,最后一级缓存(LLC)通常在物理上分布于每个处理节点,这些Cache存储体(Bank)在逻辑上共同构成一个统一的共享Cache.当处理核发出Cache访问请求时,其访问时间与请求处理核节点与访问数据所在的Bank节点的距离有关.当距离较近时,访问时间较短;当访问距离较远的Bank时,访问时间较长.因此,当系统规模逐渐增大时,这种访问延迟与网络距离相关的特性会使得不同节点之间的通信距离和通信延迟的差异性逐渐增大.另外,片上网络规模的增大也会使得Cache访问延迟逐渐由网络延迟主导.这种延迟差异性会引起网络报文延迟不均衡问题,导致Cache访问延迟的非一致性进一步增大,因而出现更多的大延迟Cache访问并成为制约系统性能的瓶颈.因此,研究片上多核处理器的Cache访问均衡性对于提升网络性能和系统性能具有积极意义.该文分析了造成Cache访问延迟不均衡的原因,并针对延迟的两个来源:无冲突延迟和竞争延迟,分别提出了非一致存储映射和非一致链路分布的设计方法.通过非一致存储映射,我们根据Cache存储体在网络中的物理位置调节其相应的Cache块映射比例,从而均衡Cache请求平均访问距离;通过合理设计非一致的链路分布,我们依据各条链路上的流量负载为其分配合适的通道数量,从而缓解流量压力较大的链路上的报文竞争.全系统模拟器上的实验表明,采用面向Cache访问均衡性的片上多核处理器能够有效均衡Cache访问延迟,并减少大延迟Cache访问请求的数量.相比于传统的NUCA结构,我们的设计在最大的实验规模(64核)下在延迟均方差、最大延迟和平均延迟上分别平均降低了19.6%、12.8%和6.4%,最大降低了40.8%、29.9%和11.9%.同时在系统性能方面,通过PARSEC应用程序的模拟实验表明,单位周期执行指令数(IPC)平均提升了6.7%,最大提升了14.0%.(本文来源于《计算机学报》期刊2019年11期)

童心田[3](2018)在《基于片上网络的叁维多核处理器缓存一致性实现方法研究》一文中研究指出基于片上网络的叁维多核处理器是多核处理器设计发展的趋势与研究热点,而缓存一致性协议是多核处理器系统共享数据正确存储与读写的保证。论文针对在基于片上网络的叁维多核处理器中缓存一致性协议的实现方法展开研究。论文首先针对在基于片上网络的叁维多核处理器系统中,随着处理器核数目的增加,基于目录的缓存一致性协议实现中目录存储开销越来越大的问题,提出了一种基于叁维片上网络结构的柱型节点分布式两级目录结构,将叁维网络划分为多个柱型节点,结合全映射和粗向量两种目录组织结构的优点,采用全局和柱型节点两级目录来存储共享数据副本的分布情况。相比传统的目录实现方法,该目录结构存储开销小,且基于该目录结构的缓存一致性协议访问延迟性能较好。其次,针对缓存一致性协议通信中展现出的多播通信特征,论文提出了一种基于叁维片上网络结构的柱型分区多播路由算法3D_CPM。该算法将叁维网络划分为多个柱型区域,根据多播通信的多个目的节点在各柱型区域的分布情况,按区域选择合适的联络节点,然后基于XYZ算法实现缓存一致性协议消息从源节点至联络节点至目的节点的路由传输。进一步,提出了一种改进的多播路由算法3D_OCPM,在节点之间选择路由跳数最小的路径,以达到充分利用公共传输路径,降低传输功耗,更好地实现缓存一致性的多播通信的目的。最后,定义了缓存一致性协议消息传输的数据包格式,并在Noxim仿真器中,对所提出的算法进行了验证。实验结果表明,在不同的通信模式下,与已有的多播路由算法相比,所提出的算法均有效降低了平均通信延时和通信功耗。(本文来源于《南京航空航天大学》期刊2018-03-01)

郭桂雨[4](2016)在《基于片上网络多核处理器设计与协同验证》一文中研究指出随着VLSI技术的飞速发展,单个芯片系统中各部分的逻辑密度也急剧增大。为适应更高的工作频率、更短的面向市场时间压力,今天的半导体工业要求提供越来越多的多处理器片上系统结构,然而处理单元数量增大到一定程度后,传统的基于总线的通信方法,由于缺乏可扩展性和可预测性,不能适应未来多核SoC在性能、功率、时序收敛和可扩展性等方面的发展需求。为迎接下一代系统设计中设计生产力和信号完整性的挑战,近来提出一个结构化的和可扩展的互连架构---片上网络(NoC),用于降低片上通信问题的复杂性。本论文的研究工作是以一个多核NOC芯片开发项目为背景,设计实现了一个可扩展的多核处理器平台,包括NOC架构的分析与选取、NOC架构的硬件实现以及协同验证和性能分析。在设计部分包含了核之间通信方式的设计和主从核控制关系的设计。对于核之间通信方式的设计,本文采用了片上网络(NoC)方式。和传统片上共享总线相比,NoC具有通信带宽大、可扩展性强、支持设计重用等优点。本文采用了双环拓扑结构、包交换和维序路由算法作为NoC的设计方案,该种方案不仅消耗资源少、数据传输延迟小,而且不存在死锁问题;在仲裁方式的设计上我们采用了应用广泛的round robin优先级,master端采用轮询的方式进行访问,避免了其他master端一直处于等待状态。对于主从核控制的设计,本文采用了一个主核来控制其他十五个从核的开关,该方案可根据负载来决定开启核的个数,从而提高了效率,降低了功耗。在验证部分,本文进行了协同验证以及该结构的性能分析。在协同验证部分,重点讨论了目前广泛应用的两种软硬件协同验证的方案:基于仿真平台的协同验证和基于FPGA平台的协同验证。重点论述本项目NOC的软硬件协同仿真系统的组成,包括硬件设计、软件的设计和仿真平台的设计以及使用的移植技术、调试技术等。协同验证确保了系统级芯片软件与硬件设计以及系统级NOC芯片通信网络架构的正确性,实现了在流片之前软件在硬件上运行的可能性,降低了项目的风险。最后本文进行了性能分析,本设计的16核NOC的逻辑在16颗Virtex-7 XC7A200T器件上实现,可以稳定的工作频率达100M,运行了矩阵乘法测试程序,其加速比可到15.5即运行速度为单核的15.5倍。本文研究了NOC通信方案设计,对路由节点的设计、仲裁方式等一一重点考虑,根据体系工作特点,对架构的功能在平台上进行了协同验证,表明此NOC结构具有良好的扩展性和较高的性能。(本文来源于《北京交通大学》期刊2016-06-15)

曾露,陈新科,王焕东[5](2015)在《片上多核处理器的区域共享的双粒度目录》一文中研究指出研究了双粒度目录(DGD)下片上多核处理器的访存行为以及DGD对不同共享行为的目录开销,以进一步降低DGD结构的面积开销。针对DGD需要为共享缓存区域创建额外的块目录项的问题,提出了创新的区域共享的双粒度目录(RSDGD)结构。该结构可用一个区域共享目录项同时维护最多3个共享者共享同一个缓存区域的一致性,从而能有效减少所需的块目录项数量,降低总的目录开销。实验结果表明,和原有的DGD相比,该结构平均减少了25%的目录空间需求,而仅产生了不到0.6%的性能损失。该结构有效地降低了芯片的面积开销,提高了目录结构的可伸缩性。(本文来源于《高技术通讯》期刊2015年07期)

孙荪[6](2015)在《提高多核处理器片上Cache利用率的关键技术研究》一文中研究指出硬件高速缓存能够充分利用指令和数据的局部性特征,提前将所需的指令和数据放至高速的缓存设备来减小访存延迟。目前的体系结构设计能力和工艺水平已经能够将大容量高速缓存集成至片内以缓解访存带宽和速度对系统性能的影响。随着多核与片上高速缓存组织形式的多样化,硬件高速缓存在设计时面临许多新的问题:(1)传统的单线程应用严重浪费了硬件高速缓存资源。尤其是引入了高速缓存层次结构后,单线程应用只能简单地使用本地缓存资源,而未能利用片上其它远程缓存资源;(2)缓存间一致性协议的维护变得更加复杂,尤其是引入了多线程机制以后,不仅要考虑单线程内的数据依赖,还需要考虑线程间交互时数据的正确性维护,在缓存一致性维护的过程中产生了大量的一致性缓存缺失;(3)缓存缺失处理带来的数据访问延迟问题更加严重。由于多核间的数据交互是通过共享硬件高速缓存来完成的,因此多核系统中缓存缺失处理机制变得更加复杂,特别是引入多线程思想以后,处理缓存缺失所需的时间代价不容忽视。另外,多核片上硬件高速缓存层次的组织形式、私有/共享机制的选择、替换策略和划分机制都有可能根据具体的多核结构和应用访存特性进行相应调整,以便在低访问延迟和高命中率之间进行权衡与折中。针对以上问题,本文研究如何在现有多核处理器结构的基础上添加少量低开销的硬件性能监测部件来实时监测并行程序运行时共享数据的访问特征信息和单线程程序运行时缓存空间的分配问题,实现程序运行时对硬件高速缓存资源的更高效管理利用,减少缓存缺失以及降低缓存缺失处理延迟。本文针对提高片上缓存利用率做了以下几个方面工作:(1)研究了多核处理器平台上单线程程序片上缓存资源利用率低的问题,提出了一种轻量级的缓存控制机制LVUCP。LVUCP融合了多核处理器中所有分布的片上缓存资源,并将其虚拟化为一个大的可供所有处理器核使用的共享缓存。只需很少的数据迁移和划分代价,用户就可以直接利用片上所有的分布式的硬件高速缓存资源,显着地增加了单线程应用程序可利用的硬件高速缓存容量;同时用户还可以显式地指定强局部性数据驻留在缓存,减少程序访问时的缓存缺失率。与通过并行化应用程序来最大化利用片上计算资源不同,LVUCP试图最大化片上硬件缓存资源的利用率,获得更快的访存速度并加速应用程序的执行。实验表明相比于传统无管理的执行方式,LVUCP可以将单线程程序片上缓存利用率提高57%,特别是在拥有较大硬件高速缓存资源的大规模多核处理器上,片上缓存利用率的提升甚至达到200%。(2)研究了并行程序线程间的数据相关问题,提出了基于共享数据感知的多线程调度机制,降低线程间的数据交互延迟。并行程序线程间交互是通过共享数据来完成的,并且这种交互具有阶段性特征。本文提出了基于共享数据感知的线程调度算法来实时监测系统中共享数据的使用模式,并将对同一共享数据访问最多的线程组同时映射到共享同一末级缓存的核组中执行,极大地减少了共享数据访问的维护时间和缓存间的数据冗余,增加了数据重用率并加速程序执行。实验表明,相对于传统的以负载均衡为目的的线程调度算法,共享数据感知的多线程调度机制有7%的性能加速,片上末级缓存的缺失率平均降低了15%。(3)研究了并行程序执行时缓存一致性维护所带来的开销严重问题,提出在现行的基于目录写无效协议的基础上添加写更新协议,在此基础上实现一种混合型共享数据感知的状态转换策略。在线程的交互过程中,传统的写无效协议在对共享数据的一致性维护过程中会形成大量的一致性缺失,严重影响系统的整体性能。本文提出的共享数据感知的状态转换策略能够有效地避免一致性缺失的产生。通过添加低开销的硬件计数器实时地监测数据访问过程中写共享数据操作。当重复地读写同一共享数据块时,用写更新状态转换策略取代传统的写无效状态转换策略,实时更新远程的缓存中副本数据,消除后续访问过程中的一致性缓存缺失。本文提出的策略是以牺牲少量带宽来换取高额的缓存命中率来提高片上缓存资源的利用率,加速并行程序的执行;特别是在频繁线程交互的并行应用中,本策略表现尤为突出。实验表明,相对于传统的写无效转换策略,本文提出的混合型的缓存一致性维护转换策略对所有测试程序有21%的性能提升。通过以上研究工作,我们获得了如下重要认识:(1)在多核处理器时代“存储墙”日益严重,单个程序及系统整体性能严重依赖访存性能,因此提高片上硬件高速缓存利用率比程序本身的指令优化更加有效;(2)在并行程序中,线程对共享数据的访问具有动态阶段性特征,传统的静态分析方法并不能完整地剖析并行程序的行为;(3)并行程序线程间交互是通过共享数所来完成的,共享数据的使用和维护是造成片上缓存资源利用率低的重要原因。(本文来源于《中国科学技术大学》期刊2015-05-01)

王俊辉[7](2015)在《高性能多核处理器的低功耗片上网络研究》一文中研究指出片上互连网络负责实现众多处理器核间、众多处理器核与大量片上存储体间的通信互连,是高性能微处理器的枢纽与核心,其体系结构决定着高性能微处理器的整体性能。传统的电互连网络体系结构存在带宽低、延迟大、功耗高等缺点,已经成为制约高性能微处理器性能提高的瓶颈之一。尤其是在功耗方面,随着互连网络规模的扩大,片上互连网络所需要的功耗已经占据高性能微处理器功耗的很大一个方面。研究低功耗片上网络,可以充分利用相关技术,实现互连网络以及微处理器的高效、节能,具有十分重要的意义。文章主要针对如何利用光互连技术、积压上界的分析技术以及低功耗电路技术等进行低功耗片上网络的设计展开深入研究。主要研究内容可分为以下四个方面:(1)基于蝶型结构的层次式低功耗片上光网络研究随着硅基光互连相关技术的发展,片上光网络已经成为低功耗网络设计中的重点研究方向。相比于传统的电互连网络,片上光网络通过利用光学传输链路,可以在数据传输过程中节省大量能量。但是,在光互连网络中,数据传输方式与电互连网络存在极大的差异。数据报文首先需要经过光学调制后,才能变成光信号在在波导中进行传播。传播过程中,光信号既不能被直接缓存、更不能被解读。如何能够利用光互连网络的特性成为片上光网络设计所面临的巨大挑战。目前提出的片上光网络结构都需要利用大量的光学器件来搭建网络基础设施,势必会带来光学损耗高、光学传输功耗高、面积开销大等问题。针对这些问题,本文提出了一种层次式的基于蝶型网络的片上光网络——HBPNo C。HBPNo C采用一种层次式的结构:在核簇内部采用报文交换方式,在核簇间通信采用光路交换方式。簇间通信利用一个高可扩展的光网络(BPNo C)进行数据传输。BPNo C可以实现高可扩展性的原因包含两个方面。首先,与以前的片上光网络中路由器的构建方式不同,BPNo C只使用一个基本的的的光开关元件(PS E2x2),来建立混合路由器。其次,蝴蝶网络和光开关单元PS E2x2都是单向的。因此,把PSE2x2应用到到蝶型光网络中可以有效节约光学资源、减少面积占用、提高网络的能量效率。BPNo C是一个双层网络,包含光学子网络和电学子网络。光学子网络采用负载平衡路由算法,使用基于连接的交换方式来传输数据包,而电学子网络利用改进转弯算法进行控制报文和数据报文的分组交换。为了提高光学资源的利用效率,HBPNo C在BPNo C网络的基础上,综合利用光传输技术和电传输技术来改善片上网络的性能。HBPNo C网络的最大特点在于,为了提高网络性能和降低系统功耗,对于簇内短距离通信,网络利用局部的电交换结构直接转发核簇内消息到它们的目的地;只有对于长距离、数据大的通信,网络才利用光互连技术进行传输。实验结果表明,HBPNo C片上光网络能够保证高能源效率、低光学损耗以及低延迟、高吞吐率的通信性能。(2)软件定义的低功耗片上片上光网络设计研究片上光网络为实现低功耗网络设计提供了很好的平台。相比于传统的电互连网络,片上光网络通过利用光学传输链路,可以在数据传输过程中节省大量能量。但是,目前已经提出的主动式片上光网络结构都采用一种分布式的方法来建立光学路径,每个光交换单元都需要一个电路由器来配合工作。这就导致片上光网络资源利用率低、能量消耗高等问题。针对这些问题,本文提出了一个软件定义的片上光网络(SD-PNOC)。它使用软件定义网络(SDN)的思想来提高片上光网络中光资源的利用效率。软件定义片上光网络拥有两个功能平面——一个集中式的控制平面和其所控制的一个交换平面。SD-PNo C利用集中式的控制平面来处理路径建立过程。该平面仅仅是由网关和一个集中控制器组成,从而实现利用集中控制来代替分布式的方法。数据交换平面由光交换单元构成,用于完成数据的转发或交换功能。实验结果表明SD-PNo C网络拥有较高的能量效率和较低的传输延迟。(3)片上网络最差积压上界的分析方法研究在主流的电互连片上网络中,路由器中的缓冲区所消耗的能量占据网络总能耗的很大一部分。如何在保证系统性能的情况下减少缓冲区大小就成为低功耗片上网络设计的一大挑战。分析路由器最差积压上界可以为设计过程中缓冲区大小的确定提供很好的理论支持。文章提出了基于有向竞争图(Di GB)的方法来分析最差积压上界。首先,本文分析了简单场景下如何利用网络演算中的到达曲线和服务曲线来推导积压上界。然后,对于复杂情形,文章构造一个有向竞争图(DCG)来帮助分析数据流之间的关系。进一步,通过使用广度优先搜索策略遍历DCG,Di GB方法把复杂情形分解为基本情形。这样,利用基本情形下的模型就可以完成所有路由器的积压上界推导过程。本章以并行处理中经常出现的聚合通信为例,详细描述了最差积压上界推导的过程。最后,通过对4×4和8×8网络中的最大积压结果与Di GB方法推导的最差积压上界进行比较,文章证明了Di GB方法所获结果的正确性与紧致性。(4)电压频率岛感知的低功耗片上网络研究在片上网络中,功耗已经成为一个重要的设计约束。虽然光互连技术以及3D技术等为片上网络的发展提供了新的契机,传统的电互连网络仍然需要发挥很大的作用。如何通过一些低功耗技术,如动态电压/频率缩放技术等,来降低片上网络的功耗是目前研究的一个热点问题。针对该问题,本文提出了一种基于网络演算的高效能(PNC)片上网络设计方法,在满足延迟需求的情况下,尽量减少网络的能量消耗。首先,文章提出了一个网络演算为基础的方法来分析No C中每个通信流在最坏情况下的延迟。基于网络报文在不超过延迟界限时能够经受的进一步延迟时间(也叫延迟空缺),我们的PNC方法利用电源闸控技术来减少处于工作状态的缓冲单元,并且利用电压频率调节技术来降低电压频率岛的电压-频率。通过减少工作状态的缓冲单元和降低路由器的电压和频率,片上网络的功耗得以降低。实验结果表明,我们的PNC方法可以节省至多达69%的网络总功耗。综上所述,本文主要针对光互连技术、积压上界的分析技术以及低功耗电路技术等设计低功耗片上网络展开深入研究展开了深入研究。本文的研究为低功耗片上网络的设计提供了很好的方法,具有一定的理论意义和应用价值。(本文来源于《国防科学技术大学》期刊2015-02-01)

吴建宇,彭蔓蔓[8](2015)在《面向多线程应用的片上多核处理器私有LLC优化》一文中研究指出片上多核处理器已逐渐取代传统超标量处理器成为集成电路设计的主流结构,但芯片的存储墙问题依旧是设计的一个难题。CMP通过大容量的末级高速缓存来缓解访存压力。在软件编程模式向多线程并行方式转变的背景下,针对多线程应用在多核处理器上的Cache访问特征,提出一种面向私有末级Cache的优化算法,通过硬件缓冲器记录处理器访存地址,从而实现共享数据在Cache间的传递机制,有效降低Cache失效开销。实验结果表明,在硬件开销不超过Cache部件0.1%的情况下,测试用例平均加速比为1.13。(本文来源于《计算机工程》期刊2015年01期)

侯宁,赵红梅,宋宇鲲[9](2014)在《层次化片上多核处理器性能研究》一文中研究指出层次化片上多核处理器紧耦合多个处理核构成"簇节点",对访存和片上通信的局部性有良好支撑,能有效地缓解片上多核间数据通信带来的通信开销。文章通过构建精细的层次化片上多核处理器仿真器,利用随机任务模型研究"簇节点"大小对系统性能的影响。仿真发现,一定系统规模下,要获得良好的系统性能,层次化片上多核处理器需要在"簇节点"数目与"簇节点"的大小(节点内处理核的数目)之间仔细权衡。(本文来源于《合肥工业大学学报(自然科学版)》期刊2014年10期)

陈新科,黄帅,王焕东,吴瑞阳,曾露[10](2014)在《基于FPGA模拟片上多核处理器的新方法》一文中研究指出为了解决使用现场可编程门阵列(FPGA)进行大规模片上多核处理器模拟的容量限制难题,提出了一种新颖的FPGA模拟方法。该方法通过混合真实的处理器核与伪造的处理器核,使用1个或2个FPGA即可模拟整个片上多核处理器,而且可以有效克服FPGA的容量限制问题,同时又不过多损害对多核处理器行为特征的有效模拟。用此方法实现了周期精确的全芯片模拟,并使用流片后的片上多核处理器芯片对此模拟方法进行了有效性验证。实验很容易地实现了50MHz以上的模拟速度,比基于相同设计的软件仿真快10万倍以上。模拟速度的大幅度提升,使得可以启动未经修改的Linux操作系统和运行完整的多用户SPEC CPU2006 train测试集。这种混合真实处理器核与伪造处理器核的模拟方法为片上多核处理器的功能验证和性能评估提供了一种简单高效的途径。(本文来源于《高技术通讯》期刊2014年07期)

片上多核处理器论文开题报告

(1)论文研究背景及目的

此处内容要求:

首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。

写法范例:

随着片上多核处理器(CMP)规模的不断扩大和处理核数的增多,系统对于片上缓存(Cache)在容量和速度方面有了更高的需求.为了能够有效利用Cache资源,非一致Cache体系结构(NUCA)被提出用于支持高容量低延迟的Cache组织结构.另一方面,片上网络(NoC)由于具备良好的可扩展性,在片上多核处理器的互连方式上具有显着优势.因此,基于片上网络的非一致Cache体系结构逐渐成为未来组织大容量Cache的主流系统架构.在这样的系统架构中,最后一级缓存(LLC)通常在物理上分布于每个处理节点,这些Cache存储体(Bank)在逻辑上共同构成一个统一的共享Cache.当处理核发出Cache访问请求时,其访问时间与请求处理核节点与访问数据所在的Bank节点的距离有关.当距离较近时,访问时间较短;当访问距离较远的Bank时,访问时间较长.因此,当系统规模逐渐增大时,这种访问延迟与网络距离相关的特性会使得不同节点之间的通信距离和通信延迟的差异性逐渐增大.另外,片上网络规模的增大也会使得Cache访问延迟逐渐由网络延迟主导.这种延迟差异性会引起网络报文延迟不均衡问题,导致Cache访问延迟的非一致性进一步增大,因而出现更多的大延迟Cache访问并成为制约系统性能的瓶颈.因此,研究片上多核处理器的Cache访问均衡性对于提升网络性能和系统性能具有积极意义.该文分析了造成Cache访问延迟不均衡的原因,并针对延迟的两个来源:无冲突延迟和竞争延迟,分别提出了非一致存储映射和非一致链路分布的设计方法.通过非一致存储映射,我们根据Cache存储体在网络中的物理位置调节其相应的Cache块映射比例,从而均衡Cache请求平均访问距离;通过合理设计非一致的链路分布,我们依据各条链路上的流量负载为其分配合适的通道数量,从而缓解流量压力较大的链路上的报文竞争.全系统模拟器上的实验表明,采用面向Cache访问均衡性的片上多核处理器能够有效均衡Cache访问延迟,并减少大延迟Cache访问请求的数量.相比于传统的NUCA结构,我们的设计在最大的实验规模(64核)下在延迟均方差、最大延迟和平均延迟上分别平均降低了19.6%、12.8%和6.4%,最大降低了40.8%、29.9%和11.9%.同时在系统性能方面,通过PARSEC应用程序的模拟实验表明,单位周期执行指令数(IPC)平均提升了6.7%,最大提升了14.0%.

(2)本文研究方法

调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。

观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。

实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。

文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。

实证研究法:依据现有的科学理论和实践的需要提出设计。

定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。

定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。

跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。

功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。

模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。

片上多核处理器论文参考文献

[1].王磊.片上多核处理器混合缓存架构生成与访问机制研究[D].南京航空航天大学.2019

[2].王子聪,陈小文,郭阳.片上多核处理器Cache访问均衡性研究[J].计算机学报.2019

[3].童心田.基于片上网络的叁维多核处理器缓存一致性实现方法研究[D].南京航空航天大学.2018

[4].郭桂雨.基于片上网络多核处理器设计与协同验证[D].北京交通大学.2016

[5].曾露,陈新科,王焕东.片上多核处理器的区域共享的双粒度目录[J].高技术通讯.2015

[6].孙荪.提高多核处理器片上Cache利用率的关键技术研究[D].中国科学技术大学.2015

[7].王俊辉.高性能多核处理器的低功耗片上网络研究[D].国防科学技术大学.2015

[8].吴建宇,彭蔓蔓.面向多线程应用的片上多核处理器私有LLC优化[J].计算机工程.2015

[9].侯宁,赵红梅,宋宇鲲.层次化片上多核处理器性能研究[J].合肥工业大学学报(自然科学版).2014

[10].陈新科,黄帅,王焕东,吴瑞阳,曾露.基于FPGA模拟片上多核处理器的新方法[J].高技术通讯.2014

标签:;  ;  ;  ;  

片上多核处理器论文-王磊
下载Doc文档

猜你喜欢