导读:本文包含了体系结构分片论文开题报告文献综述及选题提纲参考文献,主要关键词:线延迟,流处理器,分片式,类数据流驱动
体系结构分片论文文献综述
徐光,安虹,许牧,刘谷,姚平[1](2010)在《一种类数据流驱动的分片式流处理器体系结构及其编程模型》一文中研究指出考虑到半导体工艺发展带来的线延迟问题,分布式、分片式的处理器结构变得很有吸引力.在传统流处理器中,流控制器发射的控制信号在传递时存在长线延迟问题.传统流处理器的运算簇由众多的功能部件组成,由于运算簇间的通信是集中控制的,运算簇间通信网络的线延迟可扩展性差.提出了一种分片式流处理器(TPA-PD)体系结构,它采用分布式的网络连接分片式的部件,避免了控制信号在传递过程中出现的长线延迟问题.在kernel级,TPA-PD使用类数据流的执行模型即显式数据流图执行,将指令间的依赖关系在指令中静态编码,把传统流处理器中运算簇间的集中通信变为动态发射、分布式的通信,利于结构扩展.解释了新的执行模型、指令集以及将流编程模型映射到新结构上.在时钟精确的模拟器上,实验分析了影响kernel级执行时间的软硬件因素,TPA-PD比传统流处理器在8个benchmark中平均获得了20%的加速比.(本文来源于《计算机研究与发展》期刊2010年09期)
徐光[2](2010)在《分片式流处理器体系结构》一文中研究指出纳米工艺所带来的功耗、线延迟和设计复杂度等问题制约了处理器体系结构的发展,分片式结构设计是解决这些问题的一种方法。分片式流处理器作为一种面向数据密集型应用的处理器结构,可以利用摩尔定律的发展带来的丰富而廉价的晶体管资源,实现处理器结构的可扩展。分片式结构设计的基本思想是将计算、存储和互连资源组织成片式的基本结构单元,这些片式单元是相对简单的、分布式控制且可重用的;大量的片式单元由高能效、可扩展的片上网络连接起来。分片式流处理器的性能是否也具有可扩展性依赖于其支持的编程模型、片上存储层次、片上互连网络以及计算模型。本文分别从分片式流处理器的计算模型、指令系统、体系结构、流编程模型映射四个方面开展研究。主要研究内容和成果包括以下四个部分。(1)研究了类数据流计算模型的原理,提出了一种适合组织分片式流处理器中计算资源的单块多数据(Single Block Multi Data, SBMD)计算模型,设计了支持此计算模型的指令系统DISC-D。SBMD指在一个超块内部处理多份数据,每份数据根据自己对应的数据流依赖关系执行。谓词技术把程序中每份数据所对应的控制流依赖转化为数据流依赖,在超块内部消除控制流转移,这样每份数据可以按照不同的控制流路径执行。SBMD模型支持程序中循环体间显式的消息传递。(2)设计了一种分片式流处理器体系结构TPA-PD。TPA-PD采用类数据流驱动的计算模型来组织计算资源,使用软件管理的片上存储层次开发应用中的数据局部性。TPA-PD采用分片式的设计思想,使用多个片上互连网络把片上的各种资源互连起来。(3)设计并实现了流编程模型在TPA-PD上的映射。TPA-PD支持流编程模型StreamC/KernelC。StreamC/KernelC是为Imagine流处理器开发的,为了能在TPD-PD上运行StreamC/KernelC语言编写的代码,我们实现了流级翻译器和kernel级二进制翻译器,把在Imagine平台上的流级指令信息和kernel级微码翻译到TPA-PD平台上,翻译后的代码膨胀率小于2。(4)实现了TPA-PD的软件模拟环境,并评估了类数据流驱动计算模型及TPA-PD体系结构设计的有效性。文章讨论了物理块资源、计算资源、网络资源的可扩展性,分析了流访存部件的参数设置,提出了优化单个超块执行时间的机制,研究了指令调度算法对程序性能的影响。通过在模拟器上做实验,我们发现TPA-PD在结构可扩展的同时,性能上超过集中控制计算资源的流处理器。(本文来源于《中国科学技术大学》期刊2010-05-01)
从明[3](2009)在《类数据流驱动的分片式处理器体系结构》一文中研究指出纳米工艺代微处理器设计中存在的功耗、线延迟和设计复杂度等问题严重地制约了传统的程序执行模型和处理器体系结构的发展。分片式处理器体系结构就是为了应对这些挑战性问题而产生的,其基本思想是将计算、存储和互连资源组织成片式的基本结构单元,这些片式单元是相对简单的、分布式控制且可重用的;大量的片式单元由高能效、可扩展的片上网络连接起来构成高效能的处理器。这种体系结构避免了片上长线延迟的产生,能够充分利用摩尔定律发展带来的丰富而廉价的晶体管资源,获得系统性能的提升。但目前分片式处理器体系结构还处于初级研究阶段,有许多关键技术值得探讨。本文分别从分片式处理器的程序执行模型和体系结构两个方面开展了深入的研究。主要研究内容和成果包括:(1)研究了类数据流计算模型的原理,提出了一种适于分片式处理器体系结构的类数据流驱动程序执行模型。在该程序执行模型中,由编译器将串行程序划分成一系列包含几十至上百条指令的超块;程序的执行以超块为原子单位进行取指、执行和提交。超块内部的计算采用数据流表示,用数据流图作为机器语言,向硬件显式表达指令间的并行性,无需硬件动态检测依赖,从而降低了硬件设计的复杂性;超块间采用控制流表示,既可以有效地利用程序中的数据局部性,又可以进一步利用线程级推测并行性。(2)分析了类数据流驱动的分片式处理器体系结构的设计空间,研究了影响分片式处理器性能的关键因素。首先,为了提高分片式处理器上计算资源的利用率,分别从数据流和控制流的角度分析了激进推测执行的可行性,并对推测深度给出了量化的标准;其次,为了给分片式处理器选择合适的互连网络结构,分析了多种互连拓扑结构对处理器性能的影响;然后,为了缓解分片式处理器结构及其多跳式的互连结构可能对访存造成的影响,分析了多种应用在分片式处理器的访存特征,研究了数据预取机制对降低访存延迟的作用;最后,为了更准确地探究应用对结构的需求,综合分析了应用在类数据流驱动的程序执行模型上的行为特征。(3)研究了分片式处理器的优化设计方案,提出了一种既能充分挖掘并行性,又能有效降低通信代价的片式单元设计思想。将单个片式单元的计算复杂度限制在应用潜在的指令级并行粒度上,同时,结合程序的通信局部性特征适当增大片式单元内的局部通信相联度,而无需改变整体的通信网络设计。实验表明,这种设计思想既能够满足应用对于指令级并行性的需求,又能够有效地降低关键路径上的数据流通信延迟。(4)基于该优化设计方案,设计并实现了一种类数据流驱动的分片式处理器体系结构TPA-PI。TPA-PI处理器采用DISC-I指令集体系结构,遵循类数据流驱动的程序执行模型。TPA-PI在开发更大的指令级并行性、片式单元有限的计算能力以及日益严峻的线延迟约束之间为单个片式单元的设计找到一个较好的设计折衷点,使得TPA-PI设计具有较好的可扩展性。(5)在TPA-PI的软件模拟环境上,评估了类数据流驱动程序执行模型及TPA-PI体系结构设计的有效性。实验结果印证了类数据流驱动的程序执行模型与控制流执行模型相比所具有的性能优势、片式单元的设计思想的正确性以及优化后的TPA-PI体系结构设计的合理性。本文的研究工作获得了如下一些重要的认识。首先,在分片式处理器体系结构设计中,程序执行模型、处理器核粒度、片上互连模型以及目标应用的特征都是影响其性能的重要因素。其次,将类数据流驱动的程序执行模型与分片式处理器相结合能够有效地利用片上提供的大量计算资源,在利用数据流驱动执行开发指令级并行性的同时,利用控制流的局部性开发更高层次的超块级和线程级并行性,适应不同特征的应用的需求。本文的研究工作和结果可用于指导分片式处理器的体系结构设计和进一步的优化。(本文来源于《中国科学技术大学》期刊2009-07-01)
曾斌[4](2009)在《分片式处理器体系结构上的超块优化技术》一文中研究指出在过去的十年中,微处理器的性能以每年大约50-60%的速度提升。然而,随着芯片制造工艺逐步接近硅原子的尺寸,微处理器学术界和工业界面临着诸多尚待解决的问题:比如处理器功耗快速增长导致散热量的快速增加,芯片内部线延迟加长导致信号在单个时钟周期内所能到达的功能部件数目减少等一系列问题,处理器性能提升的两架马车——时钟频率和IPC (Instructions Per Cycle)正在失去以往的前进动力。种种迹象表明传统的处理器体系结构已经不能适应新的制造工艺的发展,各研究团队相继开发了新的处理器体系结构来取代传统的处理器体系结构,比如分片式处理器体系结构等。于此同时,新的分片式处理器体系结构对编译技术也提出了新的要求,超块形成和优化技术与分片式处理器体系结构之间的无缝融合成了值得研究的领域。本文研究了分片式处理器体系结构的优点和潜力以及它和超块形成和优化技术之间的结合性,探讨了分片式处理器体系结构上指令之间的直接数据传送问题,提出了基于剖析信息和关键路径长度的软件扇出树生成算法与基于基本块特征的MOV指令精简启发式算法,给出了它们的理论分析,在TRIPS编译器和调度器上实现了算法并对其进行了实验性能测试。基于剖析信息和关键路径长度的软件扇出树生成算法利用了程序剖析信息和块的静态特征,改进了Huffman算法并创新性地把它运用到了软件扇出树生成领域,该算法可以优化软件扇出树的结构,优先给执行概率高和处于关键路径上的指令播送数据,因而可以提高程序块的ILP。基于基本块特征的MOV指令精简启发式算法利用程序基本块的特征信息,比如依赖链首尾宽度比、依赖链长度以及分支指令的跳转概率等信息来指导谓词化过程,该算法可以有效地减少块内MOV指令数,提高块内有效指令比例,降低由谓词化所带来的执行延迟。本文的研究表明分片式处理器体系结构和超块技术之间可以很好地融合,分片式处理器体系结构可以利用超块结构来暴露程序中的ILP给硬件执行基底,块内指令之间的直接数据通信也可以在分片式处理器体系结构上作为全局命名空间机制的补充得到应用。块内指令之间直接通信模式的代价可以通过基于基本块特征的MOV指令精简算法和基于剖析信息和关键路径长度的软件扇出树生成算法来有效降低。此外,本文的研究也说明了剖析信息可以在调度器中得到很好地应用。(本文来源于《中国科学技术大学》期刊2009-05-01)
体系结构分片论文开题报告
(1)论文研究背景及目的
此处内容要求:
首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。
写法范例:
纳米工艺所带来的功耗、线延迟和设计复杂度等问题制约了处理器体系结构的发展,分片式结构设计是解决这些问题的一种方法。分片式流处理器作为一种面向数据密集型应用的处理器结构,可以利用摩尔定律的发展带来的丰富而廉价的晶体管资源,实现处理器结构的可扩展。分片式结构设计的基本思想是将计算、存储和互连资源组织成片式的基本结构单元,这些片式单元是相对简单的、分布式控制且可重用的;大量的片式单元由高能效、可扩展的片上网络连接起来。分片式流处理器的性能是否也具有可扩展性依赖于其支持的编程模型、片上存储层次、片上互连网络以及计算模型。本文分别从分片式流处理器的计算模型、指令系统、体系结构、流编程模型映射四个方面开展研究。主要研究内容和成果包括以下四个部分。(1)研究了类数据流计算模型的原理,提出了一种适合组织分片式流处理器中计算资源的单块多数据(Single Block Multi Data, SBMD)计算模型,设计了支持此计算模型的指令系统DISC-D。SBMD指在一个超块内部处理多份数据,每份数据根据自己对应的数据流依赖关系执行。谓词技术把程序中每份数据所对应的控制流依赖转化为数据流依赖,在超块内部消除控制流转移,这样每份数据可以按照不同的控制流路径执行。SBMD模型支持程序中循环体间显式的消息传递。(2)设计了一种分片式流处理器体系结构TPA-PD。TPA-PD采用类数据流驱动的计算模型来组织计算资源,使用软件管理的片上存储层次开发应用中的数据局部性。TPA-PD采用分片式的设计思想,使用多个片上互连网络把片上的各种资源互连起来。(3)设计并实现了流编程模型在TPA-PD上的映射。TPA-PD支持流编程模型StreamC/KernelC。StreamC/KernelC是为Imagine流处理器开发的,为了能在TPD-PD上运行StreamC/KernelC语言编写的代码,我们实现了流级翻译器和kernel级二进制翻译器,把在Imagine平台上的流级指令信息和kernel级微码翻译到TPA-PD平台上,翻译后的代码膨胀率小于2。(4)实现了TPA-PD的软件模拟环境,并评估了类数据流驱动计算模型及TPA-PD体系结构设计的有效性。文章讨论了物理块资源、计算资源、网络资源的可扩展性,分析了流访存部件的参数设置,提出了优化单个超块执行时间的机制,研究了指令调度算法对程序性能的影响。通过在模拟器上做实验,我们发现TPA-PD在结构可扩展的同时,性能上超过集中控制计算资源的流处理器。
(2)本文研究方法
调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。
观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。
实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。
文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。
实证研究法:依据现有的科学理论和实践的需要提出设计。
定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。
定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。
跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。
功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。
模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。
体系结构分片论文参考文献
[1].徐光,安虹,许牧,刘谷,姚平.一种类数据流驱动的分片式流处理器体系结构及其编程模型[J].计算机研究与发展.2010
[2].徐光.分片式流处理器体系结构[D].中国科学技术大学.2010
[3].从明.类数据流驱动的分片式处理器体系结构[D].中国科学技术大学.2009
[4].曾斌.分片式处理器体系结构上的超块优化技术[D].中国科学技术大学.2009