浮点部件论文-吴升光,羊箭锋,冯春阳

浮点部件论文-吴升光,羊箭锋,冯春阳

导读:本文包含了浮点部件论文开题报告文献综述及选题提纲参考文献,主要关键词:浮点运算单元,UVM验证平台,中间结果约束,浮点数生成

浮点部件论文文献综述

吴升光,羊箭锋,冯春阳[1](2017)在《基于UVM的浮点功能部件验证》一文中研究指出为了对复杂浮点运算单元进行功能验证,设计并实现了一种基于UVM(Universal Verification Methodology)方法的验证平台.该平台集成了一套高效的浮点数产生机制,将浮点用例的求解转化为连分式的求解,拓宽了传统浮点用例的边界定义,同时也调用了基于C语言的参考模型来自检计算结果,并结合FCC(Fast Coverage Convergence)技术,加快了覆盖率收敛.应用结果表明,此验证平台能够对浮点运算单元各功能进行高效验证,极大地减少验证时间,且平台内嵌的浮点数产生器也能够移植到其他浮点功能验证平台.(本文来源于《微电子学与计算机》期刊2017年04期)

刘功杰,刘蓬侠[2](2016)在《浮点倒数类指令执行部件的逻辑设计》一文中研究指出浮点部件是微处理器的重要组成部分,浮点倒数类指令归属于浮点指令集,用于计算浮点数的倒数或平方根倒数的近似值。本文以IA-64指令集的浮点倒数类指令的定义和描述为基础,提出了在FPU内部如何执行该类指令的一种逻辑设计方案。(本文来源于《第二十届计算机工程与工艺年会暨第六届微处理器技术论坛论文集》期刊2016-08-11)

邓凯伟[3](2015)在《高性能X处理器浮点部件的实现和优化》一文中研究指出浮点部件是决定高性能微处理器性能的关键部件之一。论文实现了应用于乱序超标量X处理器的浮点发射队列和浮点加法部件,并对其进行了相应的结构改进,相应的功能验证和性能测试表明所实现的浮点相关部件能够正确完成所需要的设计功能,改进后浮点相关部件能够有效提高特定应用下的浮点部件性能。该论文研究的内容和相关成果直接用于工程实践,主要包括:1.实现了一种集中-分布式发射队列结构。通过对高性能浮点发射队列进行相关的分析研究,根据现有X处理器的乱序处理机制,实现了一个集中-分布式浮点发射队列结构。该发射队列由发射块、选择模块和记分牌模块叁大部分构成。通过相应的唤醒算法、仲裁算法以及相应的更新算法,完成对分派到发射队列的指令的发射控制。接着采用基于功能点驱动的方法进行功能验证,利用功能点覆盖率保障设计并确保验证有效性和可靠性,通过设置功能点以及观察代码覆盖率来得到浮点发射队列功能的正确性。2.实现了一种聚合结构的浮点加法部件。以双通路浮点加法结构为基本框架,通过资源共用的原则,将浮点与定点、浮点与浮点整数、浮点单双精度和半精度转换等操作与双通路浮点加法充分整合,实现了一种聚合结构的浮点加法部件。该聚合结构的加法部件在不增加面积的基础上能够充分利用浮点加法的现有结构完成额外的浮点操作,有效的利用了硬件资源,减少了相应的实现面积。接着采用基于大规模随机数驱动的方法进行功能验证,并以代码覆盖率来驱动整个模拟验证流程,以代码覆盖率检测和评估浮点加法部件验证工作的质量。3.改进实现了一种双输入端口的集中-分布式浮点发射队列结构。该结构通过增加发射队列的输入端口,将X处理器浮点发射队列的有效接收宽度由2提升到了4,使得发射队列能够支持的分派宽度增加一倍,主要手段是增加了一种虚拟保留站类型的发射块;通过将发射队列的项数由8项增加到16项,使得发射队列能够在更大的跨度空间内将无关指令发射到执行流水线中,有效的提高了浮点指令的执行效率。测试结果表明:改进的发射队列能够有效的减少乱序超标量处理器浮点指令的等待时间,有效提高浮点指令的执行效率,性能提升最大能够达到3.4%。4.改进实现了一种低延迟分离式高性能浮点加法部件结构。聚合结构的浮点加法结构能够节省实现面积,但是并不能满足超高性能的处理器对浮点性能的要求。论文通过将浮点转换功能从聚合结构的浮点加法部件中剥离,并采用基于物理综合指导结构优化迭代的方式,将浮点加法部件的延迟由4拍减为3拍,理论性能提升25%;将转换类指令的延迟由4拍减为2拍,理论性能提升50%。实际的性能测试表明,所实现的分离式浮点加法部件能够满足超高性能X处理器对浮点性能的要求,有效的提高了浮点程序的性能,实际性能提升最高达到3.7%。(本文来源于《国防科学技术大学》期刊2015-04-01)

周东方[4](2015)在《高性能浮点叁角函数运算部件的设计与验证》一文中研究指出在通信、网络、实时测量与控制等领域,研究人员提出了许多信号处理算法,在其几何运算框架结构中需要处理叁角函数等基本函数的运算问题。在工程应用的场合,浮点叁角函数运算非常广泛。高性能浮点叁角函数的设计与实现在工程应用中具有重大意义。本文对浮点叁角函数运算的方法理论进行了研究,基于BKM算法设计并实现了一个浮点叁角函数运算部件。文章的主要研究工作内容及成果包括以下几点:1.基于BKM算法,提出了串行和并行两种BKM执行框架,用于浮点叁角函数运算部件的核心功能实现。通过对比分析包括CORDIC算法在内的多种实现叁角函数算法性能,本文选择了算法性能更好的BKM算法来实现浮点叁角函数运算功能。在对BKM算法计算叁角函数的流程及计算流程中需要处理常值问题的研究基础上,设计了融合查表法的串行和并行BKM执行框架。串行BKM执行框架的特点是各次迭代运算循环使用同一套硬件资源迭代计算叁角函数,这一套迭代硬件资源主要包括加法器、移位器。这种串行执行框架是以时间换取空间的方式节省了硬件消耗;并行BKM执行框架的特点是各次迭代运算使用各自不同的迭代运算硬件资源在同一时钟周期并行执行,这种并行执行框架是以空间换取时间的方式节省了硬件计算时间。2.基于BKM算法执行框架,设计并使用Verilog硬件描述语言实现了浮点叁角函数运算部件。该部件采用10级流水线结构,包括前处理单元、核心处理单元和后处理单元叁大部分。前处理单元主要完成输入弧度值数据由十进制至十六进制的数据格式转换,弧度值异常的检测,算法初始输入值设定以及输入弧度值预处理的工作。核心处理单元主要采用串并行BKM执行框架完成叁角函数的迭代运算工作,它还完成溢出异常检测功能。核心处理单元的核心迭代运算功能采用这两种执行框架既可以加快迭代运算速度又可以减少硬件资源大量消耗。后处理单元主要完成叁角函数运算结果输出和报出异常处理结果的工作。并对由这叁部分组成的整体部件进行10级全流水设计,对流水的关键路径进行了分析研究并对流水各站逻辑进行了划分。最后使用Verilog硬件描述语言完成了浮点叁角函数运算部件的代码编写工作。3.构建功能验证环境,采用定向测试和随机测试的方法分层次地对所设计叁角函数运算部件进行了功能验证。使用模拟验证技术构建验证环境对组成叁角函数运算部件的底层模块进行了模块级功能验证,然后将底层模块整合到整体功能部件中,构建模拟功能验证环境对其进行了功能部件级功能验证。为了使得验证尽量完备,在层次化功能验证过程中使用了手工生成激励的定向测试和随机测试的方法。设计通过了定向测试激励和包括算法收敛合法和收敛区间外的弧度值激励、特殊弧度值激励等在内的大量随机测试激励的验证。实验结果表明设计功能正确。每拍输入一个弧度值其中第一个输入弧度值经过10拍运算得到输出结果,然后每拍流出一个64位浮点双精度叁角函数运算结果。目前,为实现浮点叁角函数运算功能大多数研究者采用的是CORDIC算法,他们使用流水线结构实现CORDIC算法叁角函数运算功能,流水级数一般大于10级,有的采用的是23级流水结构,并且多数实现的浮点叁角函数部件用来处理32位浮点单精度数据。(本文来源于《国防科学技术大学》期刊2015-04-01)

罗淑贞[5](2014)在《基于FPGA的浮点乘加融合部件的研究及算法》一文中研究指出随着国内高性能CPU的快速发展,研究具有高精度的浮点乘加融合部件对推动高性能处理器的研究具有重要意义。然而国内对浮点乘加部件的研究和国外的水平仍存在一定差距,还有很大的发展空间。本论文旨在降低浮点运算的延时,提升速度,通过深入分析现今浮点乘加融合思想与结构,完成了对浮点乘加融合体系结构的设计。论文通过对系统结构模块化,把系统分为以下主要模块:解码模块,乘法器模块,加法器模块,前导1预测模块,规格化和舍入模块等,且主要通过设计前导1预测环节中的关键算法来完成降低延时的目的,最后对各个模块进行综合仿真,并在Altera公司的DE2平台上进行仿真实现。论文的重要创新点在于设计叁操作数前导1预测算法。在这一模块先是分析了当前两操作数前导1预测算法的编码规则,并深入探讨了其存在的不足,并针对这一不足,在FPGA平台上设计了能够直接处理叁操作数的前导1预测算法的完整实现方案,可以有效降低关键路径延时和功耗。论文重点设计出了叁操作数的编码树结构和预测算法的预编码规则,通过在FPGA硬件验证平台上对系统结构合理模块化,且采用硬件描述语言VerilogHDL对部分功能进行编程,优化了设计过程,最后对仿真结果进行了分析。仿真结果表明,设计完成的算法结构较传统算法在关键路径延时上减少36.15%,功耗降低39.20%。最后,在浮点乘加部件的基础上完成了浮点乘加融合系统结构的设计,并利用FPGA技术实现了乘加融合模块的仿真。通过仿真实现来验证各部件结果,由验证结果可知,由此设计出来的浮点乘加融合结构有效的降低了延时,提升了速度。(本文来源于《河北工业大学》期刊2014-11-01)

何军,黄永勤,朱英[6](2013)在《基于SIMD部件的四倍精度浮点乘加器设计》一文中研究指出如何减少四倍精度浮点运算的硬件开销和延迟是需要解决的重要问题。为减少四倍精度乘加器的硬件开销,基于支持64位×4的双精度浮点SIMD FMA部件,设计并实现了一种新的四倍精度浮点乘加器(QPFMA),来支持4种浮点乘加运算和乘法、加减法、比较运算,运算延迟为7拍。通过将四倍精度113位×113位尾数乘法器分解为4个57位×57位乘法器来共享双精度浮点SIMD FMA部件的53位×53位乘法器,显着减少了实现QPFMA的硬件开销。基于65nm工艺的逻辑综合结果表明,该QPFMA频率可达1.1GHz,面积是常规QPFMA设计的42.71%,仅与一个双精度浮点乘加器相当。与现有的QPFMA设计相比,相当工艺和频率下,其运算延迟减少了3拍,门数减少了65.96%。(本文来源于《计算机科学》期刊2013年12期)

邹晓峰,彭元喜,雷元武[7](2013)在《高性能浮点与定点转换部件的设计与实现》一文中研究指出在高速数字信号处理中,由于浮点数能够提供较高的精度和较大的数据表示范围,浮点运算已成为高性能DSP广泛支持的运算操作。为支持高速浮点运算,浮点与定点数之间的高速转换是必不可少的。本文设计实现了一种统一的浮点与定点数据转换部件,实现多种数据格式的转换,支持双精度浮点和64位定点、SIMD单精度浮点和32位定点及双精度浮点与单精度浮点之间的转换。利用CadenceQ~(?)的NC-Verilog对该部件进行了验证,在45nm工艺库下用RTL Compiler进行综合,关键路径为400ps。(本文来源于《第十七届计算机工程与工艺年会暨第叁届微处理器技术论坛论文集(下册)》期刊2013-07-20)

赵芮,雷元武,彭元喜,孙永节[8](2013)在《SIMD浮点乘加部件的设计与验证》一文中研究指出本文设计了一种6级全流水SIMD浮点乘加单元(FMAC),支持双精度/SIMD单精度浮点乘法、双精度/SIMD单精度浮点乘累加(减)和单精度复数乘法与点积等操作。分析各种浮点操作的实现算法,通过调整流水线结构,来降低关键路径延时,提高FMAC频率。最后,对FMAC进行了功能验证,在40 nn工艺下采用Candence公司的RTL Compiler工具进行综合,最大延时470ps。(本文来源于《第十七届计算机工程与工艺年会暨第叁届微处理器技术论坛论文集(下册)》期刊2013-07-20)

何军,田增,郭勇,陈诚[9](2013)在《浮点乘加部件延迟对浮点性能影响的研究》一文中研究指出浮点融合乘加部件会增加独立浮点加减法、乘法等运算延迟。为克服该缺陷,研究将乘加部件独立乘法、加减法等运算延迟由6拍减为4拍时对浮点性能的影响。以某支持乘加运算的国产处理器为基础,修改相关的RTL级设计代码,利用硬件仿真加速器平台,对SPEC CPU2000浮点测试课题进行评估。实验结果表明,该延迟优化有利于提高浮点性能,最大提高5.25%,平均提高1.61%。(本文来源于《计算机工程》期刊2013年07期)

李振虎[10](2013)在《浮点融合乘加部件设计分析与尾数加电路定制设计》一文中研究指出浮点融合乘加部件(MAF)是现代微处理器中的核心部件,它的运算速度直接影响到微处理器的性能。浮点融合乘加部件的计算延时大、结构规模复杂并且功耗相对较高,处在关键路径上。对浮点融合乘加部件的研究具有较高的应用价值。本文通过对X处理器中的64位浮点融合乘加部件进行研究和优化设计,在支持浮点运算与整数运算的基础上,对其中的关键模块进行了分析与研究,综合分析确认原设计的108位尾数加较大的制约了整个浮点融合乘加部件的性能,本文通过改进尾数加的结构并对其进行定制设计,使得浮点融合乘加部件整体性能得到提升。本课题的主要工作和贡献如下:1.DC综合分析,查找分析关键路径,寻找提升整体浮点融合乘加部件性能的方法;2.在尾数加设计中最后两级运算分别采用了进位选择加法器结构和循环进位(End-Around-Carry)结构,其中进位选择结构中把进位为“0”和进位为“1”中相同的部分共用使得面积进一步减小,并且性能不受影响;采用最后一级循环进位结构使得在加法运算时省去了一步加数求补和最终结果的求反加1过程;3.在40nm工艺下对定制完成的108位尾数加进行了时序验证并得出最终结果。设计所占面积为1872.82um2,最坏条件下,尾数加部分运算延迟为350ps,并且相对于改进前时的面积减小了20%并且性能提升23%。从而使得尾数加部分不是制约浮点融合乘加部件性能的关键路径。(本文来源于《国防科学技术大学》期刊2013-03-01)

浮点部件论文开题报告

(1)论文研究背景及目的

此处内容要求:

首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。

写法范例:

浮点部件是微处理器的重要组成部分,浮点倒数类指令归属于浮点指令集,用于计算浮点数的倒数或平方根倒数的近似值。本文以IA-64指令集的浮点倒数类指令的定义和描述为基础,提出了在FPU内部如何执行该类指令的一种逻辑设计方案。

(2)本文研究方法

调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。

观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。

实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。

文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。

实证研究法:依据现有的科学理论和实践的需要提出设计。

定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。

定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。

跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。

功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。

模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。

浮点部件论文参考文献

[1].吴升光,羊箭锋,冯春阳.基于UVM的浮点功能部件验证[J].微电子学与计算机.2017

[2].刘功杰,刘蓬侠.浮点倒数类指令执行部件的逻辑设计[C].第二十届计算机工程与工艺年会暨第六届微处理器技术论坛论文集.2016

[3].邓凯伟.高性能X处理器浮点部件的实现和优化[D].国防科学技术大学.2015

[4].周东方.高性能浮点叁角函数运算部件的设计与验证[D].国防科学技术大学.2015

[5].罗淑贞.基于FPGA的浮点乘加融合部件的研究及算法[D].河北工业大学.2014

[6].何军,黄永勤,朱英.基于SIMD部件的四倍精度浮点乘加器设计[J].计算机科学.2013

[7].邹晓峰,彭元喜,雷元武.高性能浮点与定点转换部件的设计与实现[C].第十七届计算机工程与工艺年会暨第叁届微处理器技术论坛论文集(下册).2013

[8].赵芮,雷元武,彭元喜,孙永节.SIMD浮点乘加部件的设计与验证[C].第十七届计算机工程与工艺年会暨第叁届微处理器技术论坛论文集(下册).2013

[9].何军,田增,郭勇,陈诚.浮点乘加部件延迟对浮点性能影响的研究[J].计算机工程.2013

[10].李振虎.浮点融合乘加部件设计分析与尾数加电路定制设计[D].国防科学技术大学.2013

标签:;  ;  ;  ;  

浮点部件论文-吴升光,羊箭锋,冯春阳
下载Doc文档

猜你喜欢