万亿次机论文-饶立,张云泉,李玉成

导读:本文包含了万亿次机论文开题报告文献综述及选题提纲参考文献，主要关键词:集合通信,Alltoall,曙光5000A,性能测试与分析

万亿次机论文文献综述

饶立,张云泉,李玉成^[1]（2010）在《国产百万亿次机群系统Alltoall性能测试与分析》一文中研究指出随着高性能计算机的应用和发展,并行应用程序所使用的处理器数越来越多,进程间的通信量也不断增多,这对应用程序的性能有很大影响。在采用一种快速傅里叶变换HFFT对曙光5000A进行性能测试时发现,MPI集合通信函数MPI Alltoall的巨大通信开销是并行程序设计的瓶颈。为此,对现有主流Alltoall算法在曙光5000A和深腾7000上进行性能测试与分析,以期对未来的Alltoall算法的优化工作做出贡献。利用不同消息长度和不同进程数测试了Alltoall函数多种算法的性能,这些算法包括二维网格算法、叁维网格算法、Bruck算法、原始算法、成对交换算法、递归倍增算法、环算法以及LAM/MPI中的简单算法等。实验结果表明:消息长度较小时,在曙光5000A上采用原始算法和Bruck算法的性能较好,而在深腾7000上用时较少的算法是简单算法和Bruck算法;对于长消息,曙光5000A上最优的算法是环算法,深腾7000上成对交换性能最优。(本文来源于《计算机科学》期刊2010年08期）

杨晓奇^[2]（2008）在《事务存储编程和KD-50-I万亿次机软件库优化的若干问题研究》一文中研究指出随着并行计算机的发展,特别是片上多处理器CMP(Chip MultiProcessor),又通称为多核处理器的出现,人们逐渐认识到并行计算加速应用的重要性,但是普及并行计算主要受到并行编程复杂和高性能计算机价格昂贵等方面因素的制约。本文研究工作分为两个部分:一是研究多核下事务存储并行编程技术,从而减轻并行编程难度;二是优化首台国产万亿次高性能计算机KD-50-I的软件库(数学库和通信库),以利于低功耗、低价位的国产高性能机推广普及。本文主要研究内容和贡献与创新是:1.基于事务存储执行的并行编程模型讨论了未来多核体系结构上基于事务存储执行的并行编程技术,实现了编写事务存储执行程序框架的软件库,通过提供一系列开始、提交和终止等事务执行程序接口,以详细和直观的方式对源代码实现事务相关,从而对新型软件事务存储算法和技术的验证,以及硬件事务存储执行平台的设计具有指导意义。2.扩充OpenMP支持事务存储执行功能虽然OpenMP是多核体系结构上的流行多线程并行编程模型,但是OpenMP编译器不检查数据相关性、访问冲突和其他可能导致程序错误执行的问题,这些问题传统上完全依赖用户使用锁机制来保证程序的正确性。锁机制的并行编程中存在并行程序效率和并行编程难度的矛盾。粒度大的锁机制编程容易,可应用的并行性挖掘比较差;粒度小的锁机制应用的并行性挖掘较好,可编程难度大,容易带来优先权倒置、死锁和锁护航等问题。本文通过扩充OpenMP支持事务存储执行功能,可有效缓解OpenMP并行编程中并行程序效率和并行编程难度之间矛盾。3.多核下事务存储执行并行加速串行二进制程序历史遗留无源码的二进制代码由于多是单线程串行程序,无法充分利用到现有多核处理器计算资源。若想在多核下得到性能的提升,可以通过反编译得到伪代码,然后对伪代码多线程并行化。其主要困难是:一是反编译对数据类型和复杂控制流恢复很困难,得到的伪代码可读性很差;二是程序并行化时分析程序的数据相关性很难,分析可读性差的伪代码更难。提出反编译二进制代码到中间代码,然后利用事务存储执行原理,对中间代码并行投机多线程编译,(假定线程间的依赖关系不存在,放松对编译器的限制,选择可以投机并行执行的部分并行执行)。通过冲突检测和事务撤销机制,保证即使依赖存在,对程序结果的正确性也没有影响。从而解决了以往反编译得到的伪代码的信息不完整和并行编译器保守的问题,更充分的挖掘了二进制程序的潜在并行性。4.首台国产万亿次机KD-50-I的数学库和通信库优化国产万亿次机KD-50-I具有低功耗、低占地面积、高计算密度叁大特点,对未来研制国产千万亿次计算机系统及提高其自主创新性具有示范作用。本文针对万亿次机节点使用的龙芯2F处理器支持乘加指令和四发射流水线的特点,采用循环展开和指令调度提高指令的并行性,以及采用预取减小访问内存的开销等技术优化了数学库;同时针对万亿次机节点间拓扑固定、层次简单的网络结构特点,采用简化的LBP通信模型分析优化了通信库。数学库和通信库的优化,提高了KD-50-I的并行应用运行效率,对KD-50-I国产高性能机的推广普及具有重要的意义。5.国产万亿次机KD-50-I在并行数据挖掘在中的应用研究基于串行计算机系统的数据挖掘技术,已经远远不能满足海量数据和极其复杂的运算的需求。随着网络技术、高性能计算机的发展,并行数据挖掘成为解决上述问题的可能。本文选择以金融风险管理应用为背景,结合国产万亿次机KD-50-I节点使用处理器的特点和节点间网络拓扑结构,优化并行数据挖掘算法,提高了应用运行效率,为KD-50-I在不同领域的应用,提供了并行算法设计和并行编程的参考。(本文来源于《中国科学技术大学》期刊2008-05-01）

陈靖,张云泉,张林波,袁伟^[3]（2006）在《一种新的MPI Allgather算法及其在万亿次机群系统上的实现与性能分析》一文中研究指出给出一个新的MPIAllgather算法———邻居交换算法(neighborexchange).提出的平均逻辑通信距离的概念和计算公式,可以有效地衡量通信的局部性.通过分析,发现在4种MPIAllgather算法中,邻居交换和环算法均具有最优的通信局部性.在万亿次机群深腾6800和曙光4000A上对4个MPIAllgather算法进行的性能测试和分析结果表明,邻居交换算法的长消息通信性能最优,中长消息通信性能不稳定,短消息通信性能次于递归倍增和Bruck算法.(本文来源于《计算机学报》期刊2006年05期）

侯晓吻,张林波,张云泉^[4]（2005）在《万亿次机群系统高性能应用软件运行现状分析》一文中研究指出通过调用PAPI(PerformanceApplicationProgrammingInterface)接口函数[6]对2004年3月～4月之间运行在国家应用“973”计划项目LSSC-II万亿次机群系统上部分应用程序进行了跟踪,收集到了大量宝贵的性能数据。依据这些性能数据信息,对我国当前高性能软件的运行情况给出了初步分析。分析结果表明,目前大部分应用程序性能都处于较低水平,并行程序使用处理器的数目范围一般为1～64个,处理器平均效率低于10%,平均性能低于300Mflops。(本文来源于《计算机工程》期刊2005年22期）

袁伟,张云泉,孙家昶,李玉成^[5]（2005）在《国产万亿次机群系统NPB性能测试分析》一文中研究指出对3个国产万亿次机群系统进行了NPB性能测试分析,重点研究大规模并行处理时(处理器数目达到上千个)的性能特点和趋势.分析了不同的处理器、互连网络等系统配置对NPB性能的影响,发现NPB的8个程序在3个万亿次机器上的性能特点和表现并不一致,表明国产高性能机群在设计上正在逐渐走出同质化的趋势,向多样化发展.进一步分析表明,目前NPB程序的可扩展性可以达到几百个处理器,但尚不能达到上千个处理器,NPB程序能发挥出的系统峰值的百分比仍然徘徊在10%左右,机群系统的并行可扩展性和应用程序对机器运算潜能的利用还需要进一步提高.对于处理器数目达到上千个的万亿次机群系统来说,对集合通信和细粒度通信能力的支持亟需提高.(本文来源于《计算机研究与发展》期刊2005年06期）

袁伟^[6]（2005）在《万亿次机群系统NPB性能评测与并行非数值算法实现及性能分析》一文中研究指出高性能计算正处于一个新的快速发展时期,有两个现象值得关注,一方面,并行计算机的峰值性能提升迅速,峰值计算速度高达百万亿次的计算机系统已经被研制成功,高性价比的机群(cluster)成为高性能计算机的主流架构,促进了高性能计算在更多领域的普及应用;另一方面,并行应用软件缺乏,高性能计算机的实际效率长期以来处于较低水平,当前大型并行应用软件仅能发挥20%以下的系统峰值性能。应用性能才是用户最关心的,也是最重要的。并行软件和应用水平已经成为高性能计算发展中的薄弱环节,应该给予更多的重视。并行计算机和并行应用程序是影响并行计算性能的两个主要方面,也是本文的研究重点。本文以3个万亿次机群系统为平台,利用有着很强应用背景的NPB(NAS Parallel Benchmarks)进行性能测试分析。NPB程序包的8个程序都来自于实际应用领域,是科学计算领域并行应用的典型代表,NPB性能评测属于面向应用的性能评测,可以较真实地表现出系统的拟应用性能。通过NPB测试,重点研究在大规模并行处理时(处理器数目达到上千个)系统的性能特点和趋势。分析了不同的处理器、互连网络等系统配置对NPB性能的影响,发现NPB的8个程序在3个万亿次机群上的性能特点和表现并不一致,表明国产高性能机群在设计上正在逐渐走出同质化的趋势,向多样化发展。进一步分析表明,目前NPB程序的可扩展性可以达到几百个处理器,但尚不能达到上千个处理器,NPB程序能发挥出的系统峰值的百分比仍然徘徊在10%左右,机群系统的并行可扩展性和应用程序对机器运算潜能的利用还需要进一步提高。对于处理器数目达到上千个的万亿次机群系统来说,对聚合通信和细粒度通信能力的支持亟需提高。高性能并行计算在非数值领域有着广泛的应用前景。本文介绍了一个自主开发的基于MPI的并行数据挖掘系统(关联规则挖掘),在2个机群系统上进行了加速比性能测试,分析了程序的并行特点。结果表明,在非数值并行应用中,应当做好数据划分,精心设计优化数据结构,尽可能利用程序与易并行程序相类似的特点,这样可以有效减少进程间通信,实现负载均衡和同步计算,使得程序有较好的并行性能。(本文来源于《中国科学院研究生院（软件研究所）》期刊2005-05-01）

邹水平^[7]（2002）在《上游高性能计算机应用中心揭幕》一文中研究指出本报讯邹水平报道：12月16日，中国石化高性能计算机应用中心成立。曹湘洪与神威计算机的主要设计者金怡濂院士共同为该中心揭幕。至此，峰值运算速度达2640亿次／秒的国产“神威新世纪”机群已在石油勘探开发研究院安家落户，半年之后将迎来“神威万亿次超级计算(本文来源于《中国石化报》期刊2002-12-19）

刘路沙^[8]（2002）在《国产万亿次机加速产业化》一文中研究指出本报北京10月21日电　联想万亿次机自研制成功后，正加速实现产业化。今天，联想集团与中国科学院大气物理所签订了订购协议，联想深腾1800万亿次计算机将落户大气所，用于各种气候模式计算、气候趋势预测和全球大气环流模式并行计算。　　中科院大气物理所及(本文来源于《光明日报》期刊2002-10-22）

万亿次机论文开题报告

（1）论文研究背景及目的

此处内容要求：

首先简单简介论文所研究问题的基本概念和背景，再而简单明了地指出论文所要研究解决的具体问题，并提出你的论文准备的观点或解决方法。

写法范例：

随着并行计算机的发展,特别是片上多处理器CMP(Chip MultiProcessor),又通称为多核处理器的出现,人们逐渐认识到并行计算加速应用的重要性,但是普及并行计算主要受到并行编程复杂和高性能计算机价格昂贵等方面因素的制约。本文研究工作分为两个部分:一是研究多核下事务存储并行编程技术,从而减轻并行编程难度;二是优化首台国产万亿次高性能计算机KD-50-I的软件库(数学库和通信库),以利于低功耗、低价位的国产高性能机推广普及。本文主要研究内容和贡献与创新是:1.基于事务存储执行的并行编程模型讨论了未来多核体系结构上基于事务存储执行的并行编程技术,实现了编写事务存储执行程序框架的软件库,通过提供一系列开始、提交和终止等事务执行程序接口,以详细和直观的方式对源代码实现事务相关,从而对新型软件事务存储算法和技术的验证,以及硬件事务存储执行平台的设计具有指导意义。2.扩充OpenMP支持事务存储执行功能虽然OpenMP是多核体系结构上的流行多线程并行编程模型,但是OpenMP编译器不检查数据相关性、访问冲突和其他可能导致程序错误执行的问题,这些问题传统上完全依赖用户使用锁机制来保证程序的正确性。锁机制的并行编程中存在并行程序效率和并行编程难度的矛盾。粒度大的锁机制编程容易,可应用的并行性挖掘比较差;粒度小的锁机制应用的并行性挖掘较好,可编程难度大,容易带来优先权倒置、死锁和锁护航等问题。本文通过扩充OpenMP支持事务存储执行功能,可有效缓解OpenMP并行编程中并行程序效率和并行编程难度之间矛盾。3.多核下事务存储执行并行加速串行二进制程序历史遗留无源码的二进制代码由于多是单线程串行程序,无法充分利用到现有多核处理器计算资源。若想在多核下得到性能的提升,可以通过反编译得到伪代码,然后对伪代码多线程并行化。其主要困难是:一是反编译对数据类型和复杂控制流恢复很困难,得到的伪代码可读性很差;二是程序并行化时分析程序的数据相关性很难,分析可读性差的伪代码更难。提出反编译二进制代码到中间代码,然后利用事务存储执行原理,对中间代码并行投机多线程编译,(假定线程间的依赖关系不存在,放松对编译器的限制,选择可以投机并行执行的部分并行执行)。通过冲突检测和事务撤销机制,保证即使依赖存在,对程序结果的正确性也没有影响。从而解决了以往反编译得到的伪代码的信息不完整和并行编译器保守的问题,更充分的挖掘了二进制程序的潜在并行性。4.首台国产万亿次机KD-50-I的数学库和通信库优化国产万亿次机KD-50-I具有低功耗、低占地面积、高计算密度叁大特点,对未来研制国产千万亿次计算机系统及提高其自主创新性具有示范作用。本文针对万亿次机节点使用的龙芯2F处理器支持乘加指令和四发射流水线的特点,采用循环展开和指令调度提高指令的并行性,以及采用预取减小访问内存的开销等技术优化了数学库;同时针对万亿次机节点间拓扑固定、层次简单的网络结构特点,采用简化的LBP通信模型分析优化了通信库。数学库和通信库的优化,提高了KD-50-I的并行应用运行效率,对KD-50-I国产高性能机的推广普及具有重要的意义。5.国产万亿次机KD-50-I在并行数据挖掘在中的应用研究基于串行计算机系统的数据挖掘技术,已经远远不能满足海量数据和极其复杂的运算的需求。随着网络技术、高性能计算机的发展,并行数据挖掘成为解决上述问题的可能。本文选择以金融风险管理应用为背景,结合国产万亿次机KD-50-I节点使用处理器的特点和节点间网络拓扑结构,优化并行数据挖掘算法,提高了应用运行效率,为KD-50-I在不同领域的应用,提供了并行算法设计和并行编程的参考。

（2）本文研究方法

调查法：该方法是有目的、有系统的搜集有关研究对象的具体信息。

观察法：用自己的感官和辅助工具直接观察研究对象从而得到有关信息。

实验法：通过主支变革、控制研究对象来发现与确认事物间的因果关系。

文献研究法：通过调查文献来获得资料，从而全面的、正确的了解掌握研究方法。

实证研究法：依据现有的科学理论和实践的需要提出设计。

定性分析法：对研究对象进行“质”的方面的研究，这个方法需要计算的数据较少。

定量分析法：通过具体的数字，使人们对研究对象的认识进一步精确化。

跨学科研究法：运用多学科的理论、方法和成果从整体上对某一课题进行研究。

功能分析法：这是社会科学用来分析社会现象的一种方法，从某一功能出发研究多个方面的影响。

模拟法：通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。

万亿次机论文参考文献

[1].饶立,张云泉,李玉成.国产百万亿次机群系统Alltoall性能测试与分析[J].计算机科学.2010

[2].杨晓奇.事务存储编程和KD-50-I万亿次机软件库优化的若干问题研究[D].中国科学技术大学.2008

[3].陈靖,张云泉,张林波,袁伟.一种新的MPIAllgather算法及其在万亿次机群系统上的实现与性能分析[J].计算机学报.2006

[4].侯晓吻,张林波,张云泉.万亿次机群系统高性能应用软件运行现状分析[J].计算机工程.2005

[5].袁伟,张云泉,孙家昶,李玉成.国产万亿次机群系统NPB性能测试分析[J].计算机研究与发展.2005

[6].袁伟.万亿次机群系统NPB性能评测与并行非数值算法实现及性能分析[D].中国科学院研究生院（软件研究所）.2005

[7].邹水平.上游高性能计算机应用中心揭幕[N].中国石化报.2002

[8].刘路沙.国产万亿次机加速产业化[N].光明日报.2002

标签：集合通信; Alltoall; 曙光5000A; 性能测试与分析;

万亿次机论文-饶立,张云泉,李玉成

万亿次机论文文献综述

万亿次机论文开题报告

万亿次机论文参考文献

猜你喜欢