并行性能模拟论文-张帅,徐顺,刘倩,金钟

并行性能模拟论文-张帅,徐顺,刘倩,金钟

导读:本文包含了并行性能模拟论文开题报告文献综述及选题提纲参考文献,主要关键词:分子动力学,Cell,Verlet算法,GPU异构计算,互斥同步优化

并行性能模拟论文文献综述

张帅,徐顺,刘倩,金钟[1](2018)在《基于GPU的分子动力学模拟Cell Verlet算法实现及其并行性能分析》一文中研究指出分子动力学模拟存在空间和时间的复杂性,并行加速分子的模拟过程尤为重要。基于GPU硬件数据并行架构的特点,组合分子动力学模拟的原子划分和空间划分的并行策略,优化实现了短程作用力计算Cell Verlet算法,并对分子动力学核心基础算法的GPU实现做了优化和性能分析。Cell Verlet算法实现首先采用原子划分的方式,将每个粒子的模拟计算任务映射到每个GPU线程,并采用空间划分的方式将模拟区域进行元胞划分,建立元胞索引表,实现粒子在模拟空间的实时定位;而在计算粒子间的作用力时,引入希尔伯特空间填充曲线方法来保持数据的线性存储与数据的叁维空间分布的局部相关性,以便通过缓存加速GPU的全局内存访问;也利用了访存地址对齐和块内共享等技术来优化设计GPU分子动力学模拟过程。实例测试与对比分析显示,当前的算法实现具有强可扩展性和加速比等优势。(本文来源于《计算机科学》期刊2018年10期)

王勇献,张理论,车永刚,徐传福,刘巍[2](2015)在《高阶精度CFD应用在天河2系统上的异构并行模拟与性能优化》一文中研究指出在当前主流的众核异构高性能计算机平台上开展超大规模计算流体力学(computational fluid dynamics,CFD)应用的高效并行数值模拟仍然面临着一系列挑战性技术问题,也是该领域的热点研究问题之一.面向天河2高性能异构并行计算平台,针对高阶精度CFD流场数值模拟程序的高效并行进行了探索,重点讨论了CFD应用特点与众核异构高性能计算机平台特征相适应的性能优化策略,从任务分解、并行度挖掘、多线程优化、SIMD向量化、CPU与加速器协同优化等方面,提出一系列性能提升技术.通过在天河2高性能异构并行计算平台上进行了多个算例的数值模拟,模拟的最大CFD规模达到1 228亿个网格点,共使用约59万CPU+MIC处理器核,测试结果表明移植优化后的程序性能提高2.6倍左右,且具有良好的可扩展性.(本文来源于《计算机研究与发展》期刊2015年04期)

吴志敏,吕慧伟,陈明宇[3](2013)在《一个针对并行模拟引擎的性能评测实例》一文中研究指出SimK是由中科院计算所体系结构国家重点实验室开发的一个并行离散时间模拟引擎。基于已经发布的SimK1.0版本,对任务划分及同步推进阻塞控制进行了功能扩展,开发了SimK的1.1版本。同时由于缺乏一个专门对SimK模拟性能评测的Benchmark以及全面的评测结果,首先讨论了并行模拟引擎Benchmark的设计准则,之后介绍了开发的Benchmark-PassBall,并且使用它对SimK的强弱扩展性、组件负载不均衡情况下的强扩展性进行了评测,同时对比了组件负载不均衡和均衡情况下的加速比,探讨了模拟计算量的变化对模拟加速比的影响,并讨论了Benchmark的适用性。通过实验讨论得出:a)PassBall可以作为并行模拟引擎SimK性能评测的Benchmark,亦可用于其他并行模拟引擎性能的评测;b)SimK具有良好的强弱扩展性;c)负载平衡和模拟计算量都会对并行模拟加速比产生影响。(本文来源于《计算机科学》期刊2013年03期)

徐传福,王荣,车永刚,王正华[4](2012)在《Trace生成对大规模并行性能模拟的影响及其改进策略》一文中研究指出Trace生成是trace驱动体系结构模拟中不可或缺的步骤。Trace不仅需要占用大量存储空间,其生成过程还可能对目标应用程序的模拟执行产生一定程度的干扰,导致性能数据误差。Trace驱动并行性能模拟器由于其设计实现特点和所运行的宿主并行平台的多样性,使得trace生成的影响具有其独特性。本文选取典型并行模拟器BigSim和若干具有不同计算通信比的目标并行程序,在叁个支持不同traceI/O方式的宿主机平台上设计实验评估了trace生成对并行性能模拟的影响,结果表明trace生成对模拟效率和精度均有较大的影响,并分析了这种影响与并行模拟器实现和宿主机平台I/O方式的关系,进而讨论了几种可行的改进方案,对trace驱动并行模拟器设计、实现和使用具有一定的指导意义。(本文来源于《计算机工程与科学》期刊2012年03期)

李伯杨,聂峰光,李晓霞,郭力[5](2011)在《GPU并行计算集群上的LAMMPS分子动力学模拟性能测试》一文中研究指出近年来GPU作为一种具有极强运算能力的多核处理器,得到了快速的发展,成为高性能计算领域的主要发展方向。各种分子动力学模拟的主流软件也纷纷使用GPU技术,其中LAMMPS较早地开发出了通用的并行GPU版本。本文利用nVIDIA公司最新Femi架构的Tesla C2050 GPU搭建了小型的基于LAMMPS的分子动力学模拟GPU并行计算集群,通过氩原子熔化的算例对集群性能进行了测试,测试的内容包括CPU集群、单节点单GPU、单节点多GPU以及多节点GPU集群。比较了各种情况的加速倍数并对造成性能改变的原因进行了讨论,分析了用于MD模拟的GPU并行计算集群性能的瓶颈所在,提出可能的解决方法,搭建集群时,充分考虑PCI总线的承受能力,对于集群效率的提高有很大好处。测试结果表明,集群的性能较高,相对于以往的单机以及CPU集群,计算的规模大大提高了,加速比也在20倍以上。可以预测,在未来一段时间内,多GPU并行是分子动力学模拟的发展方向。(本文来源于《计算机与应用化学》期刊2011年10期)

徐传福[6](2011)在《计算机体系结构高效并行性能模拟技术研究》一文中研究指出性能模拟与分析模型、Benchmark测试被认为是计算机系统性能评测的叁大主要方法。相对于Benchmark测试和分析模型,模拟技术在性能评价的代价、时间以及灵活性之间有很好的平衡,正日益受到学术界和产业界的关注。模拟器由于采用软件模拟硬件行为,通常比在真实硬件上的执行开销大几个数量级,并且存储需求也很大。传统串行模拟技术已难以满足体系结构模拟对容量和时效性的需求,特别对大规模计算机系统的性能模拟,基于并行宿主机平台的并行性能模拟已成为必然趋势。与此同时,随着所模拟目标体系结构复杂性和测试程序规模的持续增长,大规模体系结构并行模拟技术的发展和应用仍然受到模拟性能的制约。本文围绕着如何提高体系结构并行性能模拟的效率和精度而开展工作,在处理器体系结构高效并行模拟、大规模体系结构并行模拟中的高效映射策略和自适应同步方法、新型体系结构并行模拟器的设计实现和应用评估等方面开展了深入研究,主要工作包括:(1)针对基于时间分割的处理器体系结构分布式并行模拟建立了通用性能分析模型,基于该模型对典型系统的并行加速比、并行效率等性质进行了理论分析,得出了一些有用的结论。深入分析了已有的时间分割并行化方法存在的并行结点间模拟负载不均衡问题,提出了均衡可扩展分布式并行模拟方法SEDSim(Scalable and Evenly Distributed Simulation)。SEDSim针对模拟结点负载不均衡问题,提出了开销模型指导的指令区间均衡分割和分配策略CoMEPA(Cost Model-guided Evenly Partition and Allocation);针对分布式并行模拟与非连续、任意数量抽样模拟区间的高效集成,提出了基于最小等价距离(Minimum Equivalent Cost)的区间分配算法MinEC。理论分析和测试结果均表明了SEDSim方法的优势。(2)对大规模体系结构并行模拟中的逻辑进程到物理进程的映射问题进行了深入研究,提出了基于通信最小化的高效映射方法MinCoM (Minimum Communication-guided Mapping)。MinCoM利用从踪迹文件中提取的逻辑进程之间的通信信息生成映射,使得物理进程之间通信最小。在MinCoM框架下,结合规则目标应用通信特征提出了基于数组分配的映射方法A2-MinCoM(Array Assignment MinCoM);结合多核集群宿主机平台通信特征提出了两阶段映射方法TP-MinCoM(Two-Phase MinCoM)。测试表明,上述映射方法相对于传统的块映射和循环映射能够大幅减少并行模拟执行时间和物理进程间通信。(3)通过挖掘目标应用特征信息对大规模体系结构并行模拟中的自适应同步方法进行了优化,提出了基于事件触发度(Event Trigger Degree,简称ETD)的自适应同步方法ETD-Adaptive和面向迭代目标应用的两阶段混合自适应同步方法Iter-Adaptive。ETD-Adaptive利用踪迹中提取的未来事件及其依赖关系优先指导时间窗口的自适应调整,Iter-Adaptive利用很多科学计算并行应用所具有的迭代特征搜集自适应窗口调整信息并为后续模拟建立一个合适的固定时间窗口。测试结果验证了两种方法的有效性,同时这两种方法易于实现,无需修改编译器,甚至无需修改并行模拟器的核心代码。(4)通过实验评估了大规模踪迹驱动体系结构并行模拟中踪迹生成对模拟的影响。实验选取了若干具有不同计算通信比的目标并行程序和叁个支持不同踪迹I/O方式的宿主机平台,结果表明踪迹生成对模拟效率和精度均有较大的影响,深入分析了这种影响与并行模拟器实现和宿主机平台I/O方式的关系,针对并行模拟的特点提出了几种可行的踪迹优化技术,对踪迹驱动并行模拟器设计、实现和使用具有一定的指导意义。(5)针对已有体系结构并行模拟器的不足和消息传递应用程序在多核集群系统上所表现出的新的性能特征,设计并实现了一个面向多核集群系统性能预测、分析的并行模拟器MCPSim(Multi-core Cluster Parallel Simulator)。MCPSim在模拟的功能模型和性能模型上体现了片内核间、结点内片间以及结点间叁个层次上消息通信的功能和性能特点,不仅能够准确给出性能预测结果,同时支持对消息传递应用程序在上述通信层次上的消息数量、通信量等的轮廓分析,能够应用于多核集群系统上消息传递应用程序的性能分析、预测中。(本文来源于《国防科学技术大学》期刊2011-10-01)

张猛[7](2011)在《介观耗散粒子动力学模拟程序并行化与性能优化》一文中研究指出耗散粒子动力学计算(dissipative particle dynamics, DPD)是一种介于原子尺度与介观范围内的模拟方法。该模拟方法应用范围广泛,能够有效探讨分子的堆积与分散问题,不但可以涵盖更多的粒子体系,而且可以研究较长时间内系统粒子的运动行为。但是串行方式的计算机模拟无法有效应对模拟体系不断增大、体系复杂度不断增加的状况。本文简明扼要地介绍了分子模拟与并行计算的研究背景,较为全面地介绍了耗散粒子动力学模拟的基本理论和计算方法,重点阐述了基于空间域分解的串行模拟程序的并行化算法,并引入了相邻单元格列表构建和重迭划分等方法,有效解决了模拟体系中的周期性边界和作用力截断距离等问题。最后,借助于MPI对并行算法加以实现,并在搭载有SGE (Sun Grid Engine)的高性能集群平台上完成多种条件下的模拟测试,结果表明并行算法不仅能够大幅缩短计算时间,而且适用于更大的模拟体系。同时,本文介绍了润湿现象的背景知识和相关的基本理论,并引入了传统耗散粒子动力学模拟方法的改进方法——多体耗散粒子动力学模拟方法(many-body dissipative particle dynamics, MDPD),并以毛细管润湿现象作为模拟实例,进一步说明了多体DPD模拟方法能够很好地模拟毛细管润湿现象,并且得出空间域分解算法能够很好地应用于多体耗散粒子动力学模拟程序,使用该方法能够获取很高的模拟效率。(本文来源于《北京化工大学》期刊2011-05-26)

崔宇,张兆心,李斌[8](2011)在《基于动态TCP代理的并行网络模拟性能研究》一文中研究指出通过分析原始网络模拟器PDNS中TCP Agent层的静态架构,发现其存在的端口冲突、空占现象和服务无效问题。提出了基于动态TCP Agent策略的模型,通过对TCP数据的分流与动态创建和绑定TCP Agent的方法成功的解决了静态架构中出现的问题,同时有效的降低了内存占用量。通过模拟蠕虫扩散表明,动态策略实际产生的TCP Agent数目不到静态绑定策略的10%,模拟时间与静态策略近似。通过释放TCP Agent,实际存在的连接数目只占创建总数的70%左右。(本文来源于《微计算机信息》期刊2011年01期)

徐传福,车永刚,王正华[9](2010)在《基于并行模拟的多核集群系统性能预测和分析》一文中研究指出针对多核集群系统所表现出的新的性能特征,提出了面向多核集群系统消息传递应用程序的并行模拟模型并设计、实现了一个并行模拟器MCPSim(Multi-core Cluster Parallel Simulator),MCPSim在功能模型和性能模型上体现了片内核间、结点内片间以及结点间等叁个层次上消息通信的特点,同时支持对应用的消息数量、通信量等的百分比分布的profiling功能,采用PRIMEJ、acobi3D、NPB IS以及HPL等Benchmark程序对MCPSim进行了测试,结果表明MCPSim性能预测的精度优于BigSim,同时能够广泛应用于针对多核集群系统消息传递应用程序的性能分析中。(本文来源于《国防科技大学学报》期刊2010年05期)

方建滨,徐传福,车永刚,翁玉芬,王正华[10](2010)在《基于Trace的并行性能模拟任务映射方法》一文中研究指出针对Trace驱动的并行性能模拟问题,提出基于Trace信息指导的映射方法CO-LP3M。CO-LP3M利用从Trace中提取的目标应用程序的通信特征,以宿主机物理进程间通信次数最小化为目标,兼顾计算负载均衡,生成并行模拟任务到宿主机的映射。对HPL程序进行实验,结果表明CO-LP3M可有效提高并行模拟性能,相对于常见的映射方式,模拟性能最多提高14.7%。在此基础上给出CO-LP3M的扩展技术SCO-LP3M。(本文来源于《计算机工程》期刊2010年12期)

并行性能模拟论文开题报告

(1)论文研究背景及目的

此处内容要求:

首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。

写法范例:

在当前主流的众核异构高性能计算机平台上开展超大规模计算流体力学(computational fluid dynamics,CFD)应用的高效并行数值模拟仍然面临着一系列挑战性技术问题,也是该领域的热点研究问题之一.面向天河2高性能异构并行计算平台,针对高阶精度CFD流场数值模拟程序的高效并行进行了探索,重点讨论了CFD应用特点与众核异构高性能计算机平台特征相适应的性能优化策略,从任务分解、并行度挖掘、多线程优化、SIMD向量化、CPU与加速器协同优化等方面,提出一系列性能提升技术.通过在天河2高性能异构并行计算平台上进行了多个算例的数值模拟,模拟的最大CFD规模达到1 228亿个网格点,共使用约59万CPU+MIC处理器核,测试结果表明移植优化后的程序性能提高2.6倍左右,且具有良好的可扩展性.

(2)本文研究方法

调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。

观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。

实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。

文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。

实证研究法:依据现有的科学理论和实践的需要提出设计。

定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。

定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。

跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。

功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。

模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。

并行性能模拟论文参考文献

[1].张帅,徐顺,刘倩,金钟.基于GPU的分子动力学模拟CellVerlet算法实现及其并行性能分析[J].计算机科学.2018

[2].王勇献,张理论,车永刚,徐传福,刘巍.高阶精度CFD应用在天河2系统上的异构并行模拟与性能优化[J].计算机研究与发展.2015

[3].吴志敏,吕慧伟,陈明宇.一个针对并行模拟引擎的性能评测实例[J].计算机科学.2013

[4].徐传福,王荣,车永刚,王正华.Trace生成对大规模并行性能模拟的影响及其改进策略[J].计算机工程与科学.2012

[5].李伯杨,聂峰光,李晓霞,郭力.GPU并行计算集群上的LAMMPS分子动力学模拟性能测试[J].计算机与应用化学.2011

[6].徐传福.计算机体系结构高效并行性能模拟技术研究[D].国防科学技术大学.2011

[7].张猛.介观耗散粒子动力学模拟程序并行化与性能优化[D].北京化工大学.2011

[8].崔宇,张兆心,李斌.基于动态TCP代理的并行网络模拟性能研究[J].微计算机信息.2011

[9].徐传福,车永刚,王正华.基于并行模拟的多核集群系统性能预测和分析[J].国防科技大学学报.2010

[10].方建滨,徐传福,车永刚,翁玉芬,王正华.基于Trace的并行性能模拟任务映射方法[J].计算机工程.2010

标签:;  ;  ;  ;  ;  

并行性能模拟论文-张帅,徐顺,刘倩,金钟
下载Doc文档

猜你喜欢