并行加速处理论文-徐亮亮

并行加速处理论文-徐亮亮

导读:本文包含了并行加速处理论文开题报告文献综述及选题提纲参考文献,主要关键词:数值模拟,无网格法,非均匀场节点,并行计算

并行加速处理论文文献综述

徐亮亮[1](2018)在《无网格方法非均匀场节点处理、并行加速与压缩存储方法》一文中研究指出随着计算机技术的蓬勃发展,有限元和有限差分等数值模拟方法已经在各种实际问题中得到广泛的应用,与此同时另一种建立在场节点基础之上的数值计算方法——无网格法也在逐渐的发展起来。因为其无需网格单元,能够消除网格依赖等所带来的种种困难,所以得到部分学者的青睐。本文针对局部弱式的无网格法,采用基于多核CPU和众核GPU的并行计算技术和高效的内存存储策略来提高无网格法的计算效率,为无网格方法在较大规模计算中的应用提供基础;并研究了其问题域采用非均匀分布的场节点来离散时,场节点的局部积分域和积分点的局部支持域的确定方法。并本文的主要研究内容和成果概括为以下叁个方面:(1)对无网格法求解步骤进行可并行性分析,对其组装刚度矩阵、求解系统方程等关键步骤应用高效的内存存储策略、多核CPU和众核GPU的高速并行计算技术,验证了无网格法优化之后的准确性,并测试了较大规模计算对时间的消耗情况,显着提高了无网格法数值计算效率。(2)无网格法分析实际问题时,其问题域往往采用非均匀分布的场节点来表示,本文针对问题域中非均匀分布的场节点,研究了多种确定场节点的局部积分域和积分点的局部支持域的方法,并对这些确定局部域的方法进行定性和定量两方面的分析。另外对具有复杂几何形状的问题域,提出了积分点与问题域位置关系的判别方法。(3)利用考虑非均匀场节点的高性能无网格法计算程序,对露天矿坑端帮开采带来的岩土体稳定性问题进行了计算。初步分析了在重力的作用下矿山边坡岩土体的位移和应力分布情况,对可能出现的危险滑移进行了判断。(本文来源于《中国地质大学(北京)》期刊2018-05-01)

孙永涛[2](2015)在《基于GPU的地震资料处理并行加速研究》一文中研究指出在地震资料处理环节中,随着处理对象及算法的复杂程度越来越高,作为高精度反演、逆时偏移等地震资料处理的重要组成部分,地震波正演模拟对计算速度的要求越来越高,传统的以CPU为主的串行算法已经不能满足日益复杂的地震勘探对计算效率的需求,而目前实际工作中使用的计算机集群并行计算面临系统能耗和维护成本过高的问题,而GPU拥有自身的并行架构特性,且功耗低、成本小,进行GPU并行计算正可以解决这些问题。有限差分法求解地震波动方程时,数值频散问题对模拟结果影响重大,通过实验对比,分析得到处理数值频散的几种方法。继而而研究了PML(完全匹配层)吸收边界条件处理边界反射问题,通过实验对比,说明了边界条件对正演模拟的重要性,并推导出了相应的声波方程的离散差分形式,有限差分方法和吸收边界处理都很适合在GPU平台做并行计算。NVIDIA公司开发的基于GPU的统一设备架构平台CUDA, CUDA首先是在硬件支持的基础上,对GPU进行多线程并行计算的软件平台,处理地震波场有限差分计算的频散问题时,因为差分阶数和网格规模的增加造成计算效率很低,而且在剖分网格上做地震波场的有限差分计算,网格上各个节点的数值计算存在很大的并行性,所以正演模拟有限差分非常适合在GPU平台做多线程并行计算。本文基于CUDA软件结构,实现了二维声波方程有限差分数值解法的具体实现方法和流程,并通过不同配置硬件环境下的运行效率对比分析,充分证明,基于CUDA软件平台可明显提高地震波正演模拟的计算效率,为地震资料处理环节提供了技术实现的可能。(本文来源于《西南石油大学》期刊2015-06-01)

田泽,韩立敏,张骏,任向隆[3](2015)在《并行处理二维图形加速引擎结构设计》一文中研究指出为提升二维图形操作的执行效率,提出一种并行计算结构的二维图形加速引擎,能够同时对典型的二维图形、文本和图像进行处理,显着增强二维图形图像的处理效率。基于Xilinx Virtex6xc6v1x760构建FPGA原型系统,进行功能验证和性能评估,评估结果表明,相比Marvell PXA300,该二维图形加速器能更加有效地加速二维图形操作,CPU使用硬件调用在加速引擎上执行二维图形操作比软件执行平均快23倍,在SMIC 65nm CMOS工艺下,加速器的工作速度可达325 MHz,满足设计需求。(本文来源于《计算机工程与设计》期刊2015年03期)

秦华,周沫,察豪,沈括[4](2013)在《基于GPU加速的雷达信号处理并行技术》一文中研究指出软件雷达实现的瓶颈问题之一是信号的实时处理。为提高软件雷达信号处理的实时性,利用图形处理器(GPU)的并行运算能力进行雷达信号处理的硬件加速。设计雷达信号处理在CPU-GPU系统中的执行策略。针对GPU并行计算特点对雷达信号处理算法进行优化。实验结果表明,通过与同期中央处理器(CPU)运算平台比较,GPU运算可实现20倍以上的加速比,并且可以实时完成雷达信号处理的整个流程,体现出良好的工程价值与应用前景。(本文来源于《舰船科学技术》期刊2013年07期)

杨冠男,袁杰[5](2013)在《多核并行运算加速图像处理》一文中研究指出随着并行处理技术的发展,并行计算正不断应用于科学计算领域之外的众多工程领域,图像并行处理技术更是在传统的图像处理领域发挥着重要作用。在此主要是基于多核CPU的分布式并行计算Matlab PCT加速图像处理,依照并行处理规则,寻求问题并行归约,凭借有效的硬件资源,对其进行并行处理,提高程序执行效率,缩短计算延时。通过Matlab和Visual C++两个平台,实现了对图像工程的并行加速处理,结果证明经并行处理后的图像工程在计算效率方面有显着提高,结果精确,计算耗时小。(本文来源于《现代电子技术》期刊2013年02期)

王聪[6](2011)在《磁共振稀疏重建算法与直接离散傅里叶变换重建算法并行处理加速方法的研究》一文中研究指出磁共振成像具有无电离辐射、多参数成像、功能成像、可任意方向断层成像等优点。在临床上磁共振已经得到广泛的应用,成为最重要的成像方法之一。具有诸多优点的同时,扫描速度慢是磁共振成像的一大瓶颈,不但给病人造成长时间等待的痛苦,而且使磁共振难以应用到动态成像等需要快速成像的方面。自磁共振成像出现以来,提高成像速度一直是一个研究课题,非笛卡尔采样(如螺旋轨迹、放射状轨迹、propeller等)已经得到了较好的应用,新近出现的稀疏磁共振成像方法也正在作为一个热点被研究。对于非笛卡尔采样的到的数据一般采用各种插值方法重采样到均匀的笛卡尔坐标点上,然后用经典的fft方法重建图像。插值方法已经比较成熟,但不插值而直接进行离散傅里叶变换的共轭相位重建算法仍被认为是最准确的方法。共轭相位算法最大的问题是时间复杂度太高,因此一般不用于临床而只在科研中用来生成对照图像以评价各种插值算法的准确性。新近出现的稀疏磁共振成像的重建算法要解决的问题是从病态程度很高的欠定方程组的无穷解中找到一个具有稀疏性或变换稀疏性的解,这是一个是迭代算法,若采用非线性共轭梯度下降算法,迭代过程中要进行多次空间变换、梯度等复杂的矩阵操作,因此也是一个非常耗时的算法。解决密集运算耗时多的方法是并行运算,即把一项大的任务分解为多个可同时进行的子任务,然后将子任务分发到位于同一计算机或不同计算机的多个处理器上同时执行,子任务执行完毕再将各子任务的结果综合为宿主任务的最终结果。经典的并行计算使用的是多CPU计算机或者计算机集群,这些超级计算机的占地与功耗都非常大,应用到临床成本很大;具有多核CPU的桌面计算机虽然有一定的提速效果但不够明显,新近出现的GPGPU则将网格计算所需的硬件集成到一块板卡上,很大程度上降低了体积和功耗。从另一个角度来看,GPGPU是对传统GPU的改进,传统GPU只能按照固定的流水线进行图形处理,虽然流水线的每一级都具有高性能的并行运算能力,但使用很不方便,GPGPU则将GPU改进为可用C/C++或Fortran语言编程的处理器,可以比较方便的应用到各种密集计算任务中。本文首先将原理上比较简单的共轭相位算法进行两种粒度的任务分解,然后分别利用较容易理解的共享式存储多核桌面计算机和稍复杂的GPGPU对其进行加速,与单核串行运算相比分别得到了5倍和72倍的加速比。稀疏磁共振重建算法过程比较复杂,因此本文将其子过程分别做并行分解,子过程由GPU来处理,对整体迭代过程的控制计算量很小,作为串行程序由CPU来执行。加速效果比较明显与Michael Lustig提供的SparseMRI0.2相比有76倍的加速。(本文来源于《南方医科大学》期刊2011-04-01)

刘明生[7](2010)在《多核并行编程技术在加速数字图像处理中的应用》一文中研究指出随着多核处理器硬件的不断发展,多核处理器最迫切需求是系统软件支持和应用软件开发,软件针对处理器进行性能调优,才能使基于多核处理器的软件实现最佳性能。如果不针对多核进行软件开发,不仅多核提供的强大计算能力得不到利用,相反还可能不如单核CPU高效。因此,如何设计和开发基于多核的软件应用程序,以充分发挥多核的计算优势来提升系统的性能,成为现阶段软件开发面临的主要问题。本文的主要内容如下:(1)针对多核处理器和多核技术在国内外的研究现状分析多核并行编程所存在的关键问题,多核编程与单核编程之间的区别,进一步剖析了多线程编程技术:线程的同步和线程间的通信,深入研究了符合实际应用的多核并行编程模式。(2)对数字图像处理中存在的运算量大、运行速度慢等问题,分析数字图像处理的特点和整体框架结构,利用多核并行编程技术设计了快速数字图像处理方法库,并借助Intel(?) VTune和Intel(?) Parallel Studio工具得出数字图像处理程序中的瓶颈及热点区域,总结出具体可利用多线程进行并行优化的部分,然后采用多线程开发工具OpenMP对这些瓶颈及热点区域进行并行化编程。(3)结合数字图像处理程序,就循环并行化和数据保护、动态线程个数设置和线程调度策略叁方面进行并行优化设计,提出了一种多核并行程序的调试步骤和分析方法,该调试方法具有良好的可扩展性。(4)通过在双核和四核的环境下进行串行和并行运行时间统计,分别计算出双核和四核下的加速比值。实验证明了程序优化后的执行时间缩短了原来串行程序执行时间的40%~60%,提高了程序的加速性能,验证了多核平台、并行程序设计理论和并行编程模式相结合开发的优越性,达到了预期的优化目标。(本文来源于《西安建筑科技大学》期刊2010-04-01)

肖嵛[8](2008)在《分布式并行计算实现人体图像重采样加速处理》一文中研究指出数字化人体研究,是医学与信息技术、虚拟现实技术相结合的科技性研究课题,通过对人体信息多模式集成的研究,从而实现人体结构和功能的数字化、可视化,最终达到对人体功能的精确模拟。在数字化人体模型建立的过程中,随着切片加工精度的提高,大规模数据或者海量数据的处理是伴随数字化人体研究要解决的一个关键技术,如何提高人体切片图像数据的处理速度是目前研究的瓶颈之一。因此,寻求新的技术方法解决这一问题具有重要意义。本文首先对目前常规采用的数字化人体图像重采样工具软件进行了分析研究,研究发现现在常用的商业软件都只能在单机上实现二维图像的重采样,在大型计算机或图形工作站上可以获得较快的处理速度,但在微机上进行处理需要较长的重采样时间,难以满足实时处理与显示的需求,严重阻碍了数字化人体数据集在教学与临床上的应用。针对当前数字化人体图像重采样研究中的瓶颈问题,本文对数字化人体图像数据重采样技术的理论、方法进行了全面、细致的研究,采用GDI+技术在单机上进行了实现,并在重采样处理中引入流水线技术,将磁盘I/O操作与图像运算操作并行处理,使重采样的速度有了一定的提升。但是由于软件在单机上读取图像数据时磁盘I/O操作的串行处理无法进一步改善,使得软件运行速度提升的幅度有限,依然无法满足实时处理与显示的需求,仍需进一步改进。针对在单机上磁盘I/O操作的串行处理问题,本文通过对数字化人体图像重采样处理特点以及分布式并行计算的研究,发现数字化人体图像局部数据之间的相关性较小,较少地涉及学科知识和人工干预,完全满足分布式并行计算的特征。本文利用了校园网内连接的大量个人计算机,通过Socket编程进行合理的任务分配与调度,以较低的成本搭建了高性能的数字化人体图像海量信息计算平台,实现了对数字化人体数据集数据的高速处理,实验结果表明,通过分布式并行计算能够大幅度减少重采样时间,提高重采样加速比,完全能够满足实时处理与显示的需求。但当参与重采样的客户机数量达到一定规模时,算法中服务器上串行处理部分和处理机之间通信开销的瓶颈逐渐凸现,总的处理时间达到并保持在较低水平,加速比也趋于平稳。分布式并行计算系统所面对的大批量的客户机以及计算机网络具有许多不确定的因素,这就对分布式并行计算系统提出了适应性的要求,因此本文对于分布式并行计算系统的可伸缩性、可扩展性进行了研究,实现了系统的可维护和可进化,完全能够适应客户机规模动态变化的需求。并对分布式并行计算系统的负载平衡技术进行了初步的探索性研究,能够适应客户机节点在运行的过程中资源的动态变化,但负载平衡采用的是被动探测的方式,运行效率还不够高,还需对算法进行进一步的深入挖掘,提高对系统异常的响应速度。实验表明,本文所做研究能够适应客户机规模和计算资源的动态变化,大幅度减少重采样的时间,提高重采样加速比,满足实时处理与显示的需求,为数字化人体数据集的进一步叁维形态结构分析研究奠定了基础,促进了数字化人体数据集在教学与临床上的应用,具有较高的研究应用价值。(本文来源于《重庆大学》期刊2008-10-01)

冉旭[9](2007)在《分布式并行计算在数字化人体图像重采样加速处理中的应用》一文中研究指出数字化人体研究,是医学与信息技术、虚拟现实技术相结合的科技性研究课题,通过对人体信息多模式集成的研究,从而实现人体结构和功能的数字化、可视化,最终达到对人体功能的精确模拟。在数字化人体模型建立的过程中,随着切片加工精度的提高,大规模数据或者海量数据的处理是伴随数字化人体研究要解决的一个关键技术,如何提高人体切片图像数据的处理速度是目前研究的瓶颈之一。因此,寻求新的技术方法解决这一问题具有重要意义。本文首先对目前常规采用的数字化人体图像重采样工具软件进行了分析研究,研究发现现在常用的商业软件都只能在单机上实现二维图像的重采样,在大型计算机或图形工作站上可以获得较快的处理速度,但在微机上进行处理需要较长的重采样时间,难以满足实时处理与显示的需求,严重阻碍了数字化人体数据集在教学与临床上的应用。针对当前数字化人体图像重采样研究中的瓶颈问题,本文对数字化人体图像数据重采样技术的理论、方法进行了全面、细致的研究,采用GDI+技术在单机上进行了实现,并在重采样处理中引入流水线技术,将磁盘I/O操作与图像运算操作并行处理,使重采样的速度有了一定的提升。但是由于软件在单机上读取图像数据时磁盘I/O操作的串行处理无法进一步改善,使得软件运行速度提升的幅度有限,依然无法满足实时处理与显示的需求,仍需进一步改进。针对在单机上磁盘I/O操作的串行处理问题,本文通过对数字化人体图像重采样处理特点以及分布式并行计算的研究,发现数字化人体图像局部数据之间的相关性较小,较少地涉及学科知识和人工干预,完全满足分布式并行计算的特征。本文利用了校园网内连接的大量个人计算机,通过Socket编程进行合理的任务分配与调度,以较低的成本搭建了高性能的数字化人体图像海量信息计算平台,实现了对数字化人体数据集数据的高速处理,实验结果表明,通过分布式并行计算能够大幅度减少重采样时间,提高重采样加速比,完全能够满足实时处理与显示的需求。但当参与重采样的客户机数量达到一定规模时,算法中服务器上串行处理部分和处理机之间通信开销的瓶颈逐渐凸现,总的处理时间达到并保持在较低水平,加速比也趋于平稳。分布式并行计算系统所面对的大批量的客户机以及计算机网络具有许多不确定的因素,这就对分布式并行计算系统提出了适应性的要求,因此本文对于分布式并行计算系统的可伸缩性、可扩展性进行了研究,实现了系统的可维护和可进化,完全能够适应客户机规模动态变化的需求。并对分布式并行计算系统的负载平衡技术进行了初步的探索性研究,能够适应客户机节点在运行的过程中资源的动态变化,但负载平衡采用的是被动探测的方式,运行效率还不够高,还需对算法进行进一步的深入挖掘,提高对系统异常的响应速度。实验表明,本文所做研究能够适应客户机规模和计算资源的动态变化,大幅度减少重采样的时间,提高重采样加速比,满足实时处理与显示的需求,为数字化人体数据集的进一步叁维形态结构分析研究奠定了基础,促进了数字化人体数据集在教学与临床上的应用,具有较高的研究应用价值。(本文来源于《第叁军医大学》期刊2007-05-01)

申鼎才,董必昌[10](2005)在《并行处理中节点间通信对加速比的影响》一文中研究指出加速比是衡量并行处理性能的重要指标之一;较高加速比的获得除与任务的划分、并行算法的选择等有关外,还与各节点间的通信有关;在大多数并行系统中,在数据规模确定的情况下,程序的加速比随节点数的增加而增加,但是大多数机群系统的节点间是共享物理传输介质的,这就使得许多并行程序的加速比在节点数目超过某一个值之后会随着节点数的增加而减少;文章通过数值实验研究,分析了节点间通信对加速比的影响,进一步论证了节点间通信对加速比的重要影响。(本文来源于《合肥工业大学学报(自然科学版)》期刊2005年07期)

并行加速处理论文开题报告

(1)论文研究背景及目的

此处内容要求:

首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。

写法范例:

在地震资料处理环节中,随着处理对象及算法的复杂程度越来越高,作为高精度反演、逆时偏移等地震资料处理的重要组成部分,地震波正演模拟对计算速度的要求越来越高,传统的以CPU为主的串行算法已经不能满足日益复杂的地震勘探对计算效率的需求,而目前实际工作中使用的计算机集群并行计算面临系统能耗和维护成本过高的问题,而GPU拥有自身的并行架构特性,且功耗低、成本小,进行GPU并行计算正可以解决这些问题。有限差分法求解地震波动方程时,数值频散问题对模拟结果影响重大,通过实验对比,分析得到处理数值频散的几种方法。继而而研究了PML(完全匹配层)吸收边界条件处理边界反射问题,通过实验对比,说明了边界条件对正演模拟的重要性,并推导出了相应的声波方程的离散差分形式,有限差分方法和吸收边界处理都很适合在GPU平台做并行计算。NVIDIA公司开发的基于GPU的统一设备架构平台CUDA, CUDA首先是在硬件支持的基础上,对GPU进行多线程并行计算的软件平台,处理地震波场有限差分计算的频散问题时,因为差分阶数和网格规模的增加造成计算效率很低,而且在剖分网格上做地震波场的有限差分计算,网格上各个节点的数值计算存在很大的并行性,所以正演模拟有限差分非常适合在GPU平台做多线程并行计算。本文基于CUDA软件结构,实现了二维声波方程有限差分数值解法的具体实现方法和流程,并通过不同配置硬件环境下的运行效率对比分析,充分证明,基于CUDA软件平台可明显提高地震波正演模拟的计算效率,为地震资料处理环节提供了技术实现的可能。

(2)本文研究方法

调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。

观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。

实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。

文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。

实证研究法:依据现有的科学理论和实践的需要提出设计。

定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。

定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。

跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。

功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。

模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。

并行加速处理论文参考文献

[1].徐亮亮.无网格方法非均匀场节点处理、并行加速与压缩存储方法[D].中国地质大学(北京).2018

[2].孙永涛.基于GPU的地震资料处理并行加速研究[D].西南石油大学.2015

[3].田泽,韩立敏,张骏,任向隆.并行处理二维图形加速引擎结构设计[J].计算机工程与设计.2015

[4].秦华,周沫,察豪,沈括.基于GPU加速的雷达信号处理并行技术[J].舰船科学技术.2013

[5].杨冠男,袁杰.多核并行运算加速图像处理[J].现代电子技术.2013

[6].王聪.磁共振稀疏重建算法与直接离散傅里叶变换重建算法并行处理加速方法的研究[D].南方医科大学.2011

[7].刘明生.多核并行编程技术在加速数字图像处理中的应用[D].西安建筑科技大学.2010

[8].肖嵛.分布式并行计算实现人体图像重采样加速处理[D].重庆大学.2008

[9].冉旭.分布式并行计算在数字化人体图像重采样加速处理中的应用[D].第叁军医大学.2007

[10].申鼎才,董必昌.并行处理中节点间通信对加速比的影响[J].合肥工业大学学报(自然科学版).2005

标签:;  ;  ;  ;  

并行加速处理论文-徐亮亮
下载Doc文档

猜你喜欢