分布计算系统论文-王辉

分布计算系统论文-王辉

导读:本文包含了分布计算系统论文开题报告文献综述及选题提纲参考文献,主要关键词:异构分布计算系统,关联失效,可靠性,DAG任务调度

分布计算系统论文文献综述

王辉[1](2016)在《异构分布计算系统可靠性分析及优化方法研究》一文中研究指出随着大规模科学计算应用的普及以及并行数据处理规模的不断增大,以网格和并行计算为基础的分布计算系统已成为信息技术和通信技术的重要发展方向,尤其是通过互联网络将大量廉价、处理能力和可靠性等都相互异构的计算单元进行连接所构成的数据存储和计算平台受到学术界和工业界的广泛关注。异构分布计算平台也成为中国战略性新兴产业的重要组成部分,其中系统性能和可靠性优化问题已成为国内外研究的热点。但是系统和应用规模逐渐增大的同时,并行应用对系统长期可靠运行的时间需求也越来越高。此外,由于异构系统下计算资源的动态加入和退出,并行应用程序输入参数的变化以及异构系统环境等因素将引起并行应用程序的执行出现不确定性和不可控性等安全威胁。因此,各并行任务能否可靠地运行是评价分布计算系统优劣的关键指标之一。尤其当异构分布计算系统在时间和空间维度存在关联失效背景下,如何分析系统可靠性以及通过任务调度对并行应用程序执行过程的可靠性进行优化等问题。本文首先从系统可靠性分析理论入手,重点解决关联失效模式下异构分布计算系统可靠性度量和优化方法,并在分布计算系统资源管理和任务分配等方面展开深入研究和探索,提出考虑性能和可靠性开销、具有截止时间约束以及计算资源存在关联失效等条件下的任务调度理论和可靠性优化方法,旨在解决异构分布计算系统可靠性领域的部分关键技术问题。本文的主要研究工作和贡献包括:(1)扩展现有分布计算系统可靠性分析方法,提出关联失效模式下异构分布计算系统可靠性评估方法。目前的异构分布计算系统存在大规模资源共享、广域通信以及多资源合作,而很多传统可靠性分析方法都建立在计算资源间的失效是相互独立的假设基础之上,没有考虑计算资源在时间和空间维度上可能存在的关联失效,尤其随着纳米级大规模集成电路的快速发展,高能电磁辐射引起计算节点关联失效的概率越来越大。根据分布计算系统资源的失效特征建立系统失效模型,提出关联失效模式下基于泰勒展开式的计算系统可靠性度量方法,并从系统结构角度分析共因失效对系统可靠性的影响程度,通过仿真实验验证影响系统可靠度和平均无故障时间的主要因素。在此基础上,进一步提出冗余系统和静态失效系统可靠性分析方法,并通过仿真实验验证算法的性能和有效性。(2)针对资源存在异构性、动态性和广域分布性等特点的大规模分布计算系统,提出基于任务期望执行时间和可靠性开销的表调度算法。分析任意架构网络模型(APN)下关联任务之间最可靠通信链路的选择问题,并提出考虑可靠性开销的最优路径选择算法(OCPR)。在此基础上通过添加具有预测功能的分布计算节点选择策略,以及考虑系统异构性和可靠性开销的任务优先级计算方法,设计分布计算系统环境下可靠性驱动的任务调度算法(RDLS)。仿真实验结果表明所提算法在相同时间复杂度条件下,相对于经典的HEFT和RASD算法具有更优的调度性能和可靠性指标。(3)针对实际分布计算系统运行过程中所收集的开源失效数据集FTA,从时间和空间角度对计算资源的关联失效进行建模,其中空间角度又分为物理空间关联失效和逻辑空间关联失效两种失效模型,并利用马尔科夫随机场和Gibbs分布之间存在的等价理论对所提出的关联失效模型进行理论分析和形式化建模。对关联失效进行建模的目的是将分布计算系统内的节点进行关联组划分,每个组内的计算节点具有强关联性,从而为选择冗余节点来提高任务执行可靠性提供依据,避免选择同-关联失效组内的多个计算节点作为同一任务的副本计算节点。通过理论分析和实验验证了所提关联失效模型的有效性和可行性。(4)针对计算资源存在关联失效的分布计算系统和具有截止时间约束的并行DAG应用程序,提出基于任务截止时间划分的关键路径模型和子任务截止时间分配算法(SDA)。在此基础上,进一步提出基于可靠性驱动的贪心任务复制算法(RDGD)和基于费用驱动的任务复制算法(CDD),在选择复本资源进行任务分配以提高应用程序执行可靠性时,避免同一个子任务分配给具有关联失效特性的计算节点集合内的多个节点,以最大化子任务执行结果的可靠性。实验结果显示基于截止时间划分的关键路径和基于不同目标的可靠性优化调度算法不仅能够提高并行应用程序执行的可靠性,同时又能满足并行应用程序调度性能的需求。(本文来源于《东南大学》期刊2016-09-06)

张新洲,周敏奇[2](2014)在《大规模分布并行计算系统容错与恢复技术》一文中研究指出当前,拥有超级计算能力的计算机系统通常是大型商用系统形成计算机集群.与所有的分布式系统一样,这些系统通过独立的计算机硬件协同合作共同实现超级计算的能力.然而在拥有超级计算能力的同时,集群中的任何一个组件随时都可能失效,从而导致错的输出.为了提高集群在系统出现故障的情况下的鲁棒性,许多容错技术已经被设计和实现,用以处理各种类型的系统故障.本文对各种现有的容错技术进行了总结归纳,以便在此基础之上进行进一步的研究从而适应当前环境下的系统容错.(本文来源于《华东师范大学学报(自然科学版)》期刊2014年05期)

温维亮,孟军,郭新宇,王雪,肖伯祥[3](2009)在《基于辐射照度的作物冠层光分布计算系统设计》一文中研究指出以玉米为例,使用C++语言和OpenGL图形函数库,在Windows平台下,开发基于辐射度-图形学结合模型(RGM)的作物冠层光分布计算系统。以相对成熟的RGM方法提取模型参数,并针对作物冠层特点对方法做适当改进。在冠层叁维模型基础上,通过用户交互指定参数,可计算出冠层内每个面元的光分布状态。该系统所需模型参数少,且参数均具有较为明确的植物学和农学意义,便于与传统作物模型相结合,操作界面友好、使用方便。(本文来源于《农业机械学报》期刊2009年S1期)

卢宇彤,杨学军[4](2008)在《面向分布对象存储结构的高性能计算系统资源管理方法》一文中研究指出当前的高性能计算系统的资源管理和调度关注的焦点是计算资源,然而随着高性能计算系统的规模增大和计算能力增强,其I/O瓶颈问题日益突出.由于高性能计算系统的存储结构多样性带来了存储资源管理分配的难题,在目前主流的资源管理系统中尚未有针对I/O存储资源的调度和管理.随着对象存储结构的发展和广泛使用,大多数主流高性能系统采用分布对象存储系统,研究对分布对象存储系统的管理并结合资源管理系统,实现面向存储的作业优化调度,对提升高性能计算系统的实际性能有重要意义.针对具有分布对象存储结构的高性能计算系统,研究面向分布存储的资源管理方法,在作业调度和资源分配时考虑不同应用的I/O需求,通过建立分布对象存储资源模型和应用程序I/O能力需求模型,并在资源调度和分配上根据不同的I/O应用级别,为作业分配合适的存储资源,设计并实现基于I/O能力分级的作业调度和资源分配算法.系统测试表明:该方法可以显着提高多作业环境下应用的性能,保证应用程序的性能稳定性,提高系统的吞吐率.(本文来源于《第15届全国信息存储技术学术会议论文集》期刊2008-09-26)

周书锋[5](2007)在《基于远程方法调用开发分布计算系统》一文中研究指出随着网络技术、面向对象技术的成熟,分布计算已成为软件设计的主流技术。本文对远程方法调用的体系结构与调用机制进行研究,通过一个实例给出利用Java RMI开发分布计算系统的方法。基于Java RMI的远程方法调用为实现企业分布计算提供了行之有效的解决方案。(本文来源于《电脑知识与技术(学术交流)》期刊2007年21期)

蔡京平,邓宏彬,贾云得[6](2007)在《基于星球机器人分布计算系统的原子组播协议》一文中研究指出针对星球机器人分布计算系统容错的可靠组播通信,提出了一种基于向量时间的原子组组播协议。协议从星球机器人分布计算系统及通信模型的特点出发,使用向量时间和令牌进程来标识和保证全局投递顺序,通过令牌进程对不稳定消息的转发和两阶段提交来保证投递原子性和虚同步。模拟实验表明,协议提供了一个代价较小的可靠组播方法,具有快速和轻量的优点。(本文来源于《计算机工程与设计》期刊2007年18期)

胡军,郭绍忠,周蓓[7](2007)在《TDCE:基于Tspaces的分布并行计算系统》一文中研究指出Tspaces是一种新型的网络中间件。它为网络环境中各进程提供一种强大的共享存储机制来处理相互之间通信和同步。在Tspaces的基础上,构造了一个用于群机环境的并行计算系统TDCE。TDCE支持SPMD模式的并行程序,实验结果表明TDCE能以较小的系统配置和管理开销构建分布式计算平台,为并行程序的开发运行提供有效的支持,给出了系统MPI的对比测试结果并作了分析。(本文来源于《计算机工程》期刊2007年05期)

蔡京平,贾云得[8](2007)在《一种分布计算系统自适应故障侦测方法》一文中研究指出面向高可靠智能应用的分布计算系统,首先提出一组故障侦测服务的QoS度量标准,其次给出一种自适应故障侦测方法.该方法使用一个无需统计行为的高度动态的计算方法,动态地估算心跳消息超时时限,并协商改变心跳消息的发送周期,以适应分布计算系统计算节点和网络状态变化,提高故障侦测服务的QoS.模拟实验表明,该方法能够适应分布计算系统状况的变化,在侦测的实时性和正确性上提供较好的平衡.(本文来源于《小型微型计算机系统》期刊2007年01期)

许高攀[9](2006)在《基于JavaRMI的分布计算系统的探索》一文中研究指出研究JavaRMI分布式系统结构及实现步骤,利用JavaRMI的分布式对象技术实现并行计算。(本文来源于《科技广场》期刊2006年11期)

周蓓,郭绍忠,黄永忠[10](2006)在《基于tspaces的分布并行计算系统的设计与实现》一文中研究指出介绍了一种基于tspaces的共享存储的分布计算模型的设计和实现,重点给出了通信以及动态加入和撤出的具体实现,最后和MPI作了分析和比较。(本文来源于《计算机工程与应用》期刊2006年22期)

分布计算系统论文开题报告

(1)论文研究背景及目的

此处内容要求:

首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。

写法范例:

当前,拥有超级计算能力的计算机系统通常是大型商用系统形成计算机集群.与所有的分布式系统一样,这些系统通过独立的计算机硬件协同合作共同实现超级计算的能力.然而在拥有超级计算能力的同时,集群中的任何一个组件随时都可能失效,从而导致错的输出.为了提高集群在系统出现故障的情况下的鲁棒性,许多容错技术已经被设计和实现,用以处理各种类型的系统故障.本文对各种现有的容错技术进行了总结归纳,以便在此基础之上进行进一步的研究从而适应当前环境下的系统容错.

(2)本文研究方法

调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。

观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。

实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。

文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。

实证研究法:依据现有的科学理论和实践的需要提出设计。

定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。

定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。

跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。

功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。

模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。

分布计算系统论文参考文献

[1].王辉.异构分布计算系统可靠性分析及优化方法研究[D].东南大学.2016

[2].张新洲,周敏奇.大规模分布并行计算系统容错与恢复技术[J].华东师范大学学报(自然科学版).2014

[3].温维亮,孟军,郭新宇,王雪,肖伯祥.基于辐射照度的作物冠层光分布计算系统设计[J].农业机械学报.2009

[4].卢宇彤,杨学军.面向分布对象存储结构的高性能计算系统资源管理方法[C].第15届全国信息存储技术学术会议论文集.2008

[5].周书锋.基于远程方法调用开发分布计算系统[J].电脑知识与技术(学术交流).2007

[6].蔡京平,邓宏彬,贾云得.基于星球机器人分布计算系统的原子组播协议[J].计算机工程与设计.2007

[7].胡军,郭绍忠,周蓓.TDCE:基于Tspaces的分布并行计算系统[J].计算机工程.2007

[8].蔡京平,贾云得.一种分布计算系统自适应故障侦测方法[J].小型微型计算机系统.2007

[9].许高攀.基于JavaRMI的分布计算系统的探索[J].科技广场.2006

[10].周蓓,郭绍忠,黄永忠.基于tspaces的分布并行计算系统的设计与实现[J].计算机工程与应用.2006

标签:;  ;  ;  ;  

分布计算系统论文-王辉
下载Doc文档

猜你喜欢