检查点与恢复论文-王鹏

检查点与恢复论文-王鹏

导读:本文包含了检查点与恢复论文开题报告文献综述及选题提纲参考文献,主要关键词:MapReduce,Hadoop,容错,检查点

检查点与恢复论文文献综述

王鹏[1](2018)在《MapReduce中基于检查点的任务恢复策略的研究》一文中研究指出近年来,随着互联网的发展,数据呈爆炸式增长。为了挖掘数据中的价值,大数据处理技术已经成为计算机领域中不可或缺的重要手段,Google提出的MapReduce计算模型成为大数据时代行之有效的技术之一。但在集群中,失效已经十分常见,如果没有合理的容错手段,MapReduce应用会存在严重性能问题。Hadoop作为MapReduce最为流行的开源框架,能够帮助用户实现MapReduce应用,并提供了基本的容错能力。然而其固有实现中粗放的重新执行策略会因错误恢复而带来大量开销,导致作业执行时间被延长。本文对Hadoop MapReduce容错方案进行了深入分析,从任务运行和失效检测两方面提出了综合性容错方案TRCID(Task Recovery mechanism based on Checkpointing Intermediate Data)。旨在能够减少任务重算的工作量,提前发现失效的任务,以便能在失效发生后能够以最小的代价尽快恢复任务执行,提高整体作业的运行效率。TRCID一方面提出分级检查点的容错方案,针对不同失效类型进行任务恢复。通过以部分中间数据的及时推送替代原有对中间数据的拉取方案,能够保证在大多数失效场景下,避免数据重算,最小化容错开销。另一方面通过Hadoop心跳以多个性能指标对节点进行监测,与原有的超时策略相比,能够更及时的发现失效并进行调度。本文基于Hadoop平台完成实验对本文所提出的方法进行验证与评测,首先通过作业执行时间和硬件指标对TRCID的负载进行评估。然后结合TRCID的运行流程以及故障类型,以多种场景进行覆盖,并在各种场景下,结合作业规模、故障数量等因素设计实验并进行了结果评估与分析。实验表明,TRCID有效减少了失效对整体作业的执行时间的影响,容错能力明显优于原有Hadoop的容错方案。(本文来源于《内蒙古大学》期刊2018-04-25)

张苏超[2](2015)在《基于面向方面技术的软件检查点及恢复技术研究》一文中研究指出随着计算机规模的不断扩大,应用软件的失效中止故障的发生几率也随之增长,如何保障软件的生存性,使其在遭遇失效中止故障时能快速恢复,持续地提供服务是一个急需解决的问题和挑战。检查点与故障恢复技术是一种有效保障软件生存性的技术,其中应用级检查点因其较好的移植性和易实现性而得到广泛的应用。但它的实现需要在源代码中添加具有自动完成检查点任务的代码,这种技术一是要修改源代码,造成了对源代码的入侵;二是软件检查点和恢复相关代码与软件应用核心代码的纠缠,降低了代码的可读性和内聚性。如何在保持代码的可读性、内聚性和完整性的情况下实现软件检查点与故障恢复是一个较大的难题。面向方面技术(AOP)能通过预编译和动态代理方式在不修改源代码的情况下实现检查点和故障恢复功能,有效地解决新功能代码与源程序代码相互纠缠的问题。本文在深入研究和分析面向方面技术、检查点和故障恢复技术上提出了基于面向方面编程的软件检查点及恢复技术方案(ASCRTS)。ASCRTS将软件检查点和故障恢复的相关任务作为横切关注点,并将进程状态看作是独立对象状态的集合,然后利用AOP实现所有独立对象的检查点及故障恢复。ASCRTS运用java序列化与反序列化机制极大的简化了进程状态的保存与恢复工作。文中详细描述了ASCRTS的软件检查点设置、检查点文件获取及故障恢复,并对ASCRTS的架构和模块进行了具体的设计与实现。根据分布式软件运行环境的特点,本文在ASCRTS的基础上提出了基于面向方面的分布式应用程序的检查点及恢复技术方案(D-ASCRTS)。D-ASCRTS将各节点进程状态的一致性检测与控制同ASCRTS相结合,实现了基于AOP的分布式软件应用程序的应用级软件保障。文中详细描述了D-ASCRTS的软件检查点设置、故障恢复及故障检测,并对D-ASCRTS的架构和模块进行了具体的设计与实现。最后,本文通过程序实例验证了方案的有效性,表明基于面向方面技术的软件检查点及恢复技术是可行的。(本文来源于《电子科技大学》期刊2015-03-01)

张展,左德承,黄友富,何辉[3](2014)在《一种基于准同步检查点的虚拟机卷回恢复算法》一文中研究指出针对典型的云平台下虚拟化系统的特点,提出了一种结合选择性日志的准同步检查点算法VM_QSC:保持不同虚拟机节点固有的优化检查点周期,通过物理节点Hypervisor选择性地进行虚拟机的消息日志的稳定存储,在全局监控节点维护虚拟机一致线信息,保持全局的一致性。与传统的准同步检查点和同步检查点相比,该算法维持了虚拟机检查点设置的自主性,并显着降低了虚拟化系统的容错开销,可以有效应用于云计算环境下的虚拟资源管理和动态迁移。(本文来源于《计算机科学》期刊2014年05期)

卢鹏飞[4](2014)在《增量检查点设置与卷回恢复技术研究》一文中研究指出高性能计算系统现在越来越多采用将许多计算节点高速互连的集群形式实现,随着集群系统的规模不断扩大,其发生故障的次数也以指数增加,系统的容错性和自我修复能力正变得极其重要。检查点作为一种有效的容错技术,在系统出现故障时能够避免程序从初始状态重新执行。通过设置检查点,进程可以从最近的检查点处恢复状态继续执行,减少故障条件下程序的执行时间。检查点机制在提高系统可靠性的同时,会引入一定的额外开销。在实际系统环境中,尤其是高性能计算系统,用增量检查点技术减少检查点开销使用得较为广泛。通常检查点每次都需要保存进程的全部信息,而增量检查点只需保存自上个检查点以来进程空间中被修改的数据,能够显着减少检查点文件大小和开销。本文对增量检查点技术进行研究,分析比较页面级增量检查点和字节级增量检查点的优缺点,采用页面级增量点,结合页面保存技术和虚拟内存区域保存技术,以内核模块的形式实现增量检查点的设置。本文利用页表项的写位判断页面是否被修改过,提出通过修改系统调用表的方法检测变化的虚拟内存区域,设计相应的虚存监控数据结构记录变化的内存区域。为了减少增量检查点卷回恢复的开销,本文将完全检查点和增量检查点结合使用,采用从后向前的顺序读取检查点文件。本文支持检测内存区域的变化,无需修改内核源代码和应用程序代码,用户使用透明。恢复时相同页面只需恢复一次,已被删除的页面不需恢复,有效减少卷回恢复的开销。(本文来源于《哈尔滨工程大学》期刊2014-01-01)

王芳[5](2013)在《关于检查点机制实现核外进程恢复的研究》一文中研究指出本文从分析国内外进程迁移研究现状入手,介绍了UNIX系统中普遍使用的程序的存储格式ELF文件格式,并对进程上下文做了简单介绍。(本文来源于《计算机光盘软件与应用》期刊2013年07期)

徐振朋[6](2011)在《移动计算环境下检查点回卷恢复容错技术研究》一文中研究指出高性能计算、互联网、无线通信、分布式计算、普适计算和云计算等领域的迅速发展,极大地推动了移动计算技术的发展。与传统固定有线分布式环境相比,移动计算系统具备临时搭建、自治、节点移动和网络拓扑结构易变等特点,拥有广阔的应用前景。但移动计算环境下进程发生故障的概率远大于传统的有线分布式计算系统,有线分布式计算系统的检查点回卷恢复容错技术已无法适用移动计算环境,因此,为移动计算系统设计高效的检查点回卷恢复容错机制是十分有意义的。依据检查点回卷恢复容错机制的研究现状和存在问题,本文围绕移动计算环境下检查点回卷恢复容错技术开展相关研究,具体包括:(1)对移动计算环境下进程日志存储维护进行了研究,基于m-MSS-m模型和进程分段确定性执行模型假定,提出了低开销的进程事件日志记录机制。该机制具备以下特点:移动支持站统一存储维护服务组内移动主机计算进程检查点、事件日志和日志间先于偏序依赖关系;各进程检查点信息和事件日志以确定因子的形式记录于一维数组;计算进程历经事件间先于偏序依赖关系由数组元素的先后顺序表示;进程日志先被同步记录到移动支持站的高速内存,仅在特定事件的触发下异步更新到可靠存储设备。(2)对移动计算环境下故障进程故障进程回卷恢复进行了研究,针对设计的进程事件日志记录机制提出了故障进程回卷恢复机制。该恢复机制与日志记录机制构成了基于事件日志的检查点回卷恢复容错机制。完备容错日志情况下,基于事件日志检查点回卷恢复容错机制能够支持故障计算进程独立异步地实现一致性恢复;不完备容错日志情况下,基于事件日志检查点回卷恢复容错机制仍能够协同本服务组内计算进程实现一致性恢复。(3)对移动计算环境下进程容错信息迁移维护进行了研究,为兼顾计算进程无故障运行和故障后回卷恢复期间的系统性能,提出了基于冗余信息分块的弱迁移管理机制。逻辑上移动主机进程容错信息被移动支持站分割为核心和非核心两部分,移动主机迁移期间不同容错信息的维护时机和调度方式实行差异化管理,并推导出了确定计算进程核心和非核心容错信息大小的约束条件。(4)对容错机制中进程检查点间隔的求解进行了研究,针对进程泊松故障分布,提出了一种基于拉普拉斯变换的等距进程检查点间隔分析求解模型以确保容错机制的整体性能。为应对其它进程故障分布情形,基于简易的进程检查点计时方式,推导出了容错机制系统平均利用率的表达式,并以此得到了优化进程检查点间隔的约束条件,提出了一种准最优进程检查点序列的通用确定算法。性能分析表明为移动计算系统设计的基于事件日志检查点回卷恢复机制在容错日志信息记录维护、进程状态先于偏序依赖关系存储维护、故障进程回卷恢复、进程容错信息迁移维护和求解优化检查点间隔序列等方面表现优异。本文研究成果是提升移动计算系统可靠性的有效容错措施。(本文来源于《哈尔滨工程大学》期刊2011-09-20)

陈海涛,韦中伟,卢宇彤[7](2011)在《一种检查点感知的文件恢复算法》一文中研究指出针对进程检查点技术应用于含有文件系统访问的长时间应用程序时所面临的进程状态和文件状态不一致性问题,提出了一种能解决容灾环境下应用恢复的低开销文件恢复算法——CAR算法,并从理论上证明了算法的正确性.原型测试结果验证了CAR算法的高效率和可用性.(本文来源于《计算机研究与发展》期刊2011年S1期)

陈海涛,韦中伟,卢宇彤[8](2010)在《一种检查点感知的文件恢复算法》一文中研究指出针对进程检查点技术应用于含有文件系统访问的长时间应用程序时所面临的进程状态和文件状态不一致性问题,提出了一种能解决容灾环境下应用恢复的低开销文件恢复算法——CAR算法,并从理论上证明了算法的正确性.原型测试结果验证了CAR算法的高效率和可用性.(本文来源于《2010年第16届全国信息存储技术大会(IST2010)论文集》期刊2010-12-03)

孙烨[9](2010)在《并行计算环境中基于检查点的卷回恢复技术研究》一文中研究指出应用领域的拓展、应用规模的扩大,对并行计算环境的可靠性提出了更高要求。特别是在长时间运行大规模并行科学计算程序时,如果缺乏必要的容错手段,某个计算进程的一次故障或计算节点的失效可能致使整个程序的彻底失败。而现有的多数并行计算环境本身都未提供从故障点自动恢复运行的功能,出现异常时将不得不手动重头开始整个计算任务,从而浪费大量资源。基于检查点的卷回恢复技术是避免出错时完全重新运行应用程序的手段,能够有效提高系统的容错性能。但并行计算程序中,多个计算进程的状态之间因进行通信而具备耦合关系,这为检查点的设置带来极大挑战。如何保证从检查点恢复出程序正确运行时应具有的状态,同时尽量降低由于采用这一机制而引入的时间开销是当前研究的热点和难点。论文首先比较了现有的合作式卷回恢复协议,并针对检查点设置过程中的进程阻塞和同步消息数量这两个影响时间开销的核心问题,研究一种基于可行全局状态的非阻塞合作式卷回恢复协议。该协议利用并行程序运行过程中发生异常的频率较低而检查点设置频率较高的特点,综合采用附带消息等非阻塞手段,将卷回恢复协议中所需的大部分调协和同步操作从检查点设置阶段转移至卷回恢复阶段,从而大幅度减少了基于检查点的卷回恢复机制所带来的时间开销。其次,在典型的并行程序开发环境MPICH2中进程管理组件(Multi-Purpose Daemon, MPD)的基础上,实现了错误探测与卷回恢复功能。其中,基于MPD自身的事件处理机制,添加相关功能模块,以实现对计算节点和进程运行状态的监控,从而探测节点失效和进程异常的发生。进而,在程序出错时,基于所保存的检查点文件恢复出程序在正确运行时所具有的某个状态并继续运行。最后,将特定检查点协议与错误检测和自动恢复功能相结合,为MPICH2提供较为完善的容错能力。然后,在NAS的标准测试例程下,对不同检查点协议的时间性能进行比较。实验结果表明,基于可行全局状态的合作式检查点协议具有最小的时间开销,且进程数量对一次检查点设置过程的时间开销影响较小。(本文来源于《电子科技大学》期刊2010-11-01)

慈轶为,张展,左德承,吴智博,杨孝宗[10](2010)在《一种无文件恢复的检查点算法》一文中研究指出在容错计算中,检查点技术的使用可以使进程在失效后恢复到一个最近状态,从而有效控制计算损失。考虑进程在计算过程中可能对一些外部资源进行操作,如对文件进行更新,进程恢复时若不进行外部资源恢复,那么进程所见的外部资源状态可能与实际不一致。若允许外部资源恢复将会带来可观的已获取信息丢失,同样是不希望的。为此我们提出了一个扩展的AFS文件语义,在该语义下检查点设置依赖于文件状态,但在进程恢复过程中无需进行文件卷回。这一方面减少了存储信息的丢失,另一方面可提供快速的恢复。(本文来源于《高技术通讯》期刊2010年09期)

检查点与恢复论文开题报告

(1)论文研究背景及目的

此处内容要求:

首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。

写法范例:

随着计算机规模的不断扩大,应用软件的失效中止故障的发生几率也随之增长,如何保障软件的生存性,使其在遭遇失效中止故障时能快速恢复,持续地提供服务是一个急需解决的问题和挑战。检查点与故障恢复技术是一种有效保障软件生存性的技术,其中应用级检查点因其较好的移植性和易实现性而得到广泛的应用。但它的实现需要在源代码中添加具有自动完成检查点任务的代码,这种技术一是要修改源代码,造成了对源代码的入侵;二是软件检查点和恢复相关代码与软件应用核心代码的纠缠,降低了代码的可读性和内聚性。如何在保持代码的可读性、内聚性和完整性的情况下实现软件检查点与故障恢复是一个较大的难题。面向方面技术(AOP)能通过预编译和动态代理方式在不修改源代码的情况下实现检查点和故障恢复功能,有效地解决新功能代码与源程序代码相互纠缠的问题。本文在深入研究和分析面向方面技术、检查点和故障恢复技术上提出了基于面向方面编程的软件检查点及恢复技术方案(ASCRTS)。ASCRTS将软件检查点和故障恢复的相关任务作为横切关注点,并将进程状态看作是独立对象状态的集合,然后利用AOP实现所有独立对象的检查点及故障恢复。ASCRTS运用java序列化与反序列化机制极大的简化了进程状态的保存与恢复工作。文中详细描述了ASCRTS的软件检查点设置、检查点文件获取及故障恢复,并对ASCRTS的架构和模块进行了具体的设计与实现。根据分布式软件运行环境的特点,本文在ASCRTS的基础上提出了基于面向方面的分布式应用程序的检查点及恢复技术方案(D-ASCRTS)。D-ASCRTS将各节点进程状态的一致性检测与控制同ASCRTS相结合,实现了基于AOP的分布式软件应用程序的应用级软件保障。文中详细描述了D-ASCRTS的软件检查点设置、故障恢复及故障检测,并对D-ASCRTS的架构和模块进行了具体的设计与实现。最后,本文通过程序实例验证了方案的有效性,表明基于面向方面技术的软件检查点及恢复技术是可行的。

(2)本文研究方法

调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。

观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。

实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。

文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。

实证研究法:依据现有的科学理论和实践的需要提出设计。

定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。

定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。

跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。

功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。

模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。

检查点与恢复论文参考文献

[1].王鹏.MapReduce中基于检查点的任务恢复策略的研究[D].内蒙古大学.2018

[2].张苏超.基于面向方面技术的软件检查点及恢复技术研究[D].电子科技大学.2015

[3].张展,左德承,黄友富,何辉.一种基于准同步检查点的虚拟机卷回恢复算法[J].计算机科学.2014

[4].卢鹏飞.增量检查点设置与卷回恢复技术研究[D].哈尔滨工程大学.2014

[5].王芳.关于检查点机制实现核外进程恢复的研究[J].计算机光盘软件与应用.2013

[6].徐振朋.移动计算环境下检查点回卷恢复容错技术研究[D].哈尔滨工程大学.2011

[7].陈海涛,韦中伟,卢宇彤.一种检查点感知的文件恢复算法[J].计算机研究与发展.2011

[8].陈海涛,韦中伟,卢宇彤.一种检查点感知的文件恢复算法[C].2010年第16届全国信息存储技术大会(IST2010)论文集.2010

[9].孙烨.并行计算环境中基于检查点的卷回恢复技术研究[D].电子科技大学.2010

[10].慈轶为,张展,左德承,吴智博,杨孝宗.一种无文件恢复的检查点算法[J].高技术通讯.2010

标签:;  ;  ;  ;  

检查点与恢复论文-王鹏
下载Doc文档

猜你喜欢