导读:本文包含了并行内存数据库论文开题报告文献综述及选题提纲参考文献,主要关键词:分布式内存数据库,列式数据索引模型,并行加载,增量更新
并行内存数据库论文文献综述
柳陆[1](2016)在《分布式内存数据库数据并行快速加载与索引技术》一文中研究指出随着互联网行业的高速发展,以及“大数据”、“云计算”等概念的普及,数据的爆炸性增长在大容量、多样性和高增速方面,全面考验着现代企业的数据处理能力。对于已经成熟的传统数据库技术来说,计算机网络技术的快速发展以及行业应用的扩展需求使得传统数据库技术在很多使用场景下受到了很多新的挑战。在这个形势下,分布式数据库和内存数据库的概念应运而生。分布式数据库相对于传统集中式的数据库具有良好的灵活性与可扩展性、在处理海量数据时在性能上和可靠性上有着更大的优势。而内存数据库则是将要处理的数据存储在内存而不是磁盘中,因此其读写性能要比磁盘访问高出几个数量级,从而极大地提高性能。将分布式和内存访问结合在一起的分布式内存数据库可以兼顾可扩展性和高速访问两个特点,在当前形势下为用户提供更多的功能。相比于磁盘来说,内存是很宝贵的资源,因此在大部分场景下分布式内存数据库在生产业务中主要扮演的是计算平台的角色,并不作为存储数据的主数据库,其数据很多还是存储在传统磁盘数据库中。如何将存储在传统磁盘数据库中的海量结构化数据快速加载到内存中是分布式内存数据库首先要解决的问题。针对这个问题,本论文提供了一个将存储在磁盘型数据库中的结构化数据快速加载到分布式内存数据库系统中的解决方案。首先针对原有的结构化数据提供了一套新式的快速索引模型,能够实现数据的高效存储和快速查询。然后通过分布式系统的方式把原始的结构化数据建立成内存数据索引并加载到分布式内存数据库存储引擎中。除此之外,该解决方案能够支持用户喜好数据的数据过滤,并提供增量数据更新功能。论文的主要研究工作包含以下几点:1、设计出一种针对内存数据库的内存数据索引模型,实现数据的高效存储和快速查询。该索引模型基于列式数据存储,可以对原有数据进行压缩并提供快速的查询效率。2、根据内存数据索引模型,设计分布式内存数据库数据并行快速加载方案,将存储在外部数据库中的传统结构化数据加载到分布式内存数据库引擎中。该方案能根据用户喜好对数据进行过滤,然后创建内存数据索引,然后根据一定策略将数据加载到分布式内存数据库引擎中。3、在数据全量加载的基础上设计数据增量加载策略,根据一定的策略进行数据的增量加载,保持分布式内存数据库系统与外部数据库中的数据同步。4、采用分布式架构进行海量结构化数据的并行读取,可以提高数据处理速度、缓解节点负载压力和提高节点安全性,提高数据加载的速度和稳定性。(本文来源于《电子科技大学》期刊2016-03-28)
李成[2](2015)在《内存数据库并行化查询技术研究》一文中研究指出随着大容量内存的出现和内存价格的逐渐降低,内存数据库开始被广泛使用。内存数据库带来性能提升的同时,也带来了新的挑战。由于内存存取速度的增长难以匹配处理器速度的增长,导致在数据查询中,内存访问延迟已经成为数据库查询的主要代价之一。多核处理器的出现,使得上述问题更加严重。与此同时,数据规模的增大,导致数据处理过程中出现临时错误和数据倾斜的机会增加,查询算法需要一定的纠错能力,避免整个任务的重新执行。多线程并行访问共享Cache造成的访问冲突会给查询执行性能造成负面影响。此外,有限的内存带宽和多核处理器各个核心间的负载不均衡也影响了线程的执行效率。因此,需要充分利用共享Cache多核处理器的处理性能,减少共享Cache访问冲突对内存数据库查询优化。面向多核处理器的此类优化尚有许多问题需要解决。本文针对数据库查询的并行执行进行研究。针对连接查询存在的性能瓶颈,在共享Cache多核处理器环境下进行连接查询的相关优化。主要工作和创新点如下:提出了基于数据划分策略的多线程并行聚集连接算法。针对内存受限的服务器,分别提出了Radix-Join算法和Sort-Merge Join算法的并行算法,并针对多核共享Cache环境下对算法进行了优化。在数据划分阶段,提出了一种自适应的划分策略,使得多线程执行可以随可用内存大小变化策略;在聚集连接阶段,提出了基于数据规模灵活变化的并行连接执行策略,并优化了聚集连接时的内存访问。上述优化技术能够较大减少多线程执行时的共享Cache访问冲突和处理器核心间的负载不均衡,提高了线程的执行效率。针对传统连接算法缺少灵活的调度和必要的容错能力,提出了基于MapReduce的连接并行执行框架。与Radix-Join算法类似,该框架主要分为Map和Reduce两个阶段,适合使用数据划分策略。本文分析了内存连接的各个阶段对Join算法性能的影响,提出了一种可利用MapReduce的动态机制,避免传统并行连接算法实现的数据任务分派不均和容错问题。算法使用MapReduce编程框架,并通过封装分块标记减少MapReduce Join执行过程中标记和排序的计算开销,使算法性能显着提高。实验结果表明,该算法在共享内存体系结构下在性能上相比已有算法有显着提升。(本文来源于《中国科学技术大学》期刊2015-05-01)
袁文亮,钟宝荣,何先平[3](2013)在《基于Cluster的并行内存数据库恢复子系统模型研究》一文中研究指出文章提出的恢复子系统模型是根据差分日志记录的特点,将已提交事务的日志经并行日志管理器收集后并行写入到多个磁盘,通过"协调者"全局检验点和站点局部检验点的协调操作,具有更高的并发度和更高的系统吞吐量,并且能快速的支持系统失败恢复。经过验证试验表明该子系统有效的减少了日志信息量,缩短了系统的恢复时间,提高了系统的性能。(本文来源于《池州学院学报》期刊2013年06期)
袁文亮,钟宝荣,何先平[4](2013)在《基于Cluster的并行内存数据库恢复机制的设计与实现》一文中研究指出文章提出的恢复子系统模型是根据差分日志记录的特点,将已提交事务的日志经并行日志管理器收集后并行写入到多个磁盘,通过"协调者"全局检验点和站点局部检验点的协调操作,具有更高的并发度和更高的系统吞吐量,并且能快速地支持系统失败恢复.经过验证试验表明该子系统有效地减少了日志信息量,缩短了系统的恢复时间,提高了系统的性能.(本文来源于《太原师范学院学报(自然科学版)》期刊2013年04期)
黄伟,王占伟,孙妍,王会举,张延松[5](2010)在《可扩展并行内存数据库系统:ScaMMDBⅡ》一文中研究指出面对OLAP海量数据查询处理的请求与单机内存容量有限的矛盾,设计了ScaMMDBⅡ系统.ScaMMDBⅡ系统将在单一节点上进行的包含可分布式聚集函数的海量数据OLAP查询操作转换为在多个节点子CUBE上并行执行的OLAP查询以及查询结果的合并运算,以此达到简化系统复杂度和提高查询的并行执行能力的目的;除此之外,ScaMMDBⅡ通过迭代的中值计算方法还能够处理不可分布式计算的聚集函数Median.通过分而治之的思想,ScaMMDBⅡ有效地解决了容量与性能之间的矛盾,并且具有高可扩展性.(本文来源于《NDBC2010第27届中国数据库学术会议论文集(B辑)》期刊2010-10-13)
张延松,张宇,黄伟,王珊,陈红[6](2009)在《基于内存数据库的OLAP并行查询处理技术研究》一文中研究指出根据OLAP查询的特点和内存数据库的性能特征提出了由多个内存数据库组成的并行OLAP查询处理系统,将OLAP应用中的多维聚集查询分布到各个计算节点并行进行聚集计算并将聚集计算的结果进行合并输出.与其他并行处理方法相比,该算法充分利用OLAPDB结构中维表远小于事实表的特性,根据数据库中事实表的数据量和节点的数据处理能力进行水平数据库分片并根据聚集函数的可分布计算特性,提高查询处理的并行度,延迟并行查询处理中的合并过程,充分利用节点的并行处理能力,减少并行查询处理过程中的数据通讯量,提高系统并行查询处理性能.该算法易于实现,具有较好的可扩展性和性能,适用于企业级海量数据处理领域的需求.(本文来源于《第26届中国数据库学术会议论文集(A辑)》期刊2009-10-15)
周晓云[7](2009)在《并行内存数据库快速事务提交与高效恢复方法研究》一文中研究指出本文研究面向Cluster环境的并行内存数据库的快速事务提交与高效恢复方法,主要包括叁个方面的内容:快速事务提交和日志处理、检查点操作、并行数据库的恢复。本文改进单阶段提交协议,通过日志信息的并行写入硬盘,充分利用IO带宽,加快事务的提交,避免更新密集型应用中日志的堆积。传统两阶段锁协议导致读写事务的加锁冲突,降低系统的吞吐量。本文把加锁协议和临时版本管理结合起来,通过版本管理实现无堵塞的读事务,避免了读写事务之间的互相等待。基于多版本管理实现一致检查点,必须付出版本管理的空间开销代价。本文采用元组级别的版本管理和版本共享技术,版本管理的开销大大降低。在内存越来越大的情况下,这些代价是合理的,因为系统事务处理能力和检查点操作效率得到了较大提高。本文提出基于数据分区的并行恢复算法,实现了恢复过程的系统可用性。恢复过程中,各个站点的恢复工作是相互独立的,同时利用差分日志的特点,实现了数据分区之间,日志之间、数据和日志之间的并行处理,加快了恢复过程,减少了站点恢复的总时间。本文使用J-SIM软件包建模进行仿真实验,验证了所提方案的可行性和效率。结果显示:(1)由于使用快速提交技术和并行日志写入,事务响应时间从50ms降低到21ms;(2)使用并行恢复算法,站点失败的恢复时间从65 s降低到28秒;(3)查询事务的吞吐量比模糊检查点高67%左右,而更新事务的吞吐量比模糊检查点高7.8%左右; (4)在80%更新事务的密集场景中,版本管理的空间开销在11%左右。(5)实验测试的恢复过程中的4个(1/4)时间段,系统平均吞吐量分别为90.2Ktps、98.3Ktps、104.5Ktps、107.7Ktps,事务的平均响应时间分别为273ms、32.3ms、9.2ms、5.32ms。该论文有图49幅,表5个,参考文献121篇。(本文来源于《中国矿业大学》期刊2009-05-01)
周晓云,覃雄派,徐钊[8](2009)在《一种高效的并行内存数据库事务提交与恢复技术》一文中研究指出基于集群(Cluster)环境的并行内存数据库系统,不仅可以管理更大规模的数据,提高事务处理效率,而且可以大大降低系统成本.面向集群环境的并行内存数据库系统,提出一种高效率的单阶段事务提交协议,该协议通过减少提交过程的消息数量,节省了网络开销;事务协调者负责进行日志的记录,利用差分日志内在的并行特点,使用多路日志磁盘进行日志写入,充分利用IO带宽,加快事务的提交,减少事务的响应时间.结果表明:通过该协议,8个站点2 GB的内存数据库系统的恢复总时间从65 s减少为28 s.(本文来源于《中国矿业大学学报》期刊2009年01期)
并行内存数据库论文开题报告
(1)论文研究背景及目的
此处内容要求:
首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。
写法范例:
随着大容量内存的出现和内存价格的逐渐降低,内存数据库开始被广泛使用。内存数据库带来性能提升的同时,也带来了新的挑战。由于内存存取速度的增长难以匹配处理器速度的增长,导致在数据查询中,内存访问延迟已经成为数据库查询的主要代价之一。多核处理器的出现,使得上述问题更加严重。与此同时,数据规模的增大,导致数据处理过程中出现临时错误和数据倾斜的机会增加,查询算法需要一定的纠错能力,避免整个任务的重新执行。多线程并行访问共享Cache造成的访问冲突会给查询执行性能造成负面影响。此外,有限的内存带宽和多核处理器各个核心间的负载不均衡也影响了线程的执行效率。因此,需要充分利用共享Cache多核处理器的处理性能,减少共享Cache访问冲突对内存数据库查询优化。面向多核处理器的此类优化尚有许多问题需要解决。本文针对数据库查询的并行执行进行研究。针对连接查询存在的性能瓶颈,在共享Cache多核处理器环境下进行连接查询的相关优化。主要工作和创新点如下:提出了基于数据划分策略的多线程并行聚集连接算法。针对内存受限的服务器,分别提出了Radix-Join算法和Sort-Merge Join算法的并行算法,并针对多核共享Cache环境下对算法进行了优化。在数据划分阶段,提出了一种自适应的划分策略,使得多线程执行可以随可用内存大小变化策略;在聚集连接阶段,提出了基于数据规模灵活变化的并行连接执行策略,并优化了聚集连接时的内存访问。上述优化技术能够较大减少多线程执行时的共享Cache访问冲突和处理器核心间的负载不均衡,提高了线程的执行效率。针对传统连接算法缺少灵活的调度和必要的容错能力,提出了基于MapReduce的连接并行执行框架。与Radix-Join算法类似,该框架主要分为Map和Reduce两个阶段,适合使用数据划分策略。本文分析了内存连接的各个阶段对Join算法性能的影响,提出了一种可利用MapReduce的动态机制,避免传统并行连接算法实现的数据任务分派不均和容错问题。算法使用MapReduce编程框架,并通过封装分块标记减少MapReduce Join执行过程中标记和排序的计算开销,使算法性能显着提高。实验结果表明,该算法在共享内存体系结构下在性能上相比已有算法有显着提升。
(2)本文研究方法
调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。
观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。
实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。
文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。
实证研究法:依据现有的科学理论和实践的需要提出设计。
定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。
定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。
跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。
功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。
模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。
并行内存数据库论文参考文献
[1].柳陆.分布式内存数据库数据并行快速加载与索引技术[D].电子科技大学.2016
[2].李成.内存数据库并行化查询技术研究[D].中国科学技术大学.2015
[3].袁文亮,钟宝荣,何先平.基于Cluster的并行内存数据库恢复子系统模型研究[J].池州学院学报.2013
[4].袁文亮,钟宝荣,何先平.基于Cluster的并行内存数据库恢复机制的设计与实现[J].太原师范学院学报(自然科学版).2013
[5].黄伟,王占伟,孙妍,王会举,张延松.可扩展并行内存数据库系统:ScaMMDBⅡ[C].NDBC2010第27届中国数据库学术会议论文集(B辑).2010
[6].张延松,张宇,黄伟,王珊,陈红.基于内存数据库的OLAP并行查询处理技术研究[C].第26届中国数据库学术会议论文集(A辑).2009
[7].周晓云.并行内存数据库快速事务提交与高效恢复方法研究[D].中国矿业大学.2009
[8].周晓云,覃雄派,徐钊.一种高效的并行内存数据库事务提交与恢复技术[J].中国矿业大学学报.2009