导读:本文包含了分布式内存数据库论文开题报告文献综述及选题提纲参考文献,主要关键词:分布式内存数据库,数据库查询引擎,数据分发策略,物理算子优化
分布式内存数据库论文文献综述
李博洋[1](2018)在《大规模分布式内存数据库查询引擎加速方法的设计与实现》一文中研究指出随着信息时代的到来,以磁盘为存储介质的数据库越来越难以满足海量数据在查询时能获得快速响应的需求。为了进一步提高海量数据的查询实时性,利用全内存进行计算逐渐成为数据库发展的新方向。内存数据库的存储完全基于内存,也就是将传统数据库中存储在磁盘上的数据转变为内存中可寻址的数据。这种变化会导致一系列的新问题,例如如何高效地利用内存空间,以及如何充分提高内存数据库查询引擎的执行效率等。本论文针对数据库改变存储介质之后带来的新问题,提出一个对“面向OLAP的分布式列式内存数据库”中查询引擎部分的优化方案。目的是在分布式内存数据库的查询引擎处理海量数据时,进一步降低内存开销和查询时延。本论文的主要工作内容如下:1.设计并实现出一种适配分布式列式内存数据库查询引擎的中间数据结构,能够降低数据在内存中的存储开销,并提高执行层中各个物理算子的执行效率,最终达到对海量数据的快速实时分析功能。2.在上述中间数据结构的基础上,设计并实现出一套可以充分提高CPU使用效率的物理算子,加快查询引擎的计算速度。3.针对关键物理算子设计多种实现方式。在查询过程中根据数据库元数据和数据分布直方图,结合数据分片存储位置、网络传输开销、存储引擎节点负载等信息,在分布式集群上动态选择算子最合适的实现方案进行计算,降低查询时延。4.内存数据库计算过程中,针对多节点的数据负载信息,设计并实现一套数据分发策略,降低网络传输开销,从而进一步加快查询引擎的计算速度。最后,本论文使用面向OLAP数据库的标准测试集TPC-H对分布式列式内存数据库查询引擎进行全面的功能及性能测试,并在查询性能方面与已建立临时缓存表的Spark-SQl数据库进行对比测试。性能测试结果显示,本论文设计的查询引擎加速方法使得范围查询的性能是Spark-SQL的3倍以上,分组聚合的性能是Spark-SQL的8倍以上,排序语句的性能是Spark-SQL的2.5倍以上;内存开销上仅为Spark-SQL的九分之一。在与Spark-SQl进行的对比测试中发现:本系统在查询速度及内存使用效率等性能指标上面均有更优秀的表现。(本文来源于《电子科技大学》期刊2018-03-22)
陈超[2](2018)在《基于RDMA的分布式内存数据库查询引擎》一文中研究指出互联网时代日益增长的数据量的存储需求和海量数据处理需求导致分布式数据库系统的研究已经成为业界最新的热点问题。分布式数据库拥有优秀的扩展性,可以有效利用多核多机的计算和存储能力。同时,因为近年来内存价格的不断降低,操作系统也可以支持更大的地址空间,研发完全采用内存作为的存储引擎的分布式内存数据库得以实现。然而,由于传统的TCP/IP网络协议栈天然的复杂性,使得内存读取速度和网络传输速度的差距越来越大,网络IO替换磁盘IO成为了分布式内存数据库系统中新的瓶颈,影响了分布式系统的扩展性,制约着分布式内存数据库的性能。随着拥有比TCP/IP网络更高的吞吐量和更低的延迟的远程直接数据存取(RDMA)技术的日益成熟,利用RDMA技术改善分布式内存数据库系统中的网络环境的方式变得越来越流行。本文以实验室自主研发的分布式内存数据库系统Goldfish为背景,采用RDMA网络技术替换查询引擎中传统的TCP/IP网络,设计并实现了基于RDMA的分布式内存数据库查询引擎,提高了分布式查询引擎执行任务时数据传输速度,减少了查询时间。论文主要完成了叁个方面的工作:1)研究RDMA网络中各种数据发送和接收模式,分析其主要优缺点,基于RDMA Verbs API,设计并实现了两套基于RDMA的高吞吐或者低延迟的数据发送框架。2)RDMA技术的一项优势是可以避免应用程序和内核态的数据拷贝,是因为RDMA在发送或者接收数据前,需要提前向RDMA网络注册内存作为发送或者接收缓冲区。针对RDMA使用缓冲区的这种方式,设计并实现了一套的缓冲区内存池管理策略,能够快速分配缓冲区。3)设计并实现了基于高吞吐和低延迟的RDMA网络发送框架和缓冲区内存池的分布式内存数据库执行器,能够接受查询优化器下发的执行计划,并保证任务被快速、准确地执行。最后,本文基于RDMA网络发送框架实现了回射服务器,在Mellanox网卡上同采用TCP over InfiniBand作为底层网络的回射服务器进行对比测试。测试结果显示,基于RDMA的回射服务器比明显基于TCP的回射服务器吞吐量更高、延迟更低。同时,采用TCP-H数据集,将基于RDMA实现的Goldfish-RDMA与基于TCP实现的Goldfish-TCP和开源的SparkSQL进行比较,Goldfish-RDMA的查询性能优于Goldfish-TCP和SparkSQL。(本文来源于《电子科技大学》期刊2018-03-22)
钟红霞[3](2017)在《分布式列式内存数据库存储引擎》一文中研究指出随着互联网的发展,数据呈爆炸性增长。而传统的基于磁盘的关系数据库比如Oracle、MySQL已经不能够满足日益增长的数据的大规模存储和快速查询需求。内存价格的降低使人们开始聚焦全内存计算。具代表性的内存数据库数据存储的实现方法和其缺点如:二元关联表。其不含索引,索引需要额外构建;统一表。其含全局字典,数据以字典下标的方式存储。但是其合并将导致全局字典以及下标的更新,合并代价高;数据块。现有方案中,索引在数据倾斜的情况下将失效。快照隔离的实现方案如:数据拷贝。然而数据拷贝带来了额外存储开销;事务跟踪。其需要跟踪所有的写操作,增加了系统复杂度。并行计算方面,只采用CPU的同构系统中,CPU的低并行度使其成为了计算瓶颈。本文设计并实现了一个在海量结构化数据集背景下,提供联机分析处理(Online Analytical Processing,OLAP)查询的分布式内存数据库存储引擎系统。本文的主要工作体现在以下几点:1、研究主流的列式内存数据库存储系统、GPU加速的数据库系统、基于非易失性内存的存储系统,提出并实现Master/Slave架构的列式内存数据库存储系统。2、在数据存储上,设计出对“读”优化的、压缩的、含索引的存储结构及其外部索引,对“写”优化的、未压缩的存储结构及其索引,以及基于非易失性内存的存储结构。在数据查询上,采用CPU SIMD、GPU技术加速数据查询。3、提出轻量级的快照实现方法,保证读写业务的数据隔离,读写业务不会相互阻塞,同时,读操作可以得到快速响应。在内存占用上,本系统的内存开销总和(含索引、数据等)是原始数据的3倍左右,而传统数据库中树形索引开销一项是原始数据的3倍。在查询性能上,本系统采用反向索引的方式,相对于未采用索引的情况,查询性能有了数量级的提升。本系统采用轻量级的快照隔离方式来生成快照,能够支持高并发场景下的查询业务。实际测试中,最慢的快照时间在毫秒级别以内。本系统能够方便的拓展为可同时支持OLAP和联机事务处理(Online Transaction Processing,OLTP)查询的存储系统,并且本系统中的存储结构也具有扩展性,可以支持多种压缩和索引方式。(本文来源于《电子科技大学》期刊2017-03-28)
赵镇辉,黄承晟,周敏奇,周傲英[4](2016)在《分布式内存数据库系统的容错管理》一文中研究指出在大数据背景下,分布式系统被企业广泛部署和应用,随着分布式系统节点规模的扩大,系统故障的概率也将随之增加,在分布式系统中引入容错机制,对提升分布式系统可用性、可靠性、可恢复性至关重要.CLAIMS系统是面向金融领域的对实时数据进行实时分析的内存数据库系统——在数据不断注入系统时,提供近实时的查询、分析任务.本文主要探讨CLAIMS系统中容错机制.依据租约机制,实现系统中异常节点的快速发现及标记(即Fail-fast).在标记异常节点之后,实现对受影响分析任务的重启(即Fail-over);对异常节点全局内存状态的恢复(即Fail-back).实验结果表明,本文所提算法能够较好地实现CLAIMS系统的容错特性.(本文来源于《华东师范大学学报(自然科学版)》期刊2016年05期)
周翔宇,程春玲,杨雁莹[5](2016)在《基于分布式内存数据库的移动对象全时态索引》一文中研究指出针对现有移动索引仅对内存/磁盘两层结构进行优化,忽略了索引节点在内存中的缓存敏感性,提出一种基于分布式内存数据库的全时态索引结构DFTB~x树。该索引结构针对存储器Cache、内存和磁盘3层结构进行优化,根据Cache行、指令数量和TLB失配数等多个条件设计内存索引节点的大小。同时,根据磁盘数据页的大小设计历史数据迁移链节点的大小,使得Cache和内存能够一次读取索引节点和迁移链节点数据,避免多次读取数据带来的延迟。此外,构建历史数据迁移链,实现历史数据持久化,从而支持移动对象全时态索引。实验结果表明:与Bx树、Bdual树、TPR*树和STRIPES算法相比,DFTBx树具有较高的查询和更新效率。(本文来源于《计算机科学》期刊2016年07期)
潘洁[6](2016)在《基于内存数据库的分布式数据库架构》一文中研究指出随着我国经济快速发展,我国已初步进入信息时代,随之人们对物质文化的需求越来越大,只有不断加快社会发展步伐才能满足人们的需求。笔者主要介绍了内存数据库,内存数据库在信息时代是非常重要的,为了适应信息时代的发展,数据库内存必须要非常大,必须能够支持庞大的数据量,这就要创新数据库的结构,笔者主要介绍了还在开发中的分布式数据库架构。(本文来源于《信息与电脑(理论版)》期刊2016年13期)
王绍东[7](2016)在《基于Redis Cluster的分布式内存数据库研究与应用》一文中研究指出Redis Cluster作为一个开源Key-Value模型分布式内存数据库,其将用户全部数据分布存储在节点的内存空间,极大提升数据读写操作的效率,满足用户对传统关系型数据库新需求。论文基于Redis-3.0.3版本源代码,首先分析Redis Cluster实现原理,包括Redis数据库、Redis对象、Redis数据结构、Redis分布式内存数据库解决方案的设计实现,以及主从同步功能、数据持久化解决方案AOF持久化功能、RDB持久化功能等设计实现。其次,分析Redis Cluster存在的问题并提出对应的解决方案,主要包括字典rehash优化、整数集合优化、压缩列表连锁更新优化、压缩列表优化,主从同步中部分重同步复制积压缓冲区弹性扩展与完整重同步RDB文件增量同步的设计实现,Hiredis中关于MOVED重定向与ASK错误处理方案设计实现,集群命令行工具Redis-trib密码集成设计实现等。然后,设计测试方案与用例数据对比分析优化前后Redis Cluster处理相关问题性能效率,主要包括字典rehash测试、整数集合性能测试、压缩列表连锁更新测试与压缩列表测试,主从同步中部分重同步复制积压缓冲区弹性扩展与完整重同步RDB文件增量同步测试,以及Redis-trib密码集成功能测试。最后,基于优化后的Redis-3.0.3源代码与Redis-trib搭建Redis Cluster,基于优化后的Hiredis编写客户端,设计并实现URL热度查询系统,分析系统的应用数据结果,对Redis Cluster实际应用场景中存在问题进行分析总结。(本文来源于《华南理工大学》期刊2016-04-29)
江慧,梁泓泉[8](2016)在《数据压缩在分布式内存数据库同步中的设计与实现》一文中研究指出智能电网的发展,一方面带来了电网运行和设备检测或监测数据的不断增多,另一方面是有限的网络通信资源影响实时数据的传输,针对该问题,本文提出在分布式内存数据库系统采用数据压缩算法来实现分布式数据的实时快速同步,使得分布式内存数据库的各个节点数据保持一致性,进而保证对全网数据进行准确分析。(本文来源于《通讯世界》期刊2016年08期)
柳陆[9](2016)在《分布式内存数据库数据并行快速加载与索引技术》一文中研究指出随着互联网行业的高速发展,以及“大数据”、“云计算”等概念的普及,数据的爆炸性增长在大容量、多样性和高增速方面,全面考验着现代企业的数据处理能力。对于已经成熟的传统数据库技术来说,计算机网络技术的快速发展以及行业应用的扩展需求使得传统数据库技术在很多使用场景下受到了很多新的挑战。在这个形势下,分布式数据库和内存数据库的概念应运而生。分布式数据库相对于传统集中式的数据库具有良好的灵活性与可扩展性、在处理海量数据时在性能上和可靠性上有着更大的优势。而内存数据库则是将要处理的数据存储在内存而不是磁盘中,因此其读写性能要比磁盘访问高出几个数量级,从而极大地提高性能。将分布式和内存访问结合在一起的分布式内存数据库可以兼顾可扩展性和高速访问两个特点,在当前形势下为用户提供更多的功能。相比于磁盘来说,内存是很宝贵的资源,因此在大部分场景下分布式内存数据库在生产业务中主要扮演的是计算平台的角色,并不作为存储数据的主数据库,其数据很多还是存储在传统磁盘数据库中。如何将存储在传统磁盘数据库中的海量结构化数据快速加载到内存中是分布式内存数据库首先要解决的问题。针对这个问题,本论文提供了一个将存储在磁盘型数据库中的结构化数据快速加载到分布式内存数据库系统中的解决方案。首先针对原有的结构化数据提供了一套新式的快速索引模型,能够实现数据的高效存储和快速查询。然后通过分布式系统的方式把原始的结构化数据建立成内存数据索引并加载到分布式内存数据库存储引擎中。除此之外,该解决方案能够支持用户喜好数据的数据过滤,并提供增量数据更新功能。论文的主要研究工作包含以下几点:1、设计出一种针对内存数据库的内存数据索引模型,实现数据的高效存储和快速查询。该索引模型基于列式数据存储,可以对原有数据进行压缩并提供快速的查询效率。2、根据内存数据索引模型,设计分布式内存数据库数据并行快速加载方案,将存储在外部数据库中的传统结构化数据加载到分布式内存数据库引擎中。该方案能根据用户喜好对数据进行过滤,然后创建内存数据索引,然后根据一定策略将数据加载到分布式内存数据库引擎中。3、在数据全量加载的基础上设计数据增量加载策略,根据一定的策略进行数据的增量加载,保持分布式内存数据库系统与外部数据库中的数据同步。4、采用分布式架构进行海量结构化数据的并行读取,可以提高数据处理速度、缓解节点负载压力和提高节点安全性,提高数据加载的速度和稳定性。(本文来源于《电子科技大学》期刊2016-03-28)
董书暕,汪璟玢,陈远[10](2016)在《HMSST+:基于分布式内存数据库的HMSST算法优化》一文中研究指出为了解决HMSST(HashMapSelectivityStrategyTree)算法在集中式环境下受限于有限内存的问题,提出了一种新的分布式SPARQL查询优化算法HMSST+。该算法基于Redis提出了一种分布式存储方案,通过平行扩展存储节点和分布式调度,使得海量RDF数据的查询得以在分布集群的内存中实现。采用LUBM1000所大学的测试数据集对查询策略进行了实验,结果表明提出的方法与HMSST算法相比具有更好的扩展能力,与现有的分布式查询方案相比也具有更好的查询效率。(本文来源于《计算机科学》期刊2016年03期)
分布式内存数据库论文开题报告
(1)论文研究背景及目的
此处内容要求:
首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。
写法范例:
互联网时代日益增长的数据量的存储需求和海量数据处理需求导致分布式数据库系统的研究已经成为业界最新的热点问题。分布式数据库拥有优秀的扩展性,可以有效利用多核多机的计算和存储能力。同时,因为近年来内存价格的不断降低,操作系统也可以支持更大的地址空间,研发完全采用内存作为的存储引擎的分布式内存数据库得以实现。然而,由于传统的TCP/IP网络协议栈天然的复杂性,使得内存读取速度和网络传输速度的差距越来越大,网络IO替换磁盘IO成为了分布式内存数据库系统中新的瓶颈,影响了分布式系统的扩展性,制约着分布式内存数据库的性能。随着拥有比TCP/IP网络更高的吞吐量和更低的延迟的远程直接数据存取(RDMA)技术的日益成熟,利用RDMA技术改善分布式内存数据库系统中的网络环境的方式变得越来越流行。本文以实验室自主研发的分布式内存数据库系统Goldfish为背景,采用RDMA网络技术替换查询引擎中传统的TCP/IP网络,设计并实现了基于RDMA的分布式内存数据库查询引擎,提高了分布式查询引擎执行任务时数据传输速度,减少了查询时间。论文主要完成了叁个方面的工作:1)研究RDMA网络中各种数据发送和接收模式,分析其主要优缺点,基于RDMA Verbs API,设计并实现了两套基于RDMA的高吞吐或者低延迟的数据发送框架。2)RDMA技术的一项优势是可以避免应用程序和内核态的数据拷贝,是因为RDMA在发送或者接收数据前,需要提前向RDMA网络注册内存作为发送或者接收缓冲区。针对RDMA使用缓冲区的这种方式,设计并实现了一套的缓冲区内存池管理策略,能够快速分配缓冲区。3)设计并实现了基于高吞吐和低延迟的RDMA网络发送框架和缓冲区内存池的分布式内存数据库执行器,能够接受查询优化器下发的执行计划,并保证任务被快速、准确地执行。最后,本文基于RDMA网络发送框架实现了回射服务器,在Mellanox网卡上同采用TCP over InfiniBand作为底层网络的回射服务器进行对比测试。测试结果显示,基于RDMA的回射服务器比明显基于TCP的回射服务器吞吐量更高、延迟更低。同时,采用TCP-H数据集,将基于RDMA实现的Goldfish-RDMA与基于TCP实现的Goldfish-TCP和开源的SparkSQL进行比较,Goldfish-RDMA的查询性能优于Goldfish-TCP和SparkSQL。
(2)本文研究方法
调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。
观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。
实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。
文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。
实证研究法:依据现有的科学理论和实践的需要提出设计。
定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。
定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。
跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。
功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。
模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。
分布式内存数据库论文参考文献
[1].李博洋.大规模分布式内存数据库查询引擎加速方法的设计与实现[D].电子科技大学.2018
[2].陈超.基于RDMA的分布式内存数据库查询引擎[D].电子科技大学.2018
[3].钟红霞.分布式列式内存数据库存储引擎[D].电子科技大学.2017
[4].赵镇辉,黄承晟,周敏奇,周傲英.分布式内存数据库系统的容错管理[J].华东师范大学学报(自然科学版).2016
[5].周翔宇,程春玲,杨雁莹.基于分布式内存数据库的移动对象全时态索引[J].计算机科学.2016
[6].潘洁.基于内存数据库的分布式数据库架构[J].信息与电脑(理论版).2016
[7].王绍东.基于RedisCluster的分布式内存数据库研究与应用[D].华南理工大学.2016
[8].江慧,梁泓泉.数据压缩在分布式内存数据库同步中的设计与实现[J].通讯世界.2016
[9].柳陆.分布式内存数据库数据并行快速加载与索引技术[D].电子科技大学.2016
[10].董书暕,汪璟玢,陈远.HMSST+:基于分布式内存数据库的HMSST算法优化[J].计算机科学.2016