并行连接论文-晋国卿

并行连接论文-晋国卿

导读:本文包含了并行连接论文开题报告文献综述及选题提纲参考文献,主要关键词:动态数据库,集群,并行空间,连接

并行连接论文文献综述

晋国卿[1](2019)在《混合动态数据库集群的并行空间连接优化算法》一文中研究指出传统算法数据划分冗余度和倾斜度高,无用连接数据多,降低负载均衡性,对整体效率产生不好的影响,不适于实际应用。为此,面向混合动态数据库集群提出一种新的并行空间连接优化算法。采用网格划分法对数据进行划分,依据空间数据划分结果获取数据分布状态,计算节点按照数据分布状态得到候选集。通过平面扫描形成若干子空间连接的子任务,利用构建节点花费模型,依据花费模型对并行空间连接所需的平均节点访问个数进行评估,把候选任务集分配至不同计算节点,在不同节点执行并行空间连接操作。通过边界过滤策略,删除不可能有结果的元组,提高效率,增强算法的实用性。实验结果表明,所提算法适于实际应用,效率高。(本文来源于《科学技术与工程》期刊2019年12期)

郭方方,潮洛蒙,朱建文[2](2019)在《基于相似连接的多源数据并行预处理方法》一文中研究指出大规模网络环境和大数据相关技术的发展对传统数据融合分析技术提出了新的挑战。针对目前多源数据融合分析过程灵活性差、处理效率低的问题,提出了一种基于相似连接的多源数据并行预处理方法,该方法采用了分治和并行的思想。首先,通过对多源数据中的相似语义进行统一、对个性语义进行保留的预处理方法提高了灵活性;其次,提出了一种改进的并行MapReduce框架,提高了相似连接的效率。实验结果表明,所提方法在保证数据完整性的基础上,使总的数据量减小了32%。与传统的MapReduce框架相比,改进后的框架在耗费时间方面减小了43. 91%,因此该方法可以有效提高多源数据融合分析的效率。(本文来源于《计算机应用》期刊2019年01期)

茅潇潇[3](2018)在《分布式数据库并行连接查询的实现及优化》一文中研究指出在信息化时代,随着数据规模和用户规模的不断扩大,传统的集中式数据库已经难以满足互联网应用的需求。基于水平扩展的分布式数据库系统能够突破集中式数据库单节点的性能瓶颈问题,以其良好的存储能力和计算能力受到了学术界和工业界的关注。但是与此同时,分布式架构的特点使得分布式数据库中的连接查询操作更为复杂和具有挑战性。本文利用并行查询处理技术,实现并优化了分布式数据库中的并行连接查询,主要贡献包括以下叁点:1.本文详细分析了传统将数据集中在一个节点进行连接查询处理的执行流程,从集中式处理节点的性能瓶颈问题、内存资源消耗、阻塞算子特点和网络传输代价等方面总结了影响连接查询响应时间的因素,并在此基础上归纳并明确了分布式数据库中提高连接查询效率的思路。2.对于大规模数据的连接查询,本文基于Ocean Base设计并实现了一套并行连接查询执行框架。该框架通过同时由多个计算节点并行执行连接查询任务和基于流水线式数据传输的并行哈希连接算法,将独立并行、水平并行与流水线并行结合,减少了连接查询的响应时间,并采用可靠的容错与重试策略提高了并行连接查询执行流程的可用性。在此基础上,本文提出了数据预读取、数据预探测和设计高效缓冲区等多项优化技术进一步加快了连接操作的并行执行效率,减弱了并发场景下的短板效应,提高了系统整体的资源利用率。3.在并行连接查询执行过程中,本文提出并设计了基于布隆过滤器的数据传输优化策略。在哈希连接中引入了布隆过滤器选择算子及动态数据传输算子,通过构造布隆过滤器过滤掉右表中无需参与连接的数据,以少量的计算代价节省了大量的跨节点网络传输开销,降低了连接操作的查询时延。综上所述,本文基于分布式数据库提出了一个高效的并行连接查询解决方案,并进一步给出了若干优化策略,提升了分布式环境下的连接查询执行效率,最后通过一系列实验证明了该方案的可行性与高效性。同时,本文提出的并行连接查询执行框架也为其他分布式数据库中的连接查询优化提供了思路和参考,具有一定的借鉴意义。(本文来源于《华东师范大学》期刊2018-05-01)

高锦涛,李战怀,杜洪涛,刘文洁[4](2019)在《分布式数据库下基于剪枝的并行合并连接策略》一文中研究指出排序合并连接是数据库系统一种重要的连接实现方式,比哈希连接有更广泛的应用.分布式环境下,数据分片、分布存储,面对昂贵的网络代价,进行高效排序合并连接的挑战巨大.传统策略首先针对连接数据进行排序,然后基于排好序的数据执行合并连接.这两部分操作均基于原始数据进行操作,通常情况下,原始连接数据存在无用数据块,这些数据块无需连接,但会增加额外开销,包括网络开销.随着数据量的增多,出现无用数据块的概率增大,额外开销随之增多.传统策略没有预先处理这些无用数据块.针对这个问题,提出一种分布式环境下基于剪枝的并行排序合并连接策略(parallel sort-merge join based on prune,简称Pr_PSMJ).其特点是,连接发生之前高效完成对连接对象无用数据块的剪枝处理,提高整体连接效率.基本思想是,根据连接对象对应的连接分区数据统计信息,构造一种双边邻接表(bilateral adjacency list,简称BAL),用来对连接数据中无用数据块进行剪枝,并保证最终连接结果的正确性;剪枝完成后,利用BAL计算出各个最佳本地连接执行点,并指导分区数据的迁移,使数据移动量最小;在连接阶段,由于BAL保证本地连接执行节点的独立性,因此能够轻松并行执行整个连接过程,并在每个连接点本地利用多核环境完成局部并行排序合并连接;最后,将局部结果合并成最终结果.由于Pr_PSMJ中的高效剪枝策略是在连接执行之前完成的,因此几乎适合任何合并连接操作,并且对于其他连接策略也有借鉴作用.给出了基于Pr_PSMJ的算法的正确性、效率性以及适应性分析,并且给出实验验证,证明了在分布式大数据量排序合并连接情况下,Pr_PSMJ相对于其他策略能够有效减少网络开销,并提高连接效率.(本文来源于《软件学报》期刊2019年11期)

郎贤波[5](2017)在《基于大数据平台的流连接算法及并行化研究》一文中研究指出近些年来,流式计算(Computing of Stream)作为大数据领域中一个非常重要的研究内容,在学术界和商业界得到了越来越多的关注。在很多实时流数据查询场景中,对流数据处理的时效性要求非常严格。随着数据规模的日渐增大,国内外出现了很多流式计算系统。其中具代表性的有斯坦福大学的STREAM系统以及Twitter的Storm系统,但上述系统对流查询算法的设计过于简单,因此不能满足较为复杂的实时流查询业务需求。流连接作为实时流查询中一个具有代表性的数据处理算法,具有重要的研究意义。随着大数据与云计算的发展,流连接算法在大数据平台上的实现正面临着新的问题和挑战,主要集中体现在以下叁个方面:(1)现有的流连接算法如何在大数据平台上进行设计与实现;(2)如何提高流连接算法的效率;(3)如何结合大数据平台上实现并行化连接。本文对以上问题进行了深入的分析和研究,对流数据处理框架及其相关技术进行充分的调研。首先对传统流连接算法的窗口更新方式做了改进,提出了一种针对数据流量不稳定的窗口更新的流连接算法。通过计算连接代价模型,周期性地选择合适的更新周期;同时,针对流连接并行化,通过结合流连接语义本文设计了一种基于一致性Hash的数据流分发策略,该策略首先对连接语义进行分析生成连接计划,选择出最优的连接方案,根据连接关系将流数据分发到相同的节点中进行计算,在大数据平台上实现并行化连接。由于流数据本身具有无限且连续变化的特点,连接算法的时间和空间复杂度急剧增加,不能满足实际的应用需求,本文采用流式计算平台Storm,对流连接算法并行化实现进行了设计,最后通过实验说明算法在结果输出量、实时性等方面有较好的性能。(本文来源于《南京邮电大学》期刊2017-10-26)

冯林静[6](2017)在《基于多核的并行相似连接》一文中研究指出相似连接(similarityjoin)是指在给定的数据集中,根据给定的相似度度量函数来衡量数据之间的相似度,并找出所有相似度不小于给定阈值的数据对的操作。相似连接有着广泛的应用领域,如,模糊的关键字匹配,文档聚类,系统推荐,协同过滤,数据集成与清洗等。随着网络和移动应用等信息技术的不断发展,数据呈现爆炸式增长,海量数据的分析需要强大的计算能力,相似连接成为大数据处理领域的热点方式之一。度量相似性的方法有很多种,如,Jaccard similarity,Cosine similarity,Overlap similarity,Hamming distance,Edit distance。本篇文章主要采用 Jaccard similarity的方法去量化数据对相似值。传统的单核计算机平台的处理能力已经很难满足海量数据处理的计算要求。为了提高计算效率和计算性能,利用基于多核平台的多线程并行编程发挥多核体系结构的优势,已经成为实现个人低成本并行计算和多核技术发展的趋势。为海量数据下的相似连接带来了曙光。实验中,本文基于提出的数据分解和任务分解策略实现了四种不同相似连接算法,以此来验证本文提出的基于多核的并行相似连接方法的性能和可扩展性。四种算法为:数据量均衡划分与共享索引的方法,等长数据划分与共享索引的方法,数据量均衡划分与独立索引的方法,等长数据划分与独立索引的方法。通过实验证明,本文提出的方法可以充分利用多核处理器架构的并行处理能力,可以显着的提高相似连接的效率。(本文来源于《天津工业大学》期刊2017-01-12)

阮文洁[7](2017)在《分布并行字符串相似性连接方法研究与应用》一文中研究指出相似性连接是数据挖掘分析领域的基础操作,在数据清洗、生物信息学和信息集成等众多领域有着广泛的应用意义。相似性连接处理的数据类型一般包括字符串、集合、向量和图等类型,对于不同数据类型对象之间的相似程度的衡量也有多种度量标准,如杰卡德距离、余弦距离、编辑距离。本文主要研究基于编辑距离度量的字符串相似性连接,即在被查询字符串数据集中找出所有与给定的查询字符串集合中元素满足编辑距离不小于给定阈值的字符串。目前处理字符串的相似性连接算法大多为基于单机的内存算法,他们在处理海量字符串数据时需要耗费大量时间,而分布式计算平台的兴起与广泛应用为高效解决海量字符串连接提供了条件。本文基于Spark并行计算框架良好的扩展性、容错性,将单机计算转至集群模式,研究并行字符串相似性连接问题。首先,在对传统字符串相似性连接相关技术的研究基础上,设计了字符串相似连接的并行化处理框架,在分布式计算框架Spark中进行实现,给出并分析了并行化的具体实现过程。通过字符串的频率向量信息,在数据划分的基础上,有效地过滤掉不符合相似条件的字符串,避免了大量的无效计算,通过实验证明了数据并行化与计算并行化能够有效的提高海量字符串相串相似连接的处理效率。其次,对字符串的相似连接进行优化,主要包括并行化算法的优化及平台的优化。在并行化算法方面,对字符串联合频率向量进行广播,减少连接过程中数据传输量。由于Spark基于内存计算的特性,集群环境中数据传输成为Spark计算平台的瓶颈,对此,在计算平台方面,针对任务调度策略中数据本地性进行优化,降低由于数据划分所带来的通信开销,进行有效的优化。最后,深入分析字符串相似连接解决和处理的问题,将本文提出的并行字符串相似连接算法具体应用到不同实际应用中,充分挖掘数据价值。(本文来源于《东华大学》期刊2017-01-01)

赵星源[8](2016)在《云环境下GIS并行空间连接关键技术研究》一文中研究指出空间连接(Spatial Join)操作是地理信息系统(Geographic Information System,GIS)空间数据库中最基本和最重要的操作之一。庞大的数据量导致空间数据读写和传输需要耗费较多的I/O资源;复杂的空间数据结构使得空间数据的连接操作大多基于计算几何的相关算法,算法复杂度较高,需要的计算资源也较多。鉴于以上原因,空间连接运算成为空间查询中最耗时、最复杂的操作,空间连接效率对于空间数据库的整体查询效率起决定作用。近些年,随着对地观测技术、传感器技术以及计算机技术的迅速发展,人们获取空间数据的手段不断丰富并日趋成熟,空间数据的数据量规模也突飞猛涨、与日俱增。如何对海量空间数据进行高效空间连接成为GIS的关键问题之一。云计算技术为解决这一问题提供了有效的支持:利用分布式存储技术可以缓解海量空间数据带来的存储压力;利用并行计算技术可以高效完成空间连接过程中复杂的计算几何算法。因此,将云计算技术应用于空间连接成为当前GIS领域的研究热点和未来的发展方向。空间数据划分是并行空间连接的前提和基础。在并行空间连接算法中,连接条件判定是耗时最长的步骤,这要求前期的数据划分结果具有尽量少的冗余数据,避免工作节点进行无效的空间连接操作。此外,在数据划分时需要对空间数据均衡划分,以使得不同的工作节点处理的任务量大体相当,提高系统的并行化性能。针对并行空间连接的数据划分需求,本文提出一种两轮映射的数据划分方法(Two Rounds Map Partitioning Method,TRM),能够有效地减少划分过程产生的冗余数据,同时使划分结果具备较好的数据量均衡性;然后,在此划分方法的基础上,基于MapReduce框架,提出一种基于两轮映射划分的多重筛选MapReduce并行空间连接算法(Parallelizing Spatial Join with Multiple Filter based TRM, TRMMFSJ),能够有效提高大数据量空间数据的空间连接效率;最后,将TRMMFSJ算法应用于Top-k空间连接查询中,并针对Top-k空间连接应用提出一种优化查询算法。具体研究内如下:(1)提出一种两轮映射的空间数据划分方法。分析现有空间数据划分方法的特点及其应用于并行空间连接时的适用性,针对现有并行空间连接中数据划分方法的不足——难以使划分结果保持低冗余、高均衡的特性,提出一种两轮映射数据划分算法TRM。该方法具有两点优势:1)在第一轮映射中通过充分利用划分对象的空间属性来减少冗余数据,通过合理设置阈值来均衡划分数据;2)在第二轮映射中通过动态映射机制,进一步提高划分结果的数据量均衡度。实验表明,TRM可以有效抑制冗余数据的产生,并大幅提高划分结果的数据量均衡度,同时具备较高的划分效率,具有很强的实用性。(2)提出一种基于两轮映射划分的多重筛选MapReduce并行空间连接算法。分析现有MapReduce框架下的空间连接算法原理,针对其数据划分和空间连接过程存在的问题,提出一种基于两轮映射划分的多重筛选MapReduce并行空间连接算法TRMMFSJ.该方法具有叁点优势:1)两轮映射划分方法能够得到理想的数据划分结果,有利于后续并行空间连接算法的高效运行;2)并行空间连接过程中,采用多重筛选的空间连接策略,能够有效减少候选集中的对象数,从而降低精炼阶段的计算资源消耗;3)提出网格单元定位的冗余避免算法,能够在并行空间连接的过程中完全消除冗余任务,避免后续无效空间连接操作,提高算法运行效率。实验结果表明TRMMFSJ算法相比于MapReduce并行空间连接算法(Parallelizing Spatial Join with MapReduce,SJMR)具有更高的空间连接效率。(3)提出一种并行Top-k空间连接优化查询算法。Top-k空间连接是在空间连接基础上进行的一类特殊查询,返回前七个交迭/包含数最多的空间对象。利用Top-k空间连接可以从海量数据中迅速提取出重要信息,如交通高峰时段查询此时包含汽车数量最多的k个街区,即可得到交通拥堵区域。将TRMMFSJ算法应用于Top-k空间连接查询中,并针对Top-k空间连接的应用需求提出一种优化查询算法。该算法通过两步优化实现Top-k空间连接的高效操作:1)通过计数器完成对空间对象交迭/包含数的局部统计,并将局部统计结果替换空间对象作为输出数据,从而降低数据传输的资源消耗;2)将全局统计和Top-k结果获取整合到一个MapReduce作业中完成,避免了启动多个MapReduce任务对系统资源的消耗,提高了算法效率。实验结果表明应用TRMMFSJ进行Top-k空间连接能够显着降低查询耗时,同时优化查询算法具有更好的Top-k空间连接效率。(本文来源于《武汉大学》期刊2016-11-01)

范协裕,任应超[9](2016)在《开源关系数据库集群的并行空间连接算法实现》一文中研究指出当前对并行空间连接查询的研究主要集中在算法设计上,缺少在并行关系数据库管理系统上的应用实现研究.通过分析并行空间连接算法流程,利用开源并行关系数据库集群项目PL/Proxy,提出了混合式计算迁移模式并扩展了对空间操作的支持,并在其上实现了可扩展的基于空间划分的并行空间连接算法.通过真实数据的实验表明:设计实现的并行空间连接算法在空间数据划分负载均衡的情况下,可实现近线性的加速比;而在空间划分产生数据倾斜严重的情况下,仍具有一定的加速比,同时具备针对空间划分方案改进的可扩展能力.算法的实现方式为进行并行空间数据管理研究提供了一种可行的解决方案.(本文来源于《计算机系统应用》期刊2016年10期)

潘茜,张育平,陈海燕[10](2016)在《基于CUDA的并行K-近邻连接算法实现》一文中研究指出针对大规模空间数据的K-近邻连接查询问题,设计了一种CUDA编程模型下K-近邻连接算法的并行优化方法。将K-近邻连接算法的并行过程分两个阶段:1)对参与查询的数据集P和Q分别建立R-Tree索引;2)基于RTree索引进行KNNJ查询。首先根据结点所在位置划分最小外包框,在CUDA下基于递归网格排序算法创建RTree索引。然后在CUDA下基于R-Tree索引进行KNNJ查询,其中涉及并行求距离和并行距离排序两个阶段:求距离阶段利用每一个线程计算任意两点之间的距离,点与点之间距离的求取无依赖并行;排序阶段将快速排序基于CUDA以实现并行化。实验结果表明,随着样本量的不断增大,基于R-Tree索引的并行K-近邻连接算法的优势更加明显,具有高效性和可扩展性。(本文来源于《计算机科学》期刊2016年10期)

并行连接论文开题报告

(1)论文研究背景及目的

此处内容要求:

首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。

写法范例:

大规模网络环境和大数据相关技术的发展对传统数据融合分析技术提出了新的挑战。针对目前多源数据融合分析过程灵活性差、处理效率低的问题,提出了一种基于相似连接的多源数据并行预处理方法,该方法采用了分治和并行的思想。首先,通过对多源数据中的相似语义进行统一、对个性语义进行保留的预处理方法提高了灵活性;其次,提出了一种改进的并行MapReduce框架,提高了相似连接的效率。实验结果表明,所提方法在保证数据完整性的基础上,使总的数据量减小了32%。与传统的MapReduce框架相比,改进后的框架在耗费时间方面减小了43. 91%,因此该方法可以有效提高多源数据融合分析的效率。

(2)本文研究方法

调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。

观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。

实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。

文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。

实证研究法:依据现有的科学理论和实践的需要提出设计。

定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。

定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。

跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。

功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。

模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。

并行连接论文参考文献

[1].晋国卿.混合动态数据库集群的并行空间连接优化算法[J].科学技术与工程.2019

[2].郭方方,潮洛蒙,朱建文.基于相似连接的多源数据并行预处理方法[J].计算机应用.2019

[3].茅潇潇.分布式数据库并行连接查询的实现及优化[D].华东师范大学.2018

[4].高锦涛,李战怀,杜洪涛,刘文洁.分布式数据库下基于剪枝的并行合并连接策略[J].软件学报.2019

[5].郎贤波.基于大数据平台的流连接算法及并行化研究[D].南京邮电大学.2017

[6].冯林静.基于多核的并行相似连接[D].天津工业大学.2017

[7].阮文洁.分布并行字符串相似性连接方法研究与应用[D].东华大学.2017

[8].赵星源.云环境下GIS并行空间连接关键技术研究[D].武汉大学.2016

[9].范协裕,任应超.开源关系数据库集群的并行空间连接算法实现[J].计算机系统应用.2016

[10].潘茜,张育平,陈海燕.基于CUDA的并行K-近邻连接算法实现[J].计算机科学.2016

标签:;  ;  ;  ;  

并行连接论文-晋国卿
下载Doc文档

猜你喜欢