一、分布式数据库中的限定关系代数变换(论文文献综述)
常朝珍[1](2020)在《支持SQL查询的差分隐私保护模型研究》文中研究表明随着信息时代的不断发展,挖掘数据中的有效信息变得越来越普及,从而导致挖掘信息过程中的隐私保护问题受到越来越多的关注。差分隐私作为一种新型的隐私保护模型,对隐私保护进行了严格的数学定义并提供了量化评估方法,使得在不同参数处理下的数据集提供的隐私保护程度具有可比性。因此,差分隐私理论被提出之后便迅速被业界认可,并逐渐成为隐私保护领域中的一个研究热点。目前,差分隐私在理论方面已经较为成熟,但是在实际应用中仍然有限。结构化查询语言(Structured Query Language,SQL)是现实世界中被广泛认可和普及的一种非过程化数据查询语言,具有灵活性高、功能强大的特点。SQL具有强大的灵活性的同时也增加了添加差分隐私保护的难度,导致SQL查询对差分隐私的支持度不够。为了扩展差分隐私在实际应用中的使用范围,提高SQL查询对差分隐私的支持度,本文提出一种对SQL查询添加差分隐私保护的方法。本文研究了SQL中常用聚集函数的差分隐私保护方法,并将SQL中的聚集函数分为两类。由于第一类聚集函数的函数值受数据集中的属性值大小影响,所以第一类聚集函数的全局敏感度较高,造成隐私保护后的结果可用性较差。为了提高发布结果的可用性,本文提出一种通过局部敏感度为SQL查询添加差分隐私保护的方法。针对第二类聚集函数提出一种在关系数据集下对SQL查询提供差分隐私保护的方法。该方法从关系代数的角度出发,通过关系代数限制SQL,解决了因SQL查询结构灵活所造成的问题。此外,关系数据集是一种高敏感度数据集,当更改其中一条记录时可能引起多条记录发生改变。针对这种情况,本文通过关系系数来度量数据之间相关性,在差分隐私保护过程中充分考虑相关性对隐私保护结果的影响,力求在满足差分隐私保护的前提下,提高发布结果的可用性。
张仪[2](2020)在《跨平台统一大数据智能化SQL查询系统研究与实现》文中研究指明近年来,随着各行各业对大数据分析处理应用需求的不断增长,大数据查询系统逐步向多样化方向发展。这些数据查询系统在查询语言、计算模型、系统架构与底层存储技术等方面各有特点,适用于不同垂直应用场景,因此现代企业或组织为了处理多样化业务,通常会构建多种不同的数据查询系统。然而,很多综合性业务需要能进行便捷、高效的跨平台数据查询,例如,同一个机构跨部门之间的数据统一分析业务就有这种需求。因此,如何充分利用不同计算平台的特性完成高效便捷的跨平台数据查询已成为当前学术界与工业界的研究热点。现有工作在模型结构与查询性能方面都存在一定不足,难以满足复杂的跨平台数据查询实际应用需求。针对现有工作的不足,本文研究提出了一种跨平台统一SQL查询模型及其性能优化方法,并在此基础上设计实现了一个跨平台统一大数据智能化SQL查询系统Coral。本文主要的研究内容与贡献点包括:(1)提出了跨平台的统一SQL查询模型。首先,模型提供统一的查询语言,能够表达查询的跨平台特性,支持对不同平台上的表进行连接(Join)操作。在此基础上,模型拓展了查询语句的关系代数形式,使查询优化能够生成和执行平台相关的执行计划。最终,模型通过跨平台调度器实现了执行计划的跨平台自动调度,整个跨平台查询过程对用户完全透明。(2)设计了规则驱动和数据驱动相结合的混合式跨平台查询优化器。系统内部包含两种针对不同查询场景的优化器。其中,基于级联机制(Cascades)的优化器将数据源之间的转化以经验规则的方式集成进Cascades优化器中,在保持Cascades优化器优点的基础上实现跨平台查询优化,以减少数据迁移和查询执行开销;基于深度Q网络(Deep Q Network,DQN)的跨平台查询优化器使用机器学习技术生成数据集自适应(Dataset-specific)的连接搜索策略,在给定成本模型和搜索空间时,该优化器可以针对特定数据集在所有可能Join plan中优化搜索过程,并根据以前的计划实例结果学习特定的搜索策略,从而显着减少执行计划的搜索时间,提升优化效果。(3)设计了基于查询历史与查询代价分析的子查询缓存模型。该模型根据查询历史和查询代价选择合适的子查询结果持久化到合适的底层平台,并通过缓存匹配和复用算法替换匹配的子查询,从而减少重复的迁移与计算开销,优化跨平台数据查询的性能。(4)基于上述提出的查询模型框架与性能优化方法,本文设计实现了一个高效的跨平台统一大数据智能化SQL查询系统Coral。该系统集成了Mem SQL、Clickhouse与Postgre SQL三个不同特点的主流数据库。Coral为用户提供统一的跨平台查询语言,内置多种跨平台查询优化器,并通过代码生成(Codegen)技术提升执行性能,能够自动、高效地执行用户提交的跨平台查询请求。Coral还为用户提供了良好的配置和访问接口,方便用户部署和使用。(5)通过实验对本文提出的跨平台查询系统Coral及其相关优化技术进行性能评估分析。实验表明,本文提出的混合式跨平台查询优化器通过结合传统优化器和数据集自适应的优化器,能够有效减少生成执行计划的时间,提升执行计划的效率;缓存模型在子查询重复访问的情况下效果明显;与主流跨平台查询系统Mu SQLE和Sloth相比,本文提出的Coral在跨平台查询上取得了更好的性能,相比于Mu SQLE平均达到5.03倍加速比,相比于Sloth平均达到2.04倍加速比。
樊敏[3](2020)在《基于分布式关系型数据库的查询算法优化》文中认为随着数据量的增长和应用场景的不断变化,数据库系统的架构发生了巨大的改变,分布式关系型数据库(即NewSQL)的出现融合了SQL与NoSQL模式,对外同时提供了SQL接口、分布式事务和集群的高扩展性。NewSQL的基本功能包括分布式事务,SQL到NoSQL的映射等技术都基本完善后,由于存储的数据量增加,NewSQL数据库相比于传统关系型数据来说,应用场景也不再局限于在线事务分析,还要包含一些大型复杂分析查询和离线分析的场景。如何提升在大型复杂分析查询和OLAP场景下的查询性能,是NewSQL数据库的关键问题。在传统关系型数据库中,这一问题主要由查询优化器提供解决方案。优化器会根据查询的代价从数百个甚至数千个查询计划中选择出代价最低的查询计划来执行查询,但是在分布式环境下增加了代价估算的难度,通过查询优化技术选择出一个最佳的查询计划会更加困难,从而降低查询性能。在优化器选择出了一个次优查询计划后,如何降低它对性能的影响就显得十分重要。对于大型复杂分析查询,在优化器生成了次优的查询计划后,减少分布式下的网络开销更能够保证查询计划的健壮性,减小计划执行对数据库性能的影响。本文基于TiDB—一个开源的分布式关系型的NewSQL数据库,搭建了集群实验环境。基于Lookahead Information Passing(LIP)算法,设计和实现了分布式下的distLIP算法。通过将distLIP算子下推到存储层做计算,大大减小了数据的网络传输开销;并通过自适应排序算法,减小了中间计算结果占用内存的大小,提高了查询计划的健壮性;本文中也采用了布谷鸟过滤器用来代替原算法中的布隆过滤器,提高了数据的空间占用率和查询的计算效率。最后,本文使用了星型模式性能测试集测试了大型复杂分析查询下包含distLIP算法和不包含distLIP算法的查询执行时间。实验结果证明,在TiDB上使用distLIP算法是有效的,能够提升星型模型查询和类似查询场景下的查询性能。
王新阳[4](2018)在《面向语义描述与数据查询的大数据组织方法及其关键应用技术研究》文中指出大数据、物联网等技术的普及和深入发展促使数据不仅在体量上急剧膨胀,数据的种类和格式也在快速增加。各种数据由于在模式以及操作方式上的不同而形成众多独立的数据种群,不同类型的数据无法统一查询和处理,阻碍了数据之间的互通。这不仅使得各种数据的统一高效使用成为一件很困难的事,也为如何从这些海量数据中充分挖掘出有价值的信息带来了极大的挑战。而使用传统的方式存储和操作这些异构数据已经越来越难以满足当前应用需求,例如No SQL等大数据模型往往没有固定的模式,数据结构经常处于动态变化之中,是与传统数据进行融合的最主要障碍。目前关于大数据与传统数据模型进行模式集成的研究仍然不够充分,且大数据的语义描述等问题也尚缺少全面的研究。因此,需要一种统一、高效且足够灵活的方式来描述各类异构数据,且能够表达数据内部以及异构数据之间的语义,实现数据内在价值的挖掘和潜在知识的发现。本文在充分比较、分析各种异构数据集成公共模型的基础上,吸纳了相关主要模型的特点和优势,提出了一种面向概念与关系的公共数据模型GDM(即格数据模型,Grid Data Model)。GDM模型在关系、段、节等定义的基础上实现了一种新的数据模式定义和结构组织的方式,能够统一描述各种数据结构和语义关系。文中同时给出了GDM模型的形式化标准定义。为了深入说明GDM模型的语义描述和逻辑推理能力,本文在GDM基本概念的基础上描述了GDM模型的语义推理和领域知识演化原理,并以()描述逻辑为例,描述了如何通过GDM语法子集建立与描述逻辑的映射关系,以及如何利用GDM模型构建基于描述逻辑的本体知识库,并对GDM模型的相关推理问题进行了理论证明。本文接着研究了数据集成过程中数据结构异构的问题。为了实现各种传统数据模型与大数据模型的集成,本文利用GDM模型基于关系的数据结构描述机制,从形式化理论角度研究了各种数据模型向GDM进行模式转换的原理,包括结构化的关系模型、半结构化的XML和多种非结构化的No SQL数据数据模型。同时还研究了GDM模型能够同时描述有模式数据和无模式数据的混合模式特性以及进行动态修改数据的能力。本文然后基于虚模式定义了GDM模型代数以及查询语言GDM SQL的语法,并阐述了GDM数据查询过程和查询优化基本原则。以上GDM模型数据管理方案提供了格数据查询和操作的基本方法,是进行基于GDM模型的异构数据集成的必要前提。基于以上模型定义、相关理论和查询操作语言,本文研究了分布式环境下异构数据集成过程中的查询、处理和优化等若干方面,解决了查询变量关联、查询分解与查询计划生成、查询处理过程的并行调度等相关问题。同时,为了降低异构数据查询处理的时间成本,本文还提出了几种基于最小调度连通图的查询优化方案,通过模拟实验比较了各种优化策略的性能,验证了查询优化方法的有效性。为了进一步说明GDM模型的优秀特性和数据集成时的效率优势,本文还从各方面比较了GDM及几种基本数据模型的相关特性,并重点与OWL模型进行了深入对比。同时,还基于本文提出的效率评估模型,从时间和空间两个角度比较分析了各模型进行数据创建、修改、删除等操作时的时间与空间效率。结果表明,GDM在数据集成时其时间和空间效率相对于所比较模型总体来讲是最优的,非常适合异构数据集成。最后,本文设计了基于GDM模型的异构数据集成系统,介绍了系统的设计框架和实施过程,展示了系统的运行情况,验证了本文所提出的相关理论的可行性和有效性,显示了GDM模型能够比较出色地胜任分布式异构环境下的数据集成和知识发现。
林沣[5](2013)在《分布式数据库中空间拓扑连接查询优化处理方法研究》文中进行了进一步梳理在传统的分布式查询处理过程基础上,结合已有分布式跨边界片段连接优化方法,提出基于空间片段拓扑连接优化的关系代数转换原则。通过利用等价转换规则,进一步简化经过数据本地化处理后的查询树。引入连接归并树和执行计划树等概念,并利用相应归并和优化算法将全局空间查询转化为各个场地局部空间数据库的具体执行计划。
余弋[6](2011)在《分布式数据库查询优化研究》文中研究表明数据库技术起始于20世纪60年代,经过30余年的发展,已经成为计算机应用的重要技术之一。对于数据库技术本身的应用范围来说,各种规模及用途的数据库应用系统已经开始使用,并且新的数据库应用系统正与日俱增。其应用的深度和广度可能是计算机领域的其他分支所不能比拟的。对于数据库技术的研究和发展来说,各种学科与数据库技术交叉渗透,产生了许多新型的数据库技术。20世纪80年代,关系数据库及与其相关的各种数据模型工具、索引以及数据组织技术等日渐成熟,一些关系数据库管理软件和一些辅助工具不断地到完善。比如像Oracle这种类型的数据库商界领先的公司,已经把一些核心的关系数据库的研究成果和技术成功的应用到他们的产品中。自20世纪80年代中期以来,关系数据库技术和新型技术的结合成为数据库开发和研究的重要标志。随着无线技术和网络技术的发展,特别是www建立以来,分布式数据库技术受到充分的研究,一些技术和理论问题趋于明朗,成为数据库家族的主流技术之一。本文对分布式数据库技术,尤其是分布式数据库查询优化技术进行了全面地分析和研究,在先前研究的基础上,提出解决相应问题的查询优化算法。论文的主要内容包括以下几个方面:第一、对分布式数据库及其查询优化的分析与研究。文中详细地介绍了分布式数据库的基本概念,并对查询优化的过程以及查询优化的常用技术进行分类、归纳和总结,并且对分布式数据库技术的国内外研究现状进行分析。第二、深入研究了分布式查询优化的各种策略和算法,针对以通信传输代价为主要优化目标,采用半连接技术对分布式查询进行优化,提出一种考虑多种实时参数的事先预测的基于半连接的优化算法。对公式中的某些参数进行相应的处理,不仅考虑到本地的延迟代价,还考虑到站点间的通信代价,在分布式数据库复杂查询及海量信息查询领域有较为实用的价值。第三、文中还利用并行处理策略和数据分片,提出一种基于直接连接的分布式查询优化算法,使得连接费用减少,通信费用降低,能有效地缩减查询的响应时间。
张瑞芳[7](2010)在《分布式数据库的查询优化方法设计与实现》文中进行了进一步梳理文章对分布式数据库系统的基本概念进行了阐述,它包括分布式数据库的定义、分布式数据库系统的模式结构及体系结构,分布式数据库中的数据分片以及分布;接着简单对分布式查询处理与优化的一般过程进行了阐述;然后文章对经常用到的优化方法做了重点研究,如基于关系代数等价变换规则的优化算法、基于连接的优化算法、基于半连接的优化算法、SDD1算法。文章主要是对分布式查询优化策略重点研究。文章的优化目标是以通信传输开销为主,运用半联接运算这种算法,SDD1算法在分布式数据库查询中的运用做了大量的研讨,并探索出一个新的算法。是基于多关系半联接的优化算法,它适用于以分布式数据库系统的缓冲区作为查询的中间结果的最后装配站点这种情况。这种算法通过实验证明,很大的省去了中间环节的工作量,网络通信总代价得到了减低。
张伟[8](2009)在《分布式数据库查询优化算法的研究》文中进行了进一步梳理论文对分布式数据库查询处理中的半连接算法进行了深入的研究,阐述了半连接算法不考虑局部处理代价的不足,提出了基于二次半连接的主键连接表算法,该算法既尽可能地考虑数据传输代价又重视局部的处理代价。当涉及多个关系查询时,论文研究了连接的条件表达式、查询图、查询图的生成树、以及Chain算法和Kruskal算法,在此基础上提出了基于改进二次半连接的查询图分割算法,该算法充分利用了数据分布增加查询并行处理的可能性,对查询图进行分割,提出分割点和不可分割的查询图的概念以及分割点的判定准则和可并行执行的查询图。在一定程度上弥补了单独使用Kruskal算法的不足,实验结果表明该算法花费的代价比Kruskal算法花费的代价小。当分布式查询引用的关系数目越多时,查询图中分割出的可并行执行的查询图越多,从而缩短查询的响应时间,使查询花费的代价更小。
左杰[9](2008)在《查询优化技术研究及在油井施工设计中的应用》文中进行了进一步梳理查询优化是数据库管理系统设计和实现所采用的一项重要技术,也是影响数据库系统性能的一个重要因素。数据库查询优化包括两方面,基于代价的查询优化和基于响应时间的查询优化,可以有效地提高复杂查询的效率。本文通过研究两种查询优化技术的结合,给出了将查询请求进行两段式优化的一系列算法和实现方式,并且在“辽河油田特种油开发公司油井施工设计系统”实际项目的研究开发中加以应用,以解决系统响应速度问题。基于代价的查询优化是优化第一阶段采用的主要技术,目的是要通过等价变换,将用户提交的查询请求变换为效率最优的查询计划。为了优化并行执行阶段的多线程查询,还需要将查询计划转化为规范表达式的形式然后再加以优化,最后得出适合多线程并行执行的优化执行计划。基于响应时间的查询优化一般采用并行的方式缩短响应时间,因此多线程并行数据查询是第二阶段优化查询的工作。本文给出了对于大表查询、大表结合查询、分组聚合查询、排序查询操作的多线程并行化查询优化算法,并讨论了基于大表分裂算法的并行化策略的实施,大表分裂的方式、原则和随之带来的对大表数据高效维护的算法。系统投入运行后状况良好,收到令用户满意的效果,大幅提高了查询效率。通过对优化效果的分析和测试,发现在不影响数据维护操作效率的前提下,查询响应速度可提高30倍以上。系统将并行算法和思想引入普通PC服务器的实际应用中,扩展了并行计算的运用范围,使得普通PC机用户和企业都获得了并行计算带来的性能提升,对并行计算的发展和普通PC服务器利用多线程技术进行并行计算扩展做出了研究,具有实际意义。
王天宝[10](2008)在《募捐管理系统中分布式查询优化的设计与实现》文中研究说明随着数据库技术的不断发展,分布式数据库的应用变得越来越广泛。由于在分布式数据库系统中数据的冗余和分布,增加了分布式数据查询的难度和复杂度,如何更加有效的查询数据是分布式数据库系统面临的一个重要问题,也是本文所要探讨的问题。国内外数据库方面的专家和学者对分布式条件下查询优化技术做了大量的研究工作,并取得了重要的成果。经过研究得出了一些经典的分布式查询优化算法:如基于关系代数等价变换原则的优化算法,基于半连接的优化算法,SDD 1算法,爬山算法,模拟退火算法,遗传算法等。本文以中国红十字总会募捐管理软件开发与网络系统集成开发项目为背景。在本文中,首先介绍了分布式数据库系统的有关概念;然后对分布式查询的处理过程做了阐述,其中对常见的基于关系代数等价变换原则的优化算法,基于半连接的优化算法,SDD 1算法,遗传算法进行了分析和研究;最后将遗传算法和半连接算法相结合,得出多连接条件下的半连接-遗传算法。该算法根据查询图构造出平衡连接树,并将其作为一个染色体,然后对平衡连接树做后序遍历得到染色体编码串。然后对由所有生成的染色体构成的种群运用遗传算法,经过选择、交叉、变异操作后,得到一个执行方案,最后对得到的方案运用半连接算法进一步对算法进行优化。该算法使执行过程中并行执行的机会大大增加,从而使得查询的效率得以进一步提高。
二、分布式数据库中的限定关系代数变换(论文开题报告)
(1)论文研究背景及目的
此处内容要求:
首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。
写法范例:
本文主要提出一款精简64位RISC处理器存储管理单元结构并详细分析其设计过程。在该MMU结构中,TLB采用叁个分离的TLB,TLB采用基于内容查找的相联存储器并行查找,支持粗粒度为64KB和细粒度为4KB两种页面大小,采用多级分层页表结构映射地址空间,并详细论述了四级页表转换过程,TLB结构组织等。该MMU结构将作为该处理器存储系统实现的一个重要组成部分。
(2)本文研究方法
调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。
观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。
实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。
文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。
实证研究法:依据现有的科学理论和实践的需要提出设计。
定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。
定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。
跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。
功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。
模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。
三、分布式数据库中的限定关系代数变换(论文提纲范文)
(1)支持SQL查询的差分隐私保护模型研究(论文提纲范文)
摘要 |
Abstract |
1 绪论 |
1.1 课题研究的背景及意义 |
1.2 国内外研究现状 |
1.2.1 关系型数据的发布 |
1.2.2 非关系型数据的发布 |
1.3 论文的主要工作及组织结构 |
2 相关技术介绍 |
2.1 差分隐私保护模型 |
2.1.1 基于差分隐私的数据发布 |
2.1.2 Laplace机制 |
2.1.3 指数机制 |
2.1.4 组合性质 |
2.2 相关性分析 |
2.3 结构化查询语言 |
2.4 本章小结 |
3 支持SQL的差分隐私保护机制 |
3.1 常用差分隐私保护机制 |
3.2 基于SQL的数据集特点 |
3.3 SQL聚集函数隐私保护机制 |
3.4 CD-SQL模型 |
3.4.1 CD-SQL模型出发点 |
3.4.2 CD-SQL模型概述 |
3.4.3 数据库度量 |
3.4.4 敏感度分析 |
3.4.5 扰动添加与结果发布 |
3.4.6 实例分析 |
3.5 CD-SQL隐私证明 |
3.6 本章小结 |
4 实验设计与结果分析 |
4.1 实验环境 |
4.1.1 实验平台 |
4.1.2 实验数据 |
4.1.3 实验方案 |
4.1.4 评估度量 |
4.2 实验结果与分析 |
4.2.1 第一类聚集函数实验结果分析 |
4.2.2 CD-SQL模型实验结果分析 |
4.3 本章小结 |
总结与展望 |
参考文献 |
致谢 |
作者简历及攻读硕士学位期间的科研成果 |
(2)跨平台统一大数据智能化SQL查询系统研究与实现(论文提纲范文)
摘要 |
abstract |
第一章 绪论 |
1.1 研究背景 |
1.2 国内外研究现状 |
1.3 现有工作的不足 |
1.4 本文的研究内容 |
1.5 本文的组织结构 |
第二章 相关背景知识 |
2.1 SQL查询模型 |
2.2 SQL查询优化 |
2.2.1 查询优化的基本原理 |
2.2.2 基础查询优化算法 |
2.2.3 经典查询优化器 |
2.3 相关系统平台简介 |
2.3.1 Apache Calcite动态数据管理框架 |
2.3.2 Mem SQL内存数据库 |
2.3.3 Postgre SQL对象关系数据库 |
2.3.4 Clickhouse列存储数据库 |
2.4 本章小结 |
第三章 跨平台统一SQL查询模型 |
3.1 统一查询模型框架 |
3.2 统一元数据接口 |
3.3 跨平台查询示例 |
3.4 本章小结 |
第四章 跨平台查询优化与混合调度 |
4.1 问题描述与分析 |
4.1.1 单优化器的不足 |
4.1.2 跨平台查询优化问题分析 |
4.2 混合优化器自动调度 |
4.2.1 输入输出转换 |
4.2.2 优化器调度算法 |
4.3 跨平台查询优化器设计 |
4.3.1 查询优化总体流程 |
4.3.2 基于级联机制的优化器 |
4.3.3 基于深度Q网络的优化器 |
4.4 本章小结 |
第五章 基于强化学习的数据集自适应查询优化 |
5.1 问题描述与分析 |
5.1.1 背景介绍 |
5.1.2 问题抽象 |
5.1.3 解决方案 |
5.2 优化器架构 |
5.2.1 数据结构 |
5.2.2 主要模块及接口 |
5.3 Q-Learning模型实现 |
5.3.1 查询特征化 |
5.3.2 模型训练 |
5.3.3 执行优化 |
5.4 本章小结 |
第六章 跨平台统一SQL查询系统设计与实现 |
6.1 系统总体框架 |
6.2 基于级联机制的优化器实现 |
6.2.1 问题背景 |
6.2.2 等价集合设计 |
6.2.3 跨平台属性及其转换规则设计 |
6.2.4 规则重要性计算 |
6.3 基于Codegen的执行优化 |
6.4 跨平台数据缓存的实现 |
6.4.1 缓存存储和替换算法 |
6.4.2 缓存匹配和复用算法 |
6.5 用户层接口 |
6.6 本章小结 |
第七章 性能评估与分析 |
7.1 实验数据和实验环境 |
7.2 性能优化效果评估与分析 |
7.2.1 跨平台查询优化效果评估 |
7.2.2 跨平台优化开销评估 |
7.2.3 混合优化器效果评估 |
7.3 缓存效果评估与分析 |
7.4 与主流系统的试验对比和结果分析 |
7.4.1 对比系统介绍 |
7.4.2 查询性能对比 |
7.5 本章小结 |
第八章 总结与展望 |
8.1 本文工作总结 |
8.2 进一步工作 |
参考文献 |
致谢 |
附录 |
(3)基于分布式关系型数据库的查询算法优化(论文提纲范文)
摘要 |
abstract |
第一章 绪论 |
1.1 研究背景与意义 |
1.2 国内外研究现状 |
1.2.1 NewSQL的发展 |
1.2.2 查询处理技术 |
1.3 本文的主要研究内容与贡献 |
1.4 本论文的结构安排 |
第二章 理论基础和关键技术 |
2.1 SQL的处理过程 |
2.2 查询优化与执行 |
2.2.1 逻辑优化与物理优化 |
2.2.2 执行引擎 |
2.3 TiDB的查询优化与执行 |
2.3.1 优化器框架 |
2.3.2 执行器框架 |
2.4 星型模式查询 |
2.5 本章小结 |
第三章 需求分析及方案设计 |
3.1 需求分析 |
3.2 设计目标 |
3.3 算法与优化 |
3.4 代价评估 |
3.5 过滤器选择 |
3.6 请求流程 |
3.7 本章小结 |
第四章 算法实现 |
4.1 distLIP算子实现 |
4.2 自适应排序算法实现 |
4.3 过滤器实现 |
4.4 网络模块实现 |
4.5 本章小结 |
第五章 实验与测试 |
5.1 实验环境 |
5.2 测试环境与过程 |
5.3 实验结果与结论 |
第六章 总结与展望 |
6.1 全文总结 |
6.2 后续工作展望 |
致谢 |
参考文献 |
(4)面向语义描述与数据查询的大数据组织方法及其关键应用技术研究(论文提纲范文)
摘要 |
ABSTRACT |
第一章 绪论 |
1.1 研究背景与目的 |
1.2 相关问题的国内外研究现状 |
1.2.1 异构数据集成技术与系统研究现状 |
1.2.2 面向异构数据集成的统一建模研究现状 |
1.2.3 基于公共数据模型的逻辑推理与知识发现的相关理论及研究现状 |
1.2.4 以NoSQL为主的大数据模型 |
1.3 论文的主要研究内容与创新点 |
1.4 论文的组织结构及各章主要内容 |
第二章 GDM公共数据模型 |
2.1 异构数据集成问题描述 |
2.2 主要公共数据模型介绍 |
2.2.1 面向结构的数据模型 |
2.2.2 面向语义的数据模型 |
2.3 基于关系和概念的格数据模型(GDM) |
2.3.1 格数据关系 |
2.3.2 格数据类型 |
2.3.3 模型的形式化定义 |
2.4 本章小结 |
第三章 GDM模型的数据语义描述和推理 |
3.1 问题描述 |
3.2 GDM模型的语义表达和演化 |
3.3 GDM模型与描述逻辑及知识表示 |
3.3.1 概念映射 |
3.3.2 GDM节与公理映射 |
3.3.3 GDM关系与角色映射 |
3.3.4 GDM个体与事实映射 |
3.4 转化正确性及相关推理问题证明 |
3.5 本章小结 |
第四章 面向大数据集成的异构数据源模式转换 |
4.1 模式映射简介 |
4.1.1 模式映射方法 |
4.1.2 模式映射过程 |
4.2 关系数据模型的模式转换 |
4.3 以XML为代表的半结构化数据模型的模式转换 |
4.4 NOSQL数据模型的模式转换 |
4.5 混合模式及动态数据集成 |
4.6 本章小结 |
第五章 GDM模型数据管理 |
5.1 GDM数据管理的图论基础 |
5.2 GDM模型代数运算 |
5.2.1 模式代数 |
5.2.2 GDM对象代数 |
5.3 GDM数据查询与操作 |
5.3.1 格数据操作模型 |
5.3.2 基于SQL的GDM数据查询与操作 |
5.3.3 GDM数据查询过程与优化 |
5.4 本章小结 |
第六章 基于GDM的异构数据集成的查询、处理与优化 |
6.1 基于中间模式的多层局部自治集成模型 |
6.1.1 集成模型的定义 |
6.1.2 模式的类型与映射 |
6.2 异构数据集成的查询处理机制与过程 |
6.2.1 全局查询语言及查询变量关联 |
6.2.2 查询分解与查询计划生成 |
6.2.3 查询结果处理及并行调度 |
6.3 分布式异构环境下基于并行调度的查询优化 |
6.3.1 异构数据集成中的查询处理代价模型 |
6.3.2 预定义查询优化 |
6.3.3 自适应查询优化 |
6.3.4 综合优化策略 |
6.3.5 查询优化策略的评价与分析 |
6.4 本章小结 |
第七章 GDM模型特性分析与集成效率评价 |
7.1 数据模型综合分类与定性比较分析 |
7.1.1 数据模型分类 |
7.1.2 基本特性的定性分析与比较 |
7.2 与OWL的对比与分析 |
7.3 数据集成时间与空间效率的评价分析 |
7.3.1 数据集成的时间与空间效率评估模型 |
7.3.2 初始化参数的一些假设和解释 |
7.3.3 实验结果的比较与分析 |
7.4 本章小结 |
第八章 异构数据集成系统的设计与实现 |
8.1 基于GDM的异构数据集成系统的语义操作层次框架 |
8.2 一种综合的多策略相似度衡量方法 |
8.3 基于GDM模型的异构数据集成系统 |
8.3.1 开发环境与相关配置 |
8.3.2 系统架构及实施体系 |
8.3.3 格数据引擎核心功能展示与说明 |
8.3.4 Paragraph Turbo核心功能展示与说明 |
8.4 本章小结 |
总结与展望 |
参考文献 |
附录A:GDM模型中数据以及关系的层次 |
附录B:GDM模型结点类型 |
附录C:GDM SQL语法定义 |
攻读博士学位期间取得的研究成果 |
致谢 |
附件 |
(6)分布式数据库查询优化研究(论文提纲范文)
摘要 |
ABSTRACT |
目录 |
第1章 绪论 |
1.1 研究背景 |
1.2 分布式数据库的概述 |
1.3 分布式数据库的研究现状 |
1.4 分布式数据库的组成及分类 |
1.4.1 分布式数据库的组成 |
1.4.2 分布式数据库的分类 |
1.5 本文的主要工作和章节安排 |
第2章 数据分布及分布透明性 |
2.1 分布式数据库中的数据分片 |
2.2 分布式数据库中的数据分布 |
2.3 分布透明性与数据独立性概述 |
2.4 简单查询与分布透明性 |
2.5 复杂简单查询与分布透明性 |
2.6 更新应用与分布透明性 |
2.7 小结 |
第3章 分布式数据库查询概述 |
3.1 分布式查询优化主要目标及其代价估算 |
3.1.1 分布式查询优化主要目标 |
3.1.2 分布式查询优化的代价估算 |
3.2 查询优化的分类 |
3.3 分布式查询的层次结构 |
3.4 分布式查询的一般优化过程 |
第4章 基于关系代数等价变换的查询优化 |
4.1 关系代数的等价变换 |
4.2 把全局查询变换为段查询 |
4.2.1 限定关系的代数学 |
4.2.2 水平分段关系的化简 |
4.2.3 垂直分段关系的化简 |
4.2.4 关系代数的扩充 |
4.2.5 Group-by操作的特性 |
4.2.6 参数性查询 |
4.3 查询优化实现方法 |
4.3.1 基本原理 |
4.3.2 实现的一般操作步骤 |
第5章 基于半连接的查询优化 |
5.1 基本方法 |
5.1.1 基本原理 |
5.1.2 操作过程 |
5.2 费用估计 |
5.3 SDD-1算法 |
5.4 基于事先预测的半连接优化算法 |
5.4.1 优化方案一 |
5.4.2 优化方案二 |
5.4.3 代价计算 |
5.4.4 实验分析 |
第6章 基于直接连接的查询优化 |
6.1 直接连接的常用策略 |
6.1.1 在同一站点上的两个关系 |
6.1.2 在不同的站点上两个关系 |
6.2 使用并行性的直接连接策略 |
6.3 Partition算法 |
6.4 多连接属性划分算法(Mult-partition算法) |
6.5 实验分析 |
第7章 分布式数据库发展趋势 |
7.1 并行数据服务器 |
7.2 分布式知识库系统 |
7.3 分布式面向对象数据库 |
7.4 对象-关系数据库 |
参考文献 |
攻读学位期间发表的学术论文 |
致谢 |
(7)分布式数据库的查询优化方法设计与实现(论文提纲范文)
摘要 |
Abstract |
第一章 绪论 |
1.1 研究背景 |
1.2 国内外研究现状 |
1.3 本文的主要工作 |
1.4 本文的组织结构 |
第二章 分布式数据库系统概述 |
2.1 分布式数据库的定义 |
2.2 分布式数据库的分类 |
2.3 分布式数据库系统结构 |
2.3.1 体系结构 |
2.3.2 模式结构 |
2.4 分布式数据库中的数据分片与分布 |
2.4.1 数据分片 |
2.4.2 数据分布 |
2.5 小结 |
第三章 分布式查询处理与优化 |
3.1 分布式查询优化的目标 |
3.2 分布式查询优化准则和代价估算 |
3.3 分布式查询处理的分类与层次结构 |
3.3.1 分类 |
3.3.2 层次结构 |
3.4 分布式查询的一般优化过程 |
3.4.1 关系代数与查询树 |
3.4.2 一般优化过程 |
3.5 小结 |
第四章 查询优化算法 |
4.1 基于关系代数等价变换优化算法 |
4.2 基于直接连接的操作的优化算法 |
4.3 基于半连接操作的优化算法 |
4.3.1 半连接操作 |
4.3.2 操作过程和传输代价 |
4.3.3 对比半连接程序法与直接连接法 |
4.3.4 半连接算法优化连接查询的步骤 |
4.4 SDD_1 算法 |
4.4.1 算法的基本定义 |
4.4.2 算法基本思想 |
4.4.3 应用举例 |
4.4.4 SDD_1 算法总结 |
第五章 SDD_1 算法的改进与实现 |
5.1 改进算法的提出 |
5.2 基于多关系半连接的SDD_1 算法的改进 |
5.2.1 理论基础 |
5.2.2 算法思想及实现 |
5.2.3 算法比较 |
5.2.4 性能分析 |
5.3 小结 |
第六章 总结 |
致谢 |
参考文献 |
(8)分布式数据库查询优化算法的研究(论文提纲范文)
致谢 |
摘要 |
Abstract |
1 绪论 |
1.1 研究背景及选题的意义 |
1.2 国内外研究现状 |
1.3 本文的组织结构 |
2. 分布式数据库查询处理和优化的相关知识 |
2.1 分布式数据库系统 |
2.2 分布式数据库模式结构 |
2.3 分布式查询优化概述 |
2.3.1 集中式查询优化与分布式查询优化 |
2.3.2 分布式查询处理 |
2.3.3 查询优化 |
2.3.4 查询代价分析和估算方法 |
2.4 关系的静态特性 |
2.4.1 物理关系的静态特性 |
2.4.2 代数操作对静态特性的影响 |
2.5 分布式查询优化算法 |
2.5.1 基于关系代数等价变换的查询优化算法 |
2.5.2 基于半连接操作的查询优化算法 |
2.5.3 基于直接连接操作的查询优化算法 |
3 改进的半连接算法 |
3.1 索引 |
3.2 二次半连接的算法 |
3.3 二次半连接算法优点 |
3.4 基于二次半连接的主键连接表算法 |
3.5 算法性能分析 |
4 基于改进二次半连接的查询图分割算法 |
4.1 查询图及其生成树 |
4.2 带冗余条件表达式的查询图 |
4.3 多关系连接算法 |
4.3.1 Chain算法 |
4.3.2 Kruskal算法 |
4.4 基于改进二次半连接的查询图分割算法 |
4.4.1 Kruskal算法存在的问题 |
4.4.2 查询图分割算法 |
4.4.3 带冗余条件的查询图(QGq+)的分割 |
4.4.4 基于改进二次半连接的查询图分割算法的具体实现 |
5 实验与性能分析 |
5.1 实验样本 |
5.2 性能分析 |
结论 |
参考文献 |
作者简历 |
学位论文数据集 |
(9)查询优化技术研究及在油井施工设计中的应用(论文提纲范文)
摘要 |
Abstract |
1 绪论 |
1.1 研究背景 |
1.2 国内外研究现状 |
1.3 本文工作 |
1.4 本文组织 |
2 油井施工设计系统研发 |
2.1 系统整体介绍 |
2.1.1 施工方案设计模块 |
2.1.2 自动绘图模块 |
2.1.3 综合查询模块 |
2.1.4 其他模块功能 |
2.2 系统软硬件环境 |
2.2.1 硬件条件 |
2.2.2 软件环境 |
2.2.3 数据库环境 |
2.3 系统效率问题 |
2.4 查询优化的必要性 |
3 两段式查询优化算法设计 |
3.1 基于代价的查询优化 |
3.1.1 优化的算法和准则 |
3.1.2 DBMS查询优化器的作用 |
3.1.3 多连接查询的优化 |
3.2 并行查询技术 |
3.3 基于响应时间的多线程并行查询 |
3.3.1 分段大表的多线程查询 |
3.3.2 结合的多线程查询 |
3.3.3 分组聚合函数的多线程查询 |
3.3.4 排序的多线程查询 |
4 两段式查询优化在系统的实现 |
4.1 系统需求 |
4.2 算法实现 |
4.2.1 基于代价优化算法实现 |
4.2.2 基于响应时间优化算法实现 |
4.3 多线程编程 |
4.4 大表的分段和维护 |
5 优化效果测试与分析 |
结论 |
参考文献 |
攻读硕士学位期间发表学术论文情况 |
致谢 |
(10)募捐管理系统中分布式查询优化的设计与实现(论文提纲范文)
摘要 |
ABSTRACT |
第1章 绪论 |
1.1 课题的项目背景和理论背景 |
1.2 国内外对分布式数据查询研究的现状 |
1.2.1 国外研究的现状 |
1.2.2 国内研究的现状 |
1.3 本文的主要工作 |
1.4 论文组织结构 |
第2章 分布式数据库系统概述 |
2.1 分布式数据库系统的定义和特点 |
2.1.1 分布式数据库系统的定义 |
2.1.2 分布式数据库系统的基本特点 |
2.1.3 分布式数据库的导出特点 |
2.2 分布式数据库系统的分类 |
2.2.1 按局部数据库管理系统的数据模型分类 |
2.2.2 按全局控制系统分类 |
2.3 分布式数据库管理系统的功能和组成 |
2.3.1 分布式数据库管理系统的功能 |
2.3.2 分布式数据库管理系统的组成 |
2.4 分布式数据库系统的结构 |
2.4.1 分布式数据库系统的体系结构 |
2.4.2 分布式数据库系统的模式结构 |
2.5 分布式数据库系统中数据分片和数据分布 |
2.5.1 关系分类 |
2.5.2 数据分片 |
2.5.3 数据分布 |
2.6 本章小结 |
第3章 募捐管理系统查询优化总体设计 |
3.1 募捐管理系统的总体架构 |
3.2 募捐管理系统查询优化 |
3.2.1 募捐管理系统查询优化所要考虑问题 |
3.2.2 分布式查询优化的目标和代价估算 |
3.3 查询统计模块 |
3.4 分布式查询优化算法分析 |
3.4.1 基于关系代数等价变换的算法 |
3.4.2 SDD_1算法 |
3.4.3 直接连接操作的优化方法 |
3.4.4 半连接优化算法 |
3.4.5 基于查询图的贪婪算法分析 |
3.4.6 遗传算法 |
3.5 募捐管理系统查询优化总体设计 |
3.5.1 Oracle环境下分布式数据库的实现 |
3.5.2 半连接-遗传算法的基本思想与总体设计 |
3.6 本章小结 |
第4章 分布式查询优化的详细设计与实现 |
4.1 Oracle数据库的实现 |
4.1.1 募捐管理系统表结构及数据分布 |
4.1.2 链接分布式Oracle数据库 |
4.2 半连接算法和遗传算法详解 |
4.2.1 半连接应用分析 |
4.2.2 遗传算法原理 |
4.3 半连接-遗传算法流程详细设计 |
4.3.1 连接树的构造 |
4.3.2 遗传算法优化的设计 |
4.3.3 半连接优化 |
4.4 半连接-遗传算法的总体实现 |
4.5 本章小结 |
第5章 分布式查询优化算法性能分析 |
5.1 查询实例 |
5.2 模拟过程 |
5.2.1 实验场景 |
5.2.2 实验的步骤和运行参数的选取 |
5.2.3 实验的结果 |
5.3 性能评价 |
5.3.1 理论分析 |
5.3.2 实验结果分析 |
5.4 本章小结 |
第6章 结论 |
6.1 工作总结 |
6.2 需要解决的问题 |
参考文献 |
致谢 |
四、分布式数据库中的限定关系代数变换(论文参考文献)
- [1]支持SQL查询的差分隐私保护模型研究[D]. 常朝珍. 大连海事大学, 2020(01)
- [2]跨平台统一大数据智能化SQL查询系统研究与实现[D]. 张仪. 南京大学, 2020(02)
- [3]基于分布式关系型数据库的查询算法优化[D]. 樊敏. 电子科技大学, 2020(07)
- [4]面向语义描述与数据查询的大数据组织方法及其关键应用技术研究[D]. 王新阳. 华南理工大学, 2018(02)
- [5]分布式数据库中空间拓扑连接查询优化处理方法研究[J]. 林沣. 计算机应用与软件, 2013(11)
- [6]分布式数据库查询优化研究[D]. 余弋. 安徽工程大学, 2011(05)
- [7]分布式数据库的查询优化方法设计与实现[D]. 张瑞芳. 电子科技大学, 2010(04)
- [8]分布式数据库查询优化算法的研究[D]. 张伟. 辽宁工程技术大学, 2009(03)
- [9]查询优化技术研究及在油井施工设计中的应用[D]. 左杰. 大连理工大学, 2008(05)
- [10]募捐管理系统中分布式查询优化的设计与实现[D]. 王天宝. 东北大学, 2008(03)