导读:本文包含了查询处理优化论文开题报告文献综述及选题提纲参考文献,主要关键词:云计算,多租户,数据即服务,负载集成
查询处理优化论文文献综述
肖垚[1](2019)在《面向数据市场的多租户查询负载优化处理技术》一文中研究指出随着数据的价值受到越来越多的关注,数据市场也逐渐被更多的用户接受。数据市场运用数据即服务(Data-as-a-Service,Daa S)的新型云服务模式,用户不需要考虑系统资源配置和数据来源,只需要在数据市场中找到并订阅所感兴趣的数据。然后就可从中查询到相应的信息,服务提供商需要提供相应的硬件资源和软件服务来维持和保证租户的服务请求。为了节约成本,他们需要提高资源复用率,让有限的资源能同时为更多用户提供服务,在资源复用的同时可能会降低对一些租户服务的质量。为了确保数据市场中的服务质量,每个租户都会与数据服务提供商签订服务水平协议(Service Level-Agreement,SLA),在SLA中规定付费方式以及相应的服务价格模型。数据服务提供商要想从自己提供的服务中获得收益,必须能使租户最终得到的服务质量能满足协议标准,否则会受到相应的违约处罚。如何有效地进行服务优化,提高系统资源利用率和租户查询处理效率从而最大化平台收益,已经成为服务提供商关注的重点问题。服务提供商希望用较少的成本尽可能满足所有租户的服务要求,当总资源被多个租户共享时,一个租户对资源占用就会导致其他租户的服务受到影响,收益也因此受到影响。本文以服务提供商收益最大化为准则,综合租户需求各异性特点,对多租户负载集成和查询调度两方面问题展开研究与讨论,主要工作和贡献包括:1.针对现有Daa S价格模型的不足,提出了一个更符合服务商利益和租户需求的价格模型。新的价格模型下,根据“单位数据量需要的查询时间”收费。服务提供商想要获得最大收益,则需要综合考虑租户查询执行的时间与租户订阅数据集的大小,这不但关系到查询执行的速度,同时也关系到查询关联的数据集对系统资源的占用。对于租户,新的价格模型有助于了解所订阅服务的质量,知道自己提交查询的相对处理速度。2.设计了基于动态规划的负载集成机制。在数据即服务中,所有的负载“抢占”一份系统资源,因此可以通过对租户负载进行高效集成的方式提高系统资源复用率。本文结合价格模型,根据已有的租户行为及负载的历史分析成果,考虑利用不同数据库引擎对于相同负载执行性能的差异。通过动态规划的思想,找出对于系统收益而言,“性价比”最高的负载集合,将这部分负载集成到内存数据库,其余负载集成到磁盘数据库。内存引擎对于租户负载的处理效率高于磁盘引擎,同等情况能为系统带来更多的收益,因此需要提高负载在内存引擎中的集成度。3.设计了基于滑动窗口的查询调度机制。服务过程中,查询排队等待系统执行时,需要对排队的作业负载进行合理地调度。一方面可以提高资源的利用率,让有限的资源服务更多的租户。另一方面,减少查询的等待时间,提高服务提供商的收益。本文基于滑动窗口的策略,对滑动窗口内的排队请求进行充分考虑,基于可能的预期收益情况,制定一个调度序列,在保证系统收益同时使得租户查询尽可能少得延迟。4.利用以上提出的两种机制,结合提出的价格模型,构建一个Daa S查询负载处理系统原型。同时,利用TPC-H与TPC-DS基准测试数据集,对相关方法的有效性进行了测试与衡量。综上所述,本文研究了数据市场模式中多租户服务问题,研究了多租户负载集成和查询调度技术。通过动态规划思想的负载集成机制和基于滑动窗口的查询调度机制使得多租户服务性能得到改善,服务提供商收益得到提升。并提供相应数据集进行测试,验证了本文提出的方法在应用中能取得良好的效果。(本文来源于《华东师范大学》期刊2019-05-01)
张引红[2](2018)在《分布式数据库查询处理和优化算法》一文中研究指出分布式数据库系统是数据系统和计算机网络相互结合的产物,其主要目的就是实现计算机网络中数据分布和处理。如果查询过程处于分布式环境,因为查询涉及到的关系一般都被分片或者复制到多站点,所以计算代价的过程中不仅要全面考虑CPU和I/O的速度,还要全面考虑数据在站点之间通信过程中的网络传输代价。查询过程中的连接操作具有较高的通信代价,需要实现分布式数据库的有效处理连接,以便实现分布式查询处理的优化。(本文来源于《微型电脑应用》期刊2018年09期)
邱慧[3](2018)在《RDF数据分布式查询处理与优化方法研究》一文中研究指出RDF资源描述框架由于其表示的灵活性和天然的图数据模型变得越来越流行。与此同时,RDF数据的数据量也在飞速增长。由于数据量的增长,已经超出了单机处理能力的限制,从而激发了分布式存储查询的需求。基于这一背景,本文着重研究了RDF数据分布式查询处理和优化问题。本文的主要研究内容可以概括为几个方面:首先提出了一种新的基于Spark Graph X的SPARQL查询处理方法SQX。将RDF数据视为一个带标签的属性图,通过图并行计算的方式实现SPARQL查询处理。SQX采用了一种新的“查询树匹配”+“结果过滤”的方法,对每一个查询产生查询树和非树边。基于Spark Graph X实现的Pregel接口,查询树采用自底向上分层匹配的方式可以在一个超级步中处理多个叁元组模式的迭代,最后使用非树边对迭代过后的结果进行过滤得到最终的结果。在完成基本的SPARQL查询的基础上,我们实现了对Filter、Optional和Union等SPARQL功能的支持。其次在SQX的基础上,提出了一种新的基于统计代价估计的SPARQL查询优化算法。不同的叁元组执行顺序对应不同的数据传输代价,查询优化可以为查询选择最优的迭代顺序,缩短执行时间。采用了统计的边权值分配策略为每条边分配一个合理的权值,并基于属性对词频自底向上对权值进行更新并估计查询代价,在迭代轮数相同的情况下,代价最小的执行计划将被作为最终的查询评估方案。然后实现了SPARQL近似查询的功能。当用户对底层知识库没有足够理解的情况下,用户的查询可能不能返回正确的结果。提出了一种基于知识向量化表示的近似查询方案,构造和用户表达最相似的查询。最后对于本文提出的所有算法进行了具体的实现,同时通过大量实验来验证算法的性能。实验结果表明,算法具有良好的查询效率和优化性能。(本文来源于《哈尔滨工业大学》期刊2018-06-01)
肖晟晨[4](2017)在《基于MapReduce大数据表连接查询处理算法优化与设计》一文中研究指出近几年,互联网的普及带来了数据量增长,大数据的概念越来越被人们所接受。大数据所具有的潜力受到个各行各业肯定,研究相关的分析处理技术越来越受到重视。谷歌推出的GFS和MapReduce两个技术,由于其高可用性,使得该框架成为了最热门的大数据处理手段。Hadoop是谷歌技术的开源实现,在开源项目里也是最热门的项目之一。MapReduce编程框架是分布式计算框架,它在保证了高效的并行协调机制和高容错性的同时,向用户提供了一个相对简单编程过程。查询是数据处理的基本操作,而连接在查询操作中使用频率是最高的,因此数据表的连接操作的改良对MapReduce框架性能的提升有着重要的意义。然而由于此并行编程框架的计算特性,使其在处理连接操作时有诸多局限性,在多表连接的情况下效率更是低下。在本文中提出了一个利用共享信息减少中间数据的网络传输的两表连接算法,在此基础上提出了利用流水线模型提高多任务的并发性,来优化由多个两表连接的构成的多表连接。首先针对传统两表连接,在网络传输过程中冗余数据过多的缺陷,提出了一个基于连接键信息共享的两表连接算法。该算法的思路是在传统连接算法基础上,加入利用“背景”数据过滤冗余数据的步骤。利用Bit-Map算法对其中一个表的连接键信息进行压缩,制成用于共享的“背景”信息,利用分布式缓存机制进行共享。之后再进行两表连接时,在Map函数中通过共享信息将另一个表中无法连接的元组进行剔除,从而减少了在网络中传输中间结果的数据量,提高了传输效率缩短了响应时间其次由于传统多表连接算法只能顺序执行连接任务,从而导致任务等待时间过长,造成了系统资源浪费。针对这一问题,本文引入流水线模型来优化算法,使其能够并行执行连接任务,进一步的优化了多表连接算法。通过利用任务调度器,协调多个任务并发,合理的利用不同表之间利用Map机群和Reudce机群运行时间上的空档,提前执行MapReduce任务,增强了系统的并行性,与此同时,为了进一步提高连接效率,对连接顺序的选取策略进行了研究,以期充分发挥基于共享信息的流水线模型优化算法的优势,通过调整多表之间的连接顺序,达到减少中间结果的目的。在文章最后,为了验证算法的有效性,搭建了Hadoop平台,在算法的响应时间上,与原框架下的算法进行了对比。(本文来源于《北京工业大学》期刊2017-05-01)
李祖立[5](2017)在《基于数据动态分配的XML查询处理优化技术研究与实现》一文中研究指出XML作为一种结构化的语言,定义了Web上数据表示与数据交换的一种规范,越来越广泛地被应用。当今数据呈爆发式的增长并且形式复杂化、多样化,海量数据的XML文件处理显得越发重要。如何高效地处理海量XML数据在当下具有重要的意义和广泛的应用前景。目前处理大规模数据集的典型方法主要还是采用分布式处理,在云计算和与大数据处理中,Hadoop是一个典型的分布式处理支撑框架,使用Hadoop的MapReduce计算模型来进行XML的结构化连接查询处理,是一个重要研究问题。由于XML的结构特性,当今已经成熟的关系数据库领域的技术无法有效地应用到XML查询处理上,本文实现了一种原生XML数据库系统,包括海量XML数据的存储模型以及查询处理方法,并在此基础上对查询优化处理技术进行研究。本文首先对已有的一种基于MapReduce的XML结构连接处理算法,从数据分布的角度对MapReduce的数据放置和分区策略进行优化。查询处理过程包括两个阶段:Map阶段和Reduce阶段。在Map阶段中,根据XPath语句的使用频率,通过聚类的方法将关系紧密的文件放置在一起;在Reduce阶段中,通过曲线拟合的方法使得程序能够自动地估计出参数,把数据相对均匀地分配到各个计算节点中,达到最大化的效率;并进一步开展负载均衡研究工作,提高查询的效率。最后在DXQS上实现了优化算法,通过对优化后的系统进行实验评估,结果表明基于数据动态分配优化后的算法有效地提高了整体查询效率。(本文来源于《华南理工大学》期刊2017-04-20)
江宇[6](2016)在《Top-k查询处理优化技术研究》一文中研究指出搜索引擎的出现,使用户能够在当今海量网页中准确定位并实时查看所需信息,其重要性日益凸显。目前大型搜索引擎拥有的网页数据已达PB级别并每日处理成千上万的查询请求,使得系统在查询处理过程中耗费大量时间和硬件资源。因此,近年来针对查询处理优化的相关研究得到了工业界和学术界的重点关注。Topk查询是搜索引擎领域广泛应用的技术之一,该算法从海量数据中返回最符合用户需求的前k个结果,在执行时能避免对大部分无关文档的打分处理。Top-k查询虽然极大提升了系统性能,但在索引结构、文档过滤策略和文档估分方式等方面仍存在问题。因此,本文将着重于搜索引擎的top-k查询处理技术的优化研究,具体内容描述如下:(1)在自索引结构的基础上,对多层自索引结构进行了分析与设计。此结构以定长元组为单位,使用迭代的方法提取数据段同步点形成上层自索引,实现了倒排索引的随机访问,能够有效支持当前两个经典的top-k查询处理算法MaxScore和WAND算法。实验证明,该结构大幅减少了解压数据块的数量,能明显提升查询处理的性能。同时,基于多层自索引结构实现了索引压缩与查询系统,该系统具有可扩展性,为后续top-k查询处理优化算法研究与验证奠定了基础。(2)针对top-k查询处理算法的慢启动问题,在对MaxScore和WAND算法原理分析的基础上,提出了基于阈值的快速启动top-k查询处理算法。优化后的算法首先提取倒排索引的静态top-k信息,再动态计算针对具体查询词项的初始阈值,避免了对大量弱相关文档的冗余处理。实验证明,该算法能够有效估算初始阈值,在保证安全性的条件下显着减少了进入结果堆的文档数量。(3)针对top-k查询处理过程中文档分数上限的计算问题,提出了基于线性规划的top-k查询处理优化算法。该算法将每个查询子集能够获得的最大分数视作目标函数,以查询词项之间限制条件作为约束条件,将上述问题抽象为求线性规划最优解的数学模型。实验结果表明,优化后的算法既保证了安全性,又能够有效降低候选文档的分数上限。(本文来源于《国防科学技术大学》期刊2016-10-01)
吴彦[7](2016)在《科学数据查询的可视化构建及查询处理优化技术》一文中研究指出海量科学数据的到来使领域科学家面临前所未有的科学数据管理困境。一方面,传统以表为数据模型的关系型数据库管理系统已经不能满足科学领域大规模科学数据的管理需求;另一方面,数据分析任务通常以分析型查询语句的形式表示,然而对于非计算机专业背景的领域科学家而言,使用查询语言编写复杂查询语句依旧比较困难。为领域科学家提供大规模科学数据的管理分析及可视化查询构建支持,简化领域科学家对于科学大数据的管理工作,同时,优化复杂查询处理技术,提高复杂查询处理效率,具有十分重要的应用价值和研究意义。本文结合科学数据的管理需求与分析型任务的特点,对科学数据查询的可视化构建及查询处理技术进行了深入研究和性能优化。主要研究内容包括(1)对科学数据管理技术及科学数据常用查询模式进行分析,同时结合可视化查询编制技术,提出了科学数据的可视化构建策略;(2)设计并实现了一个支持任务可视化构建的科学数据分析系统FASTDS,并在天文学领域进行了应用与验证;(3)提出了chunk大小选择策略,加快数据加载的同时保证了查询性能不受影响;(4)使用了多查询调度加单查询优化及多查询优化两条技术路线对系统的多查询处理进行了优化。(本文来源于《贵州大学》期刊2016-06-01)
王全想[8](2015)在《审计数据中心数据处理与查询的性能优化研究》一文中研究指出计算机技术在审计领域的应用日趋广泛。审计工作的进行需要各被审对象提供数据,但是各被审对象提供的数据具有异构性。以某省联网审计系统为例,数据在进入数据中心之前需要进行数据预处理。但数据处理耗时长,处理期间联网审计人员几乎不能基于最新数据展开审计工作,导致联网审计时效性比较弱,且审计时生成疑点的速度较慢。本文从审计数据中心建设与应用所面临的性能问题出发,结合实际情况重点研究审计数据中心的数据预处理和查询两方面的性能优化。预处理方面,面对审计大数据,构建预处理集群进行并发处理。为了尽可能满足联网审计平台对时效性的高要求,本文建立了评价审计方法重要程度的指标体系,并利用该体系对审计方法重要程度进行计算。然后依据审计方法重要程度对其所需数据进行优先、关联处理。在指派处理节点时,将数据处理任务按预期执行时间尽量均衡地指派到各个节点上,缩短数据处理任务的整体完成时间。从而提前基于最新数据审计的开始时间、结束时间,增强联网审计平台的时效性,提高审计效率。最后本文提出了一种增强审计时效性的数据处理调度算法。查询优化方面,依据审计数据特点,利用关系代数优化规则对审计方法进行重写优化,利用DB2索引访问机制对审计库进行索引优化。最后将设计的算法和方案投入到运行的审计数据中心中,使审计数据中心的数据处理与查询的性能得到了显着提升。(本文来源于《哈尔滨工程大学》期刊2015-12-01)
刘果,田晗,张国宾[9](2015)在《无人机探测信息处理系统数据查询优化的研究》一文中研究指出大数据查询经常出现系统响应时间过长、系统资源占用过多等一系列问题,是无人机探测信息处理系统处理性能的瓶颈。系统采用了一系列查询优化技术:合理设计表结构、内存优化、索引技术、分区技术等,从而实现数据查询的高效性、稳定性。(本文来源于《电子技术与软件工程》期刊2015年11期)
郑平奎[10](2015)在《面向生物序列的近似最长公共子序列查询处理与优化》一文中研究指出随着数据存储与信息化技术的迅速发展,生物序列数据库的数据量呈现井喷式增长,生物序列上的近似查询难度越来越大。虽然有多种方法度量两个序列的相似度,但是普遍关注的方法是用最长公共子序列长度来衡量两个生物序列相似度。然而,求解两个序列的最长公共子序列长度的时空代价都比较大,尤其是在海量的生物序列上。因此直接运用现有的最长子序列算法势必影响查询性能,设计出性能优越、过滤效果优秀的过滤算法,是解决生物序列上近似最长公共子序列查询处理的最佳选择。本文总结分析现有两个序列的最长公共子序列算法,根据这些算法的特点,选择性地应用在近似最长公共子序列查询处理的验证过程中。首先,针对长序列上的近似最长公共子序列查询处理问题,设计了长序列上的最长公共子序列基本过滤算法。通过使用扭转过滤优化策略和计数过滤优化策略,使得优化后的BTC_Filter算法过滤效果显着提升。结合位并行技术,将BTC_Filter算法位并行化,其性能显着提高,最终提高了长序列上近似最长公共子序列查询处理的速度。其次,针对短序列集合上的近似最长公共子序列查询处理问题,设计了短序列集合上的LCSIndex索引结构,以及基于此索引的过滤算法BRD_Filter算法。通过向右偏移控制策略和双向同时过滤策略使得BRD_Filter算法的过滤效果达到90%,有效地减少了过滤结果集的规模,缩短了短序列集合上的近似最长公共子序列查询处理时间。最后,在真实数据集上进行了大量的测试,实验结果显示:对于长序列上的近似最长公共子序列查询处理,运用了BTC_Filter过滤算法的查询处理时间明显少于直接运用最长公共子序列求解算法;BTC_Filter算法位并行化之后的运算速率显着提升;对于短序列集合上的最长公共子序列查询处理,运用了 BRD_Filter过滤算法的查询处理速度快于直接运用最长公共子序列求解算法。(本文来源于《东北大学》期刊2015-06-01)
查询处理优化论文开题报告
(1)论文研究背景及目的
此处内容要求:
首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。
写法范例:
分布式数据库系统是数据系统和计算机网络相互结合的产物,其主要目的就是实现计算机网络中数据分布和处理。如果查询过程处于分布式环境,因为查询涉及到的关系一般都被分片或者复制到多站点,所以计算代价的过程中不仅要全面考虑CPU和I/O的速度,还要全面考虑数据在站点之间通信过程中的网络传输代价。查询过程中的连接操作具有较高的通信代价,需要实现分布式数据库的有效处理连接,以便实现分布式查询处理的优化。
(2)本文研究方法
调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。
观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。
实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。
文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。
实证研究法:依据现有的科学理论和实践的需要提出设计。
定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。
定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。
跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。
功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。
模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。
查询处理优化论文参考文献
[1].肖垚.面向数据市场的多租户查询负载优化处理技术[D].华东师范大学.2019
[2].张引红.分布式数据库查询处理和优化算法[J].微型电脑应用.2018
[3].邱慧.RDF数据分布式查询处理与优化方法研究[D].哈尔滨工业大学.2018
[4].肖晟晨.基于MapReduce大数据表连接查询处理算法优化与设计[D].北京工业大学.2017
[5].李祖立.基于数据动态分配的XML查询处理优化技术研究与实现[D].华南理工大学.2017
[6].江宇.Top-k查询处理优化技术研究[D].国防科学技术大学.2016
[7].吴彦.科学数据查询的可视化构建及查询处理优化技术[D].贵州大学.2016
[8].王全想.审计数据中心数据处理与查询的性能优化研究[D].哈尔滨工程大学.2015
[9].刘果,田晗,张国宾.无人机探测信息处理系统数据查询优化的研究[J].电子技术与软件工程.2015
[10].郑平奎.面向生物序列的近似最长公共子序列查询处理与优化[D].东北大学.2015