聚合查询论文-杨宁,许嘉,吕品,李陶深

聚合查询论文-杨宁,许嘉,吕品,李陶深

导读:本文包含了聚合查询论文开题报告文献综述及选题提纲参考文献,主要关键词:乱序数据流,混合处理模型,聚合查询,分布式查询处理

聚合查询论文文献综述

杨宁,许嘉,吕品,李陶深[1](2019)在《基于混合处理模型的乱序数据流分布式聚合查询处理技术》一文中研究指出为了解决现有的乱序数据流聚合查询处理技术不能在降低查询处理延迟,同时保障聚合查询结果的最终正确性的局限性问题,本研究设计了混合嵌入分布式流处理模块和分布式批处理模块的乱序数据流分布式聚合查询处理技术。该技术一方面基于用户给定的结果质量,限制自适应地优化流处理模块所用的缓冲区大小,从而尽可能降低流处理的查询处理延迟;另一方面基于备份于分布式数据存储系统的历史流数据,并以批处理的方式实现对极其晚到流元组的查询处理,从而保障聚合查询结果的最终正确性。基于真实的乱序数据流数据集对该技术进行测试分析表明:该技术在平均查询处理时延、查询结果精度和系统可扩展性方面,比目前最好的基于缓存的乱序数据流处理技术均具有显着优势。(本文来源于《广西科学》期刊2019年04期)

陈东辉,陈岭,王俊凯,吴勇,王敬昌[2](2018)在《不确定性数据上聚合查询的近似算法》一文中研究指出随着大数据时代的到来,不确定性数据上的聚合查询面临形式多样、计算复杂等挑战。该文将不确定性数据上聚合查询的结果定义为所有可能的值以及对应的概率。基于动态规划思想的求解"和"的分布(distribution sum,DSUM)精确算法,提出贪心的"和"的分布(greedy distribution sum,GDSUM)和折半合并的"和"的分布(binary merge distribution sum,BMDSUM)的近似算法,这2种算法都能应用于元组级不确定性模型和属性级不确定性模型;并通过理论分析,给出算法的时间和空间复杂度以及最终结果的误差范围。实验结果表明:误差设定为1%时,2种近似算法分别能缩短执行时间15%~21%和22%~32%。(本文来源于《清华大学学报(自然科学版)》期刊2018年03期)

张轩[3](2016)在《大数据背景下基于抽样的近似聚合查询优化技术研究与实现》一文中研究指出近年来,聚合查询成为大数据分析的重要手段,在电子商务、金融分析、网络搜索和医疗服务等很多领域发挥着重要的作用。但是,随着数据量的不断增加,在海量数据的背景下,用户对聚合查询的实时性及可靠性要求高,对聚合查询技术提出了很大的挑战。本文针对大数据环境下聚合查询的抽样技术进行了研究,取得了如下的研究成果:(1)由于大数据环境下精确聚合查询需要遍历所有数据开销很大,因而在满足用户误差的需求下的近似聚合查询成为当前聚合查询的重要技术之一,也称为误差限定的近似聚合查询,该方法通过抽样来实现。但是,当前应用于聚合查询的抽样技术在大数据背景下表现较差,特别是高维度数据。本文将分层抽样应用于聚合查询,提出了基于分层抽样的在线大数据聚合查询方法,应用于二维数据的KMeans算法中,减少了限定误差条件下的抽样样本大小,比之前迭代式的抽样方法的样本量平均减少了一半左右。(2)稀疏数据是当前较多的一类数据,即数据范围相对于数据量较大,在当前已有的稀疏数据抽样方法的基础上,本文提出了基于队列的启发式的分层抽样优化方法,并对得到的分层方案使用爬山法进一步优化,在时间复杂度不变的情况下,比之前的方法的抽样样本量分别减少了20%和30%。(本文来源于《国防科学技术大学》期刊2016-11-01)

李佳[4](2015)在《大数据环境下聚合查询优化技术的研究与实现》一文中研究指出近年来,大数据分析技术已经成为信息领域的重要研究课题之一,在网络搜索、电子商务、金融分析和医疗服务等很多领域都有着广泛应用。聚合查询是一类重要的大数据分析技术。一般来说,聚合查询(有时称为数据的聚合)是通过一个聚合函数(如SUM,AVG,COUNT等等)分析数据并对分析结果进行总结的过程。在大数据背景下,数据量巨大,用户对查询速度要求高,对聚合查询技术提出了很大的挑战。本文针对大数据环境下聚合查询优化技术进行了研究,取得了如下研究成果:(1)在大数据环境下通过遍历数据集的方式进行聚合查询需要消耗大量的时间,而用户对聚合查询有着较高的实时性要求,因此,基于采样的近似聚合查询技术受到越来越广泛的关注。如何在快速获得近似结果的同时又能保障近似结果的准确性成为了一项具有挑战性的工作。本文提出了一种增量式样本扩容与误差估计方法IBML。IBML利用bootstrap技术对近似结果进行准确性评估,当估计误差不满足用户要求时,利用Hoeffding方程进行交互式样本扩容,直到估计误差满足用户定义的误差范围。我们将IBML部署在Spark平台上,并实现了IBML接口。实验结果表明,与现有方法EARL相比,IBML将近似聚合查询的速度提升了两倍。(2)在实时聚合查询过程中需要不断地将历史数据和新到达的数据进行整合,而历史数据庞大,整合过程需要大量的时间,严重影响实时聚合查询的效率。因此,高效的实时聚合查询成为聚合查询研究中的重要问题。本文提出了一种适用于历史数据增量式增长的轻量级并行索引结构IndexStream,通过对弹性分布式数据集建立平衡多叉树索引,提高了聚合查询的速度,而平衡多叉树索引结构本身带来的存储开销极小。我们将IndexStream在Spark Streaming上进行了实现,搭建并部署了适合在线的实时聚合查询的数据分析平台NRT。实验结果表明,IndexStream能够显着提升聚合查询的查询速度,为实时聚合查询节约了大量的时间。(3)集群中Straggler现象的出现严重影响了聚合查询的速度,降低了聚合查询的效率。因此,减少聚合查询作业中Straggler的问题成为了聚合查询优化中必不可少的工作。本文提出了分布式环境下Straggler的风险预测模型和缓解方法Hummer,通过收集集群中各个节点的历史信息,采用这些历史信息建立Straggler的风险预测模型。并设计了一种基于任务部分克隆的方法,以缓解大规模集群中Straggler带来的延迟。实验结果表明,Hummer比现有方法LATE快了46%,比Dolly方法快了18%。(本文来源于《国防科学技术大学》期刊2015-11-01)

黄雄波[5](2015)在《时态数据的聚合查询及应用》一文中研究指出在SQL结构化查询语言中,所有针对数据表某列或多列的数据分析统称为聚合查询。基于传统的关系数据库管理系统(RDBMS)的基础上,对时态数据的聚合查询问题进行了深入的分析,通过引入时态聚合子区间的概念,并定义与之相匹配的数据结构,设计实现了一种时态数据的聚合查询算法。实际应用表明,该算法可行、有效。(本文来源于《智能计算机与应用》期刊2015年03期)

张思思[6](2015)在《基于抽样的大数据聚合查询系统的研究与实现》一文中研究指出关于大数据的研究,近几年已经迅速成为了学术界和工业界广泛关注的焦点。用户希望通过对大数据的分析处理挖掘出隐藏在数据间的关联关系,获得更多深入的、智能的、有参考价值的信息。由于其数据量大且稀疏的特性,使得传统的精确查询系统难以满足用户在效率上的要求。与此同时,用户在针对大数据进行分析挖掘时所提出的查询可以理解为目的性不够明确的探索性查询,其特点为:用户对其结果的准确性要求并非十分严格。为了支持面向稀疏型大数据的分析及挖掘,有必要开发一个探索性查询处理系统,实现敏锐的发现及快速的探索。我们依次通过理论研究、算法设计、系统实现以及实验验证等阶段,最终初步完成了该查询系统。该系统可根据用户的历史查询行为,提供个性化样本更新;希望在总体误差的约束内获得近似的查询结果,以权衡查询结果的准确性和误差率。论文将重点阐述该查询系统中的关键技术:基于抽样技术的稀疏型大数据的聚合查询优化算法。为此,以真实可靠的数据集为应用背景,在以下几个方面进行了相关研究。首先,从数据角度对原始数据处理进行理论分析,从查询角度对用户聚合查询模式进行理论分析,从而完成对该系统的理论性定位。创建分层样本前需要对查询的模式进行分类,以确定历史查询与未来查询相似性的假设关系,避免过度拟合的情况发生。通过对数据以及查询的理论分析,该系统最终选择可预测查询列集(Predictable Query Column Sets)模型指导数据样本的创建,实现对查询结果在效率上的提升。其次,确定系统的整体结构设计,分为离线计算以及在线计算这2部分。其中,离线部分完成样本池的创建,样本池将通过该系统的样本创建模块完成。抽样方案设计为简单随机抽样(SimpleRandom Sample,SRS)与分层抽样(Stratified Sample)相结合的形式,通过解决合理选择分层样本的分层查询列集(Query Column Sets,QCSs)以及确定分层样本中各组的元组个数等问题,完成样本池的创建。系统的在线部分完成用户实时到来的查询。该查询将通过系统的样本选择模块完成。用户查询请求给定的误差率及置信度确定了样本池中样本的选择及被选择样本的二次分割量,基于最终样本完成查询计算。然后,用户查询中涉及的属性组合将被统计与分析,直接影响样本池更新时查询列集的分布,从而影响样本的创建。系统希望为用户在各方面提供个性化的优化服务。最终,将系统部署于MySQL Cluster上,完成对数据的分布式处理。该系统将电影评分数据作为原始数据,通过样本创建及样本选择,实现了对用户查询请求的高效反馈,且查询结果符合用户的误差约束条件。并且,通过模拟的查询请求测试集对系统“个性化”服务的适应性进行了测试。结果表明,随着用户关注属性的变化,呈现了与之相适应的样本集合。整体看来,该系统较传统的精确查询系统更加适合于稀疏型大数据的分析与信息挖掘。(本文来源于《东北大学》期刊2015-06-01)

郑知卉[7](2012)在《关系数据库模糊聚合查询方法研究》一文中研究指出现有的数据库大多是关系型的数据库,若将其改造为模糊数据库既费时又费力,因此在关系型数据库基础上进行模糊查询显得更为实际,也更具有现实意义。传统的关系型数据库只能表示和处理精确数据,通过条件组合和扩展并不能查询自然语言中的模糊概念,所以要对现有的SQL语言进行扩展,使其能处理模糊的查询条件。用户在应用一些数据库系统进行查询时,总会遇到想得到的结果集合不大,可查询所涉及的记录集合却很大的问题。模糊查询方法的出现加剧了查询结果的容量,这就会使数据库的利用率降低,用户的使用效率也会同时降低。因此在模糊查询的基础上提出通过利用聚合函数的查询方式来改善模糊查询效率不高的问题。本文主要研究了关系数据库模糊聚合查询的问题。首先本文提出了简单模糊聚合查询,应用SQL语言中的HAVING语句进行了模糊聚合查询的扩展,通过对分组数据进行聚合操作,来实现对数据结果集的缩小控制。然后,在模糊聚合查询中引入了权重的概念,提出了加权值模糊聚合查询,用权值来表示聚合查询中各个条件的相对重要程度,反应它们对查询的不同影响程度。本文实现了模糊聚合简单查询和加权查询,并详细讨论了模糊SQL语句的去模糊机制。最后,通过实验验证了模糊聚合查询方法的有效性。本文的工作实现了利用现有关系数据库来处理模糊聚合查询的方法,进一步对模糊查询理论体系进行了丰富与完善。(本文来源于《东北大学》期刊2012-06-01)

Agnes,Manirakiza[8](2011)在《P2P网络环境下高效的基于语义的OLAP聚合查询》一文中研究指出现在,在分布式系统中实现资源检索和共享的最基本方法是联机分析处理(OLAP), OLAP是建立在数据仓库基础之上的一个多维分析和决策支持工具。OLAP也是用户获取决策支持的主要手段。数据仓库是从不同的数据源收集了很长的时间,包含大量的数据信息。在这样的环境中查询性能是一个严峻的考验,重要的是关连查询是复杂、独立的,并且需要处理大量的数据。传统的数据库系统采用了客户——服务器构架,其中客户端发送查询请求到数据库服务器。在此构架下,服务器可能超载,导致客户查询响应时间的增加。OLAP技术构架需要进一步的改进以满足用户的决策分析需求。在另一方面,在文件共享领域,P2P技术已经作为克服服务器的负荷的解决方案,对等共享文件或者共享负荷。P2P系统潜在的优势在于系统的性能和可扩展性;允许每个节点回答其他节点的查询,这将减少数据库服务器的负荷,因此可以解决服务器超载的问题。其他的优势在容错能力和降低成本方面。我们的工作是基于查询的性能问题。基于以上提到的问题,本文完成了以下的研究:我们提出了一个TrackerCache系统,它提供了一个中心组件跟踪器(tracker),充当目录,记录所有提交的查询和其他节点缓存列表。关键思想是保证节点缓存的共享,形成一个高效的语义分布的缓存共享系统。基于这个问题,将介绍一个查询传递策略。对于客户端缓存的信息不一致,我们提出一个基于二元决策树的信息替换策略,来删除不需要的数据。本文提出,所有提交的OLAP查询和他们的结果都被保存在缓存中,以便新到来的查询能够被最快的服务。我们了解到,该系统提高了决策分析的效率,并且减少了OLAP服务器的负载。(本文来源于《湖南大学》期刊2011-01-01)

李锐[9](2010)在《面向不确定数据的聚合查询处理与优化技术》一文中研究指出目前,许多重要领域都涉及到不确定数据的管理,如:数据集成,无线传感器网络,金融监控,趋势预测以及移动对象的管理。由于固有以及人为的多方面原因,这些领域的数据具有不可避免的不确定性,其不确定性主要体现在对象的数据不确定性,存在不确定性和位置不确定性等方面。近年来,许多研究者把目光投向不确定数据的建模、查询估计、数据索引,Top-k查询,天际线查询以及聚类和数据挖掘等领域,并取得了很多的成果。然而,尽管概率聚合查询是一种非常重要的查询,关于它的研究依然寥寥无几。传统的聚合查询返回位于给定查询范围内的所有对象的概括信息,比如满足查询条件的对象个数。这种查询类型是很重要的,因为用户有时可能只是对聚合信息感兴趣而不是某个具体的对象,所以聚合查在现实中被广泛的应用。例如在交通监控中,为了检测高峰时刻的十字路口A的车流量,查询“在今天上午八点到九点之间有多少辆车通过十字路口A”。本文首先介绍确定数据上的聚合查询技术,并扩展到不确定数据的聚合查询,给出面向不确定数据的聚合查询的定义。然后,在已知的不确定数据索引U-tree的基础上增加不确定对象的聚合信息,提出一种针对面向不确定数据的聚合查询的新的索引结构aU-tree。接着通过对最小边界矩形MBR的预先划分,提出了单个对象和多个对象的过滤技术,并给出基于aU-tree的面向不确定数据的聚合查询算法。为了提高算法效率,缩短计算时间,提出了基于采样的近似查询算法,包括单采样方法和双采样方法。这两种基于采样的近似算法,在确保结果精确度的前提下大大的缩短了计算时间。本文在实验中对aU-tree和近似算法的性能进行了测试,并对近似算法的精确度进行了测试,测试结果表明,近似算法的性能要远高于aU-tree,精确度至少在90%以上。(本文来源于《东北大学》期刊2010-06-01)

谭玻[10](2010)在《基于Chord的聚合查询研究》一文中研究指出分布式哈希表作为结构化P2P系统的核心技术,为P2P资源提供了精确的查找能力,但也阻碍了它在复杂查询方面的应用.本文主要分析了在Chord中实现聚合查询的方法,并介绍了其中的一种Cone结构.(本文来源于《玉林师范学院学报》期刊2010年02期)

聚合查询论文开题报告

(1)论文研究背景及目的

此处内容要求:

首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。

写法范例:

随着大数据时代的到来,不确定性数据上的聚合查询面临形式多样、计算复杂等挑战。该文将不确定性数据上聚合查询的结果定义为所有可能的值以及对应的概率。基于动态规划思想的求解"和"的分布(distribution sum,DSUM)精确算法,提出贪心的"和"的分布(greedy distribution sum,GDSUM)和折半合并的"和"的分布(binary merge distribution sum,BMDSUM)的近似算法,这2种算法都能应用于元组级不确定性模型和属性级不确定性模型;并通过理论分析,给出算法的时间和空间复杂度以及最终结果的误差范围。实验结果表明:误差设定为1%时,2种近似算法分别能缩短执行时间15%~21%和22%~32%。

(2)本文研究方法

调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。

观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。

实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。

文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。

实证研究法:依据现有的科学理论和实践的需要提出设计。

定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。

定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。

跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。

功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。

模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。

聚合查询论文参考文献

[1].杨宁,许嘉,吕品,李陶深.基于混合处理模型的乱序数据流分布式聚合查询处理技术[J].广西科学.2019

[2].陈东辉,陈岭,王俊凯,吴勇,王敬昌.不确定性数据上聚合查询的近似算法[J].清华大学学报(自然科学版).2018

[3].张轩.大数据背景下基于抽样的近似聚合查询优化技术研究与实现[D].国防科学技术大学.2016

[4].李佳.大数据环境下聚合查询优化技术的研究与实现[D].国防科学技术大学.2015

[5].黄雄波.时态数据的聚合查询及应用[J].智能计算机与应用.2015

[6].张思思.基于抽样的大数据聚合查询系统的研究与实现[D].东北大学.2015

[7].郑知卉.关系数据库模糊聚合查询方法研究[D].东北大学.2012

[8].Agnes,Manirakiza.P2P网络环境下高效的基于语义的OLAP聚合查询[D].湖南大学.2011

[9].李锐.面向不确定数据的聚合查询处理与优化技术[D].东北大学.2010

[10].谭玻.基于Chord的聚合查询研究[J].玉林师范学院学报.2010

标签:;  ;  ;  ;  

聚合查询论文-杨宁,许嘉,吕品,李陶深
下载Doc文档

猜你喜欢