导读:本文包含了数据流查询论文开题报告文献综述及选题提纲参考文献,主要关键词:乱序数据流,混合处理模型,聚合查询,分布式查询处理
数据流查询论文文献综述
杨宁,许嘉,吕品,李陶深[1](2019)在《基于混合处理模型的乱序数据流分布式聚合查询处理技术》一文中研究指出为了解决现有的乱序数据流聚合查询处理技术不能在降低查询处理延迟,同时保障聚合查询结果的最终正确性的局限性问题,本研究设计了混合嵌入分布式流处理模块和分布式批处理模块的乱序数据流分布式聚合查询处理技术。该技术一方面基于用户给定的结果质量,限制自适应地优化流处理模块所用的缓冲区大小,从而尽可能降低流处理的查询处理延迟;另一方面基于备份于分布式数据存储系统的历史流数据,并以批处理的方式实现对极其晚到流元组的查询处理,从而保障聚合查询结果的最终正确性。基于真实的乱序数据流数据集对该技术进行测试分析表明:该技术在平均查询处理时延、查询结果精度和系统可扩展性方面,比目前最好的基于缓存的乱序数据流处理技术均具有显着优势。(本文来源于《广西科学》期刊2019年04期)
连世伟,李宏伟[2](2019)在《面向事件的气象数据流滑动窗口查询机制研究》一文中研究指出NCEP的再分析计划以气象数据为数据源,从事件的角度定义了元对象,探讨了基于事件的元对象查询机制,分析了各属性异常、综合属性异常、属性异常频繁和属性分布等4个事件元对象的查询过程。定义了数据流、滑动窗口和地理数据块,提出了面向事件的气象数据流滑动窗口查询方法,为气象数据流的检测、分类、频繁挖掘和高维聚类奠定良好基础。(本文来源于《测绘与空间地理信息》期刊2019年06期)
陈贵丹[3](2018)在《面向数据流的Top-k复杂事件查询技术研究》一文中研究指出互联网产业的快速发展在带来数据规模爆炸式增长的同时,也使大数据呈现出越发鲜明的流式特征,数据流以其特有的实时性、突发性、易失性和无限性给传统数据库带来了巨大的挑战。复杂事件处理技术采用事件检测的方法,通过事件属性和事件层次结构之间的关系,使用各种规则处理算法对事件进行匹配和关联,对海量的数据流进行不断的过滤,从中找出满足规则约束条件的事件集合,挖掘出用户感兴趣和有用信息,并提供快速响应。复杂事件处理技术能够满足海量数据处理中高吞吐量、低延迟的需求,是数据流处理的关键技术之一。研究能够适应数据流多样、海量、无限、时变等特性的动态的分析技术及高效的处理算法是数据流实时处理的关键。国内外研究学者相继提出了针对不同应用场景的数据流Top-k复杂事件查询算法。但是,现有研究成果不够完善。这些算法大多对数据流分布和参数变化比较敏感,本论文分别针对数据流动态自适应分区的Top-k连续查询问题、数据流的Top-k支配查询等问题进行了一定的研究和探讨。本文主要的研究工作总结如下:(1)基于动态自适应分区技术的Top-K连续查询算法由于数据流的实时性、持续性、无限性等特点,本文采用滑动窗口技术来处理数据流的连续查询。论文首先采用定长分区策略把窗口分区成多个不相交的子窗口,定长分区方法在维护候选集的时候会造成不必要的维护成本。针对这个问题,进一步提出了动态自适应分区算法,该算法可以根据数据流的动态分布自适应调整分区的大小,并通过曼惠特尼秩和检验检测分区的大小是否合适。然后通过全局过滤和局部过滤方法,提前过滤那些对最终结果集没有贡献的对象,降低通信成本。最后在大量实验的基础上验证了算法的高效性。(2)分布式数据流的Top-k支配查询算法针对传统Top-k查询评分函数不好指定,skyline查询结果集大小不好控制等问题,提出了数据流的Top-k支配查询算法,Top-k支配查询继承了 Top-k查询和skyline查询的优点,因此在决策支持等领域发挥着重要作用。本章采用SparkStreaming+HDFS的分布式查询框架,提出了基于Filter-based的Top-k支配查询算法,并结合subspace skyline和SKYBr技术高效过滤非k-skyband对象,达到提前剪枝的目的,提升了算法的性能。最后通过真实数据集验证了算法在时间和空间方面的性能。(本文来源于《湖南大学》期刊2018-05-09)
迟荣华,黄少滨,吕天阳[4](2018)在《基于频繁密度分布模式的不确定数据流查询方法》一文中研究指出针对当前不确定数据流相似性查询问题中不确定对象建模不准确的问题,提出了一种面向不确定数据流的相似性查询方法 HB-UTS。利用非参数估计方法对不确定数据流中的对象建模,得到不确定对象的密度函数。通过谱聚类方法挖掘密度函数的频繁模式,将挖掘后的模式抽象为语义表示的不确定数据流序列。在相似性查询阶段,通过高阶Markov的状态转移矩阵模型构建不确定数据流的索引结构,它在记录不确定数据流存储地址的同时还记录序列元素的存储概率,可有效提高数据流的分步输入查询效率。本文进行了真实与仿真相结合的方法,通过在随机化处理后的真实数据集上的实验以及与其他相似性查询方法的比较,验证了HB-UTS在处理大规模不确定数据流时较好处理能力以及实施效果。(本文来源于《哈尔滨工程大学学报》期刊2018年06期)
唐颖峰,陈世平[5](2018)在《利用k-d树索引改进数据流skyline查询算法》一文中研究指出skyline查询技术近来引起了研究者们的广泛关注,面向数据流的skyline查询是其中的热点.对面向数据流的skyline查询问题进行了研究.对现有方法进行了改进,提出一种基于k-d树的skyline增量更新算法.该方法采用事件链机制来处理数据点的状态变化,避免重复计算过期数据点排它支配域上的skyline;增量数据点的处理过程中采用k-d树作为索引结构,以增强索引结构对数据流变化的自适应性;针对k-d树索引提出多个剪枝规则来减小搜索域,提高搜索效率.理论分析及实验表明,该方法能够更快地响应用户的查询请求,更适用于大规模、疏密分布变化的高速数据流应用场景.(本文来源于《小型微型计算机系统》期刊2018年03期)
李松存[6](2018)在《数据流查询隐私保护技术研究》一文中研究指出当前许多应用需要对统计数据进行持续性发布来达到检测的目的,这些应用包括实时交通状况分析、疾病检测和社会上的一些趋势分析等等,这种数据模型被称为数据流。数据流来源于许多用户的信息,这些信息可能会涉及到用户的隐私,因此在发布统计数据的同时还要注意对用户敏感信息的保护。现在一种标准的隐私保护模型是差分隐私,并且已经应用在数据流的发布中。据我们所知,目前数据流查询差分隐私保护主要有两种方法:一是在无限时间上保护事件级别的隐私;另一种是在有限时间上保护用户级别的隐私。但是这两种方法都有很大的缺点,前者发布的数据可用性很低,而后者无法保护连续时间段的隐私数据。除了各自的缺点,这两种方法还有一些不足:(1)只能对单独查询的结果进行保护。(2)对一些关联数据,数据之间的相关性无法保护。(3)查询结果准确性低。针对上述问题,首先根据数据之间是否具有相关性,将数据流分为关联数据流和非关联数据流。然后针对这两种不同类型的数据流提出了两种算法,这两种算法都是基于滑动窗口模型,主要研究内容如下:为了保护非关联数据流的隐私信息,提出了算法DPQW(Differentially private query via window)。该算法由两个重要算法组成,分别是Sample算法和Restructure算法,通过DPQW算法,不仅可以保护私密信息,而且可以提高查询集合结果的准确性。对于关联数据流,我们不仅需要保护每个时刻的隐私信息,还需要保护在连续时间内的不同时刻数据之间的相关性。为此我们提出了w-windowε-差分隐私模型,同时在w大小的窗口内我们又提出了一种动态的隐私预算分配方法DBD(Dynamic budget distribution),从而可以提高数据的可用性。通过真实数据集,将DPQW算法和基础的加噪算法Lap进行对比,同时将DBD算法与其他隐私预算分配算法进行对比,验证了本文提出的这两种算法的有效性与可用性。(本文来源于《哈尔滨工程大学》期刊2018-03-01)
倪赛龙,王永利,赵忠文,董振江[7](2017)在《基于分层抽样的数据流近似查询算法》一文中研究指出为有效解决流数据中近似查询问题,提出一种综合流式处理和批处理的近似查询模型。利用滑动窗口提供流式近似查询能力,利用改进的分层抽样算法对于数据流产生的海量历史数据进行分层抽样,最大限度避免偏倚值对于查询结果的影响。实验结果表明,该算法结合了滑动窗口流式分析以及分层抽样技术批处理分析的优点,提高了查询的精度。(本文来源于《计算机工程与设计》期刊2017年10期)
高磊[8](2017)在《基于STORM的数据流查询分析系统的设计与实现》一文中研究指出数据流分析一直以来都是研究热点,特别是近十来年大数据的发展,使得数据流分析越来越重要和流行。就目前来看,简便易用的数据流分析系统还是比较少而且上手不易,需要相关的专业人员才行。本文以实验室项目的数据流分析系统为背景,阐述了一个基于storm的通用数据流分析系统。本文针对以上问题,通过分析数据流开发的需求提出并实现一种类似sql的数据流分析语言scql,并将生成的逻辑应用部署到storm上。该系统的特点是简单易用,只要懂sql并且简单学习scql语法即可使用,而且不需要去管理大量的配置信息。经过大量的测试表明,该系统是可行的且有效的。整个系统分为基础模块、适配器模块、编译模块叁个模块,基础模块用来提供数据的处理类,适配器模块用来将逻辑应用部署到storm上,编译模块用来将scql语句经过语法分析、语义分析、算子的拆分合并和算子优化,最后编译构建一个逻辑应用。语法分析从抽象语法树中提取每个叶节点的信息然后进行语义分析,将信息重新组织创建表的元信息、语句分析结果和表达式的描述,下一步是根据语句进行算子拆分并创建执行器,然后生成物理执行计划。总结来说,本文介绍了数据流的背景和相关技术分析,在此基础上分析了系统的需求然后提出的总体架构和设计方案。在论文的核心部分详细阐述了系统的设计与实现,并且给出了系统的测试案例。(本文来源于《哈尔滨工业大学》期刊2017-06-01)
刘骁[9](2017)在《面向不确定数据流的Top-k查询处理》一文中研究指出不确定数据广泛存在于信息社会的各个领域之中,包括金融、军事、位置服务、医疗以及气象等。随着移动互联网的快速普及以及新型数据采集技术的不断问世,不确定数据的规模急遽增长。因此,不确定数据管理技术受到了学术界与工业界研究人员的共同关注。数据不确定性出现在关系数据、半结构化数据、数据流以及多维数据之中。本文研究如何解决不确定数据流的Top-k查询处理。不确定数据流是一个高速到达的海量不确定数据元组序列,主要处理的难点有:(1)数据流到达速率极快,必须及时进行处理;(2)数据规模潜在无限,往往无法将全部数据存放在内存之中;(3)由于概率的存在,需要设计高效的优化算法,来降低计算成本。目前,虽然学术界已经积累了众多的研究成果,但现有方法在应对具体场景时仍存在局限性,因此亟需开发新型不确定数据流管理技术。本文提出了一种新型的不确定数据流近似查询算法,可以处理不确定数据流的ER-Topk与TTk查询问题。此外,为了实现数据流吞吐与查询响应的双重性能提升,我们设计出了一套通用的不确定数据流的查询处理框架。本文的工作主要包括以下几个方面:海量数据流近似查询算法解决了目前不确定数据流在处理ER-Topk与TTk查询时所遇到的存储空间消耗过大的问题。该算法可以有效地对到达的不确定数据流进行过滤处理,在控制数据精度的情况下减少数据处理压力,提升系统的整体性能。实时不确定数据流处理框架基于近似算法提出一种针对于处理ER-Topk与TTk的数据流批处理框架。框架采用并行处理技术以实现对不断快速到达数据的高吞吐处理。数据流误差检测不确定数据流往往由于各种因素的影响而存在错误信息。为了避免错误数据对查询结果产生严重影响,本文提出了一种错误数据检测方法,通过对数据特征的分析实现异常判断。框架的有效性验证本文提出的近似算法与框架旨在解决不确定数据流上的ER-Topk与TTk查询。为了验证算法与框架的数据吞吐能力、可靠性以及查询响应速率,本文通过设计不同的实验策略,结合模拟数据与真实数据来检测算法与框架的真实表现。(本文来源于《华东师范大学》期刊2017-05-01)
王少鹏,闻英友,赵宏,孟颍辉[10](2017)在《一种滑动窗口下数据流Disjoint查询的增量处理算法》一文中研究指出对于滑动窗口下不具有全局约束机制的数据流Disjoint查询精确处理问题进行了研究,在现有FSM算法基础上提出了一种具有增量计算特征的查询处理算法DQPIC.该算法使用FSM算法处理第一个窗口中的数据流成员,同时保留了该窗口上的查询结果和窗口所对应STWM的最后一个列向量,除此之外还需要保留窗口STWM中所有列向量第curbound.highest个成员DTW路径的起始位置、距离值以及该成员在STWM中对应列向量的dmin值和候选查询结果这些信息.从第二个窗口开始,继续使用FSM算法处理窗口成员,同时也保留和第一个窗口一样的信息.在这个过程中,当处理相邻窗口中相同数据流成员时,通过比较该成员在前后两个窗口中分别对应的保留信息是否相同,可以确定算法有无继续处理剩余相同数据流成员的必要,能够在前一个窗口查询结果基础上增量地获得当前窗口查询结果.基于公用数据样本SST与Maskedchirp的仿真实验验证了该算法的有效性.提出的算法与现有其他算法执行结果相同,在空间开销增加1.12~3.27倍情况下,可以实现时间效率2.5~25倍的提高,对于与大窗口下的Disjoint查询相关应用场景,具有更好的时间效果.(本文来源于《计算机学报》期刊2017年10期)
数据流查询论文开题报告
(1)论文研究背景及目的
此处内容要求:
首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。
写法范例:
NCEP的再分析计划以气象数据为数据源,从事件的角度定义了元对象,探讨了基于事件的元对象查询机制,分析了各属性异常、综合属性异常、属性异常频繁和属性分布等4个事件元对象的查询过程。定义了数据流、滑动窗口和地理数据块,提出了面向事件的气象数据流滑动窗口查询方法,为气象数据流的检测、分类、频繁挖掘和高维聚类奠定良好基础。
(2)本文研究方法
调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。
观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。
实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。
文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。
实证研究法:依据现有的科学理论和实践的需要提出设计。
定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。
定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。
跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。
功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。
模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。
数据流查询论文参考文献
[1].杨宁,许嘉,吕品,李陶深.基于混合处理模型的乱序数据流分布式聚合查询处理技术[J].广西科学.2019
[2].连世伟,李宏伟.面向事件的气象数据流滑动窗口查询机制研究[J].测绘与空间地理信息.2019
[3].陈贵丹.面向数据流的Top-k复杂事件查询技术研究[D].湖南大学.2018
[4].迟荣华,黄少滨,吕天阳.基于频繁密度分布模式的不确定数据流查询方法[J].哈尔滨工程大学学报.2018
[5].唐颖峰,陈世平.利用k-d树索引改进数据流skyline查询算法[J].小型微型计算机系统.2018
[6].李松存.数据流查询隐私保护技术研究[D].哈尔滨工程大学.2018
[7].倪赛龙,王永利,赵忠文,董振江.基于分层抽样的数据流近似查询算法[J].计算机工程与设计.2017
[8].高磊.基于STORM的数据流查询分析系统的设计与实现[D].哈尔滨工业大学.2017
[9].刘骁.面向不确定数据流的Top-k查询处理[D].华东师范大学.2017
[10].王少鹏,闻英友,赵宏,孟颍辉.一种滑动窗口下数据流Disjoint查询的增量处理算法[J].计算机学报.2017