导读:本文包含了分布式数据处理技术论文开题报告文献综述及选题提纲参考文献,主要关键词:大数据,分布式,数据流处理技术,处理效率
分布式数据处理技术论文文献综述
刘琴[1](2019)在《大数据分析下分布式数据流处理技术研究》一文中研究指出由于数据流的不稳定性,将数据流查询安排在固定节点上就会造成分布式数据流处理技术很难对计算资源实现较高的处理效率,基于此,提出大数据分析下分布式数据流处理技术研究。具体流程是数据收集、历史数据的存储和查询、Storm实时处理、智能索引、数据模型的建立。根据实验结果可知,本文提出的大数据分析下分布式数据流处理技术与传统技术相比,在数据流的处理效率上占有较大优势,一般维持在75%以上,能够大大节省处理时间。(本文来源于《软件工程》期刊2019年12期)
杨宁,许嘉,吕品,李陶深[2](2019)在《基于混合处理模型的乱序数据流分布式聚合查询处理技术》一文中研究指出为了解决现有的乱序数据流聚合查询处理技术不能在降低查询处理延迟,同时保障聚合查询结果的最终正确性的局限性问题,本研究设计了混合嵌入分布式流处理模块和分布式批处理模块的乱序数据流分布式聚合查询处理技术。该技术一方面基于用户给定的结果质量,限制自适应地优化流处理模块所用的缓冲区大小,从而尽可能降低流处理的查询处理延迟;另一方面基于备份于分布式数据存储系统的历史流数据,并以批处理的方式实现对极其晚到流元组的查询处理,从而保障聚合查询结果的最终正确性。基于真实的乱序数据流数据集对该技术进行测试分析表明:该技术在平均查询处理时延、查询结果精度和系统可扩展性方面,比目前最好的基于缓存的乱序数据流处理技术均具有显着优势。(本文来源于《广西科学》期刊2019年04期)
梁肖,孙丽[3](2019)在《大数据环境下的分布式数据流实时处理技术研究(英文)》一文中研究指出大数据背景下的海量分布式数据流处理技术要求较高的实时性和成功率。为了提高分布式环境下数据流实时处理的实时性,采用Hadoop分布式系统平台,提出了一种Map Reduce工作流实时调度优化方法。该方法采用2个相关参数来动态调整每个作业在队列中的重要程度,以便对工作流的优化做出动态的判断。此外,为了减少工作流整体的执行时间,对关键作业能否本地化进行判断和时间对比,从而尽量增加map任务的本地化。实验结果显示,提出的工作流实时调度优化方法在响应时间和调度成功率方面表现出较好的性能。(本文来源于《机床与液压》期刊2019年06期)
朱蕾蕾[4](2019)在《大数据环境下的分布式数据流处理关键技术》一文中研究指出大数据时代中数据量过于庞大,导致人们寻找有用消息变得更加艰难,因此本文对大数据环境下的分布式数据流处理关键技术进行了论述,并对该处理方式应用到的技术进行了分类研究。(本文来源于《电子技术与软件工程》期刊2019年06期)
韦霞[5](2019)在《基于云平台和分布式处理技术的船舶数据采集系统》一文中研究指出船舶在工作过程中,许多数据以及相关参数需要采集,针对当前船舶数据采集系统可扩展性差,工作速度低,数据采集准确差的不足,设计了基于云平台和分布式处理技术的船舶数据采集系统。首先对当前船舶数据采集系统研究现状进行分析,指各种船舶数据采集系统的局限性,然后结合云平台和分布式处理技术的优点设计了船舶数据采集系统,最后通过具体仿真实验分析船舶数据采集系统的性能,结果表明,本文设计的船舶数据采集系统不仅可以同时对各种数据进行实时、在线采集,加快了船舶数据采集速度,降低了船舶数据采集误差,使得船舶数据更加完整、可靠,而且船舶数据采集系统的整体性能要明显优于参比的船舶数据采集系统。(本文来源于《舰船科学技术》期刊2019年02期)
宇超群,门葆红,王鑫[6](2018)在《海量点云数据分布式并行处理技术综述》一文中研究指出随着叁维激光扫描技术的迅猛发展,测量过程中产生的点云数据量大幅增长,海量点云数据的高效处理遇到困难。针对海量点云数据的处理效率有待提高的问题,从大数据处理技术的角度,对近年点云处理领域出现的新技术进行探讨。首先分析点云数据的大数据特征;其次在分布式存储、并行计算技术层面,分析海量点云数据的研究现状,总结研究中达到的效果以及遇到的技术瓶颈;最后结合大数据技术以及点云数据处理的特点,对大数据背景下海量点云数据的处理提出展望,为海量点云数据的高效处理提供参考。(本文来源于《信息工程大学学报》期刊2018年05期)
杨峰,李津,李鹏程[7](2018)在《基于分布式云架构的航天遥感大数据处理技术》一文中研究指出针对当前航天遥感信息处理向大数据和云计算发展的趋势,从数据容量、数据类型等方面分析了航天遥感信息的大数据特征,通过分析遥感数据处理中面临的挑战,基于Hadoop/MapReduce分布式架构的遥感大数据云处理系统,提出了航天遥感大数据的高效分析与处理架构。(本文来源于《电子信息对抗技术》期刊2018年04期)
彭翔[8](2018)在《分布式流处理的铁道供电监控大数据集群容错技术研究》一文中研究指出随着现在电力系统容量与规模不断增加大,信息流与能量流紧密交互,构成了智能调度监控的基础,铁道供电系统作为一种特殊的工业供配电系统,具有运行参数波动范围广、量测点分布集中、监测信息海量化明显、监测数据精度要求高等特点,对调度监控运行稳定性与容错性要求更高,而为了加强调度监控系统的交互协调能力,多种新型智能监测设备投入应用,使得监测点数量剧增,数据量呈几何倍数增长且结构更加多样复杂。典型的如某地区同步相量监测系统100个相位测量装置一天收集62亿个数据点,数据量约为60 GB,如按1000个监测装置计算,每天收集的数据点将达到415亿个,数据量达到402 GB,对调度监控系统的数据吞吐量与运行稳定性提出了严峻挑战。为了满足各种应用场合下大规模数据处理方面的需求,铁道供电监控大数据技术如批处理的Hadoop计算平台、流处理的Storm计算框架等技术在监测信息处理方面崭露头角,但铁道供电系统具有供电负荷变化频繁、电力监测数据波动大等特点,若调度监控系统容错性不足,当发生监测数据处理延迟或丢失等突发状况时,可能会引起监控报警信息迟报、漏报甚至误报,严重时导致关键故障决策判断失误,直接威胁铁道电网运行安全,因此,亟需开展相关铁道供电监控大数据容错处理技术的研究。结合铁道供电监控大数据的现状,学术界在分布式容错领域引入记录级容错技术,与需要付出高昂资源代价的检查点机制不同,记录级容错技术能在故障发生后,通过历史操作记录文件来重建所有故障中丢失的分区,能有效减少额外资源开销,其中弹性分布式数据集容错机制不仅具有一般记录级容错的优点,对数据并行类应用的适应性与容错性更好,为调度监控系统海量化监测数据的高效可靠处理指明了一种新的解决思路。本文结合实际工程应用中的监测大数据处理要求,搭建基于Spark的微批处理计算平台和基于Storm的流处理计算框架,并分别实现CLM血统链标记容错方法与实时流处理的分布式容错。以铁道供电调度监控系统为研究对象,进行集群处理性能与容错性能研究,实验结果表明:在应对突发数据节点故障时基于Spark的CLM容错方法不仅可降低集群计算节点的CPU平均占用率、网络IO消耗和磁盘占用率,还可以减少迭代运算的计算耗时;基于Storm的流处理集群调优后具有更好的事务处理性能与稳定性,验证了分布式数据锁调优与安全队列模型参数调优的有效性,研究结果对调度监控系统海量监测数据的容错处理具有重要的理论实践价值。(本文来源于《华东交通大学》期刊2018-06-30)
余利峰[9](2018)在《面向分布式空间数据库的矢量数据存储与查询处理关键技术研究》一文中研究指出随着空天地一体化的发展,地理数据的获取方式不断增多,各行各业积累的矢量数据的规模呈爆炸式增长,传统的集中式空间数据库已无法满足大规模矢量数据的管理需求。为此研究并构建支持多种空间数据库的高性能分布式矢量空间数据库,以满足不同应用场景对矢量大数据的分布式存储与高效并行查询处理的需求,具有重要的实际应用意义。本文围绕这一目标,对其中涉及的矢量数据存储组织模型、矢量数据划分策略以及分布式空间查询语言等关键技术展开了深入研究,并通过原型系统验证了研究内容的可行性。具体研究内容如下:(1)基于对象关系型空间数据库的分布式矢量数据存储组织模型设计。为满足分布式空间数据库中矢量数据的存储需求,本文在研究现有的矢量数据模型的基础上,结合分布式环境下的数据分布特征与分层分块的逻辑组织思想,并充分考虑对象关系型空间数据库管理系统在几何要素上的存储与查询处理优势,设计了基于对象关系型空间数据库的分布式矢量数据存储组织模型。(2)基于Hilbert排列码与跳跃一致性哈希的矢量数据划分策略研究。为提高矢量大数据集分布式存储与并行查询处理的效率,通过分析已有矢量数据划分方法的不足,提出了基于Hilbert排列码和跳跃一致性哈希的矢量数据划分策略,该策略能够按需构建矢量数据块,并可依据服务节点的性能分配数据量,同时还顾及了系统扩展节点时所产生的数据迁移问题。(3)分布式空间查询语言DGSQL3的设计。通过对比分析不同对象关系型空间数据库在查询语言方面的差异,同时结合分布式查询的特点,设计并实现了一种分布式空间查询语言DGSQL3,为构建支持多种空间数据库(PostGIS、MySQL Spatial、SQLServerSpatial)的分布式矢量空间数据库提供了全局统一查询访问接口。(4)原型系统实现与性能测试。基于上述关键技术,设计并构建了分布式矢量空间数据库原型系统,利用该原型系统对各关键技术的有效性与相关性能进行测试。结果表明,基于本文关键技术构建的分布式矢量空间数据库,能够实现对矢量大数据集的分布式存储和高效并行查询处理,支持对异构空间数据库的统一查询,并且在多核异构环境下仍具有较高的负载均衡性和可扩展性。(本文来源于《浙江大学》期刊2018-06-10)
吴仁克[10](2018)在《分布式数据处理若干关键技术研究》一文中研究指出随着信息技术的飞速发展,各类信息源和数据在当今世界的各个领域被广泛应用,人类社会进入了大数据时代,但大规模数据的持续产生,其格式和类型也呈现多样化趋势。如何快速、高效地实现大数据处理已经成为当前的研究热点及难点。以分布式数据处理为基础,针对大规模数据分析与处理,本文从四个方面探索并形成面向新型体系结构的分布式数据处理与存储技术:(1)基于国产“神威(Sunway)·太湖之光”众核处理器,本文研究与实现了一个分布式数据并行计算框架SunwayMR,可利用分布式服务器资源,加速数据处理与分析;(2)本文提出一种构建分布式数据并行计算框架的软件构建技术,用以加快此类软件开发进程;(3)充分利用RDMA(Remote Direct Memory Access,远程直接内存访问)和HTM(Hardware Transaction Memory,硬件事务内存)技术,本文提出一个可运用于分布式环境的、键值对数据存储系统RHKV,加速数据的“存”和“取”操作,可支撑上层数据密集型应用计算;(4)针对社会关键信息基础设施的智慧信息系统建设,本文提出可提供个性化服务的分布式数据处理与分析解决方案EDAWS。具体如下:(1)本文研究与实现了分布式数据并行计算框架SunwayMR,它只需要GCC/G++环境即可运行。具体地:本文提出基于分布式计算单元集合DCUS(Data Computing Unit Set)的数据划分策略、分布式消息通信机制和任务组织策略,支持在并行硬件上执行数据分析应用程序。SunwayMR为各种数据分析应用提供公开的应用编程接口(API);与使用OpenMPI/MPI等编程模式相比,使用SunwayMR有效地避免了繁杂的编码,保证了框架的易用性。在一定程度上,SunwayMR对于测试数据集的尺寸大小、计算节点数量、线程数量而言,也具备较好的规模扩展适应性。(2)为了更好地辅助分析分布式数据并行计算框架系统内部,从软件构建角度出发,开展适当的软件架构建模。但是,不恰当的架构模型往往导致系统设计冲突等问题;在设计和开发阶段系统需求在不断变化,系统的可变化点不可预测。为此,本文提出可适用于分布式数据并行计算框架的自适应架构建模技术,综合架构设计、行为分析和自适应机制,形成一种软件构建技术,指导此类软件的开发。以本文的分布式数据并行计算框架原型系统SunwayMR软件构建为例,给出实际开发学习过程。结果表明,所提的软件构建技术具备可用性和有效性。(3)利用分布式系统服务器的动态随机存取存储器DRAM设计键值对数据存储,是应对存储容量压力、I/O性能瓶颈的解决方案,为数据密集型计算应用提供数据访问服务。然而,使用传统网络远程访问数据存在网络往返round trips延时高和请求冲突等问题,这导致数据访问的延时增加。为此,本文提出基于RDMA和HTM友好的Key-Value键值对数据存储系统RHKV,包含RHKV服务器端和RHKV客户端。即客户端将数据请求发送到位于在服务器端的改进型Cuckoo哈希数据管理模式—G-Cuckoo中。管理模式通过桶-点(bucket—vertex)映射方式构建Cuckoo图,在键值对数据插入Cuckoo哈希表的过程中,维持桶-点映射方式并预测kick-out死循环出现与否,避免出现哈希表间无限次kick-out循环问题。RHKV利用先进的HTM技术保证数据操作的原子性。使用性能测试工具Yahoo!Cloud Serving Benchmark(YCSB)开展数据访问的性能对比测评。(4)社会关键信息基础设施的智慧信息系统在投入使用时数据不断产生。在单一计算节点上开展大规模数据分析时,速度性能不佳。本文提出一个面向社会关键信息基础设施建设的分布式数据处理与分析解决方案EDAWS(a Novel Distributed Framework with Efficient Data Analytics Workspace towards Discriminative Service for Critical Infrastructures):基于数据分析工作空间的、可提供个性化服务的新型分布式框架。即,服务器端平台系统地收集获取、存储并分析原生数据;在分布式计算环境上并行地构建索引,开展数据业务分析,挖掘个性化的服务;通过利用便捷的移动终端设备,以远程的方式快速获取服务器端的大数据服务。为了例证所提解决方案的有效性,本文给出可提供个性化服务的“智慧社区”案例。在小型集群环境上运行原型系统,使用真实数据集开展实验测试:原型系统对计算节点的数量和数据集的大小具备一定规模适应性,能智能地将原生数据转换为用户所需要的大数据服务。(本文来源于《上海交通大学》期刊2018-05-01)
分布式数据处理技术论文开题报告
(1)论文研究背景及目的
此处内容要求:
首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。
写法范例:
为了解决现有的乱序数据流聚合查询处理技术不能在降低查询处理延迟,同时保障聚合查询结果的最终正确性的局限性问题,本研究设计了混合嵌入分布式流处理模块和分布式批处理模块的乱序数据流分布式聚合查询处理技术。该技术一方面基于用户给定的结果质量,限制自适应地优化流处理模块所用的缓冲区大小,从而尽可能降低流处理的查询处理延迟;另一方面基于备份于分布式数据存储系统的历史流数据,并以批处理的方式实现对极其晚到流元组的查询处理,从而保障聚合查询结果的最终正确性。基于真实的乱序数据流数据集对该技术进行测试分析表明:该技术在平均查询处理时延、查询结果精度和系统可扩展性方面,比目前最好的基于缓存的乱序数据流处理技术均具有显着优势。
(2)本文研究方法
调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。
观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。
实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。
文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。
实证研究法:依据现有的科学理论和实践的需要提出设计。
定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。
定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。
跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。
功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。
模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。
分布式数据处理技术论文参考文献
[1].刘琴.大数据分析下分布式数据流处理技术研究[J].软件工程.2019
[2].杨宁,许嘉,吕品,李陶深.基于混合处理模型的乱序数据流分布式聚合查询处理技术[J].广西科学.2019
[3].梁肖,孙丽.大数据环境下的分布式数据流实时处理技术研究(英文)[J].机床与液压.2019
[4].朱蕾蕾.大数据环境下的分布式数据流处理关键技术[J].电子技术与软件工程.2019
[5].韦霞.基于云平台和分布式处理技术的船舶数据采集系统[J].舰船科学技术.2019
[6].宇超群,门葆红,王鑫.海量点云数据分布式并行处理技术综述[J].信息工程大学学报.2018
[7].杨峰,李津,李鹏程.基于分布式云架构的航天遥感大数据处理技术[J].电子信息对抗技术.2018
[8].彭翔.分布式流处理的铁道供电监控大数据集群容错技术研究[D].华东交通大学.2018
[9].余利峰.面向分布式空间数据库的矢量数据存储与查询处理关键技术研究[D].浙江大学.2018
[10].吴仁克.分布式数据处理若干关键技术研究[D].上海交通大学.2018