分布式数据环境论文-段玉风

分布式数据环境论文-段玉风

导读:本文包含了分布式数据环境论文开题报告文献综述及选题提纲参考文献,主要关键词:大数据,Hadoop,分布式网络爬虫

分布式数据环境论文文献综述

段玉风[1](2019)在《大数据环境下分布式数据抓取策略的研究与应用》一文中研究指出随着网络技术与移动通信技术的飞速发展,互联网已经进入了大数据时代,传统的数据抓取技术已经很难适应当前海量数据的应用需求,为了能够有效改善这一现状,本文提出了基于Hadoop的分布式网络爬虫改进策略,以满足大数据环境下用户对互联网信息的应用需求。(本文来源于《网络安全技术与应用》期刊2019年12期)

邹静昭,赵宁,卢翠荣,武琳[2](2019)在《复杂属性环境非关系型分布式大数据挖掘仿真》一文中研究指出对复杂属性环境的数据识别有利于充分挖掘大数据包含的信息与价值,提出一种非关系型分布式大数据挖掘算法。首先,引入分布式的最大频繁项算法模型,在物理分散逻辑下,对非关系型数据应用分布式方法进行数据分析,利用建立候选频繁项的搜索条件降低数据检测次数,并采取划分投影法,计算各频繁项对应的分区编号,将其规划到不同的分区中,从而优化冗余频繁项,然后针对数据库中大数据的数据特征建立各个属性的关联度,根据Boosting聚类方法,把由弱聚类得到的局部模型在每次迭代过程中升级为全局模型,再对其进行区块划分,并利用划分质量重新调整迭代采样率,最终得到聚类结果,完成数据挖掘。通过仿真验证了非关系型分布式大数据挖掘具有显着的准确性、稳定性和实用性。(本文来源于《计算机仿真》期刊2019年10期)

严新成,陈越,巴阳,贾洪勇,朱彧[3](2019)在《云环境下支持可更新加密的分布式数据编码存储方案》一文中研究指出由于云存储密文的静态性特征,密钥泄露成为影响存储数据安全性的重要因素.数据重加密是应对密钥泄露的有效手段,但相应的计算开销以及上传下载的通信开销增加了用户和存储系统的负担.此外,对基于分布式编码的数据存储而言,密文更新需要在解密密文的基础上进行,密文合并过程同样增加了系统的通信及计算开销.针对上述问题,提出一种云环境下支持可更新加密的分布式数据编码存储方案(distributed data encoding storage scheme supporting updatable encryption, DDES-UE).通过利用密钥同态伪随机函数构造可更新加密方案,可避免密文更新的计算与通信开销过大问题;基于密文分割与改进FMSR编码实现数据分布式存储,保证存储数据的高可用性和各存储节点的直接数据更新.安全性证明及性能分析表明:提出的方案在保证数据存储安全性的同时,能够支持部分存储节点损坏时安全高效的数据可恢复性以及解密数据的完整性验证.与传统的数据重加密相比,DDES-UE能够避免数据重加密及数据上传、下载、解码、合并带来的计算和通信开销,对于构建支持直接数据更新的安全高效云存储系统有重要意义.此外,周期性密钥更新可有效增加攻击者通过获取密钥破解密文的时间成本,从而增强了系统的主动安全防御能力.(本文来源于《计算机研究与发展》期刊2019年10期)

李葳[4](2019)在《分布式数据环境下预报资料自动传输技术的研究与应用》一文中研究指出笔者研究了新型分布式数据环境的组成结构和技术特点,以及其中预报资料的存储格式和传输方法,确定以分布式数据库和数据代理服务器作为获取预报资料的窗口,依此研发数据自动传输程序,并参照分布式数据环境内的数据区排列顺序将获取的数据转换为所需的格式。将此程序与旧式预报资料下载方式在真实业务环境中进行对比,结果表明传输效率较旧式下载方式有较大提升。(本文来源于《信息与电脑(理论版)》期刊2019年17期)

任尚云[5](2019)在《云计算环境下网络空间数据分布式存储方法研究》一文中研究指出针对传统的网络空间数据分布式存储方法存储空间小的情况,提出云计算环境下网络空间数据分布式存储方法,首先对网络中的空间数据进行划分,在此基础上,建立网络空间分布式存储数据库,把基本的网络空间数据进行存储,为满足大数据的需要,最后对空间数据库存储空间容量进行设计,提高了网络空间数据分布式存储的存储量。并通过实验对比证明,此次设计的网络空间数据分布式存储方法比传统的存储方法的存储容量高,满足了大数据的存储需求,具有一定的实际应用意义。(本文来源于《信息通信》期刊2019年08期)

李荣荣[6](2019)在《分布式环境下大规模图数据的密集子图发现方法研究》一文中研究指出随着互联网的应用和科学技术的不断进步,各行各业的数据正以前所未有的规模不断积累。图作为描述数据的重要数据结构被学者们广泛应用于大数据研究,图数据挖掘问题成为学术界重要的研究课题。在大规模的图数据中,图的密集部分往往是图数据中的重要部分,因此,发现大规模图数据中的密集子图成为目前研究的一个热点问题。并且,密集子图问题又可以广泛应用于频繁子图问题,社区发现等问题中,具有重要的研究意义。发现图数据中的密集子图问题是一个着名的NP-难问题。目前已经有一些学者设计了不同的方法来发现密集子图,但其中存在不适用于处理大规模图数据、发现的密集子图不连通、密集子图是局部最优解、算法不适用于在某种类型的图数据中发现密集子图等问题。为解决以上问题,本文利用分布式Hadoop平台强大的存储和计算优势,设计了一种适用于处理不同应用背景下的大规模图数据的密集子图发现算法。本文的密集子图发现算法通过HDFS来实现大数据集的存储,通过MapReduce来实现大数据集的计算。算法首先对图进行预处理,排除图中平行边和环对密集子图发现的影响。其次,为快速地发现大图中的密集子图,使用图剪枝策略快速移除一定不存于密集子图中的顶点,然后在剩余图中提取只包含在叁角形中的顶点构成的子图。最后,选择初始子图并通过两个阶段不断对图进行更新,第一个阶段:在每次迭代中从当前图中顶点的邻居节点集中选择一个顶点,使得加入该顶点之后的子图密度最大,直至当前图中顶点的邻居节点集不再有顶点使得子图密度变大时终止迭代。第二个阶段:在每次迭代中,从当前子图中选择一个顶点,使得移除该顶点之后的子图密度最大,直至子图的密度不再增大时终止迭代。本文将此时的子图视为算法发现的密集子图,并且利用Spark平台的优势使用弹性分布式数据集RDD来分析图的连通情况。通过实验表明,本文提出的分布式环境下的密集子图发现算法在处理大规模图数据的运行时间上、发现的密集子图的密度上、密集子图的连通情况上取得了良好的效果,与其他算法对比具有一定的优势。(本文来源于《北京交通大学》期刊2019-05-01)

梁肖,孙丽[7](2019)在《大数据环境下的分布式数据流实时处理技术研究(英文)》一文中研究指出大数据背景下的海量分布式数据流处理技术要求较高的实时性和成功率。为了提高分布式环境下数据流实时处理的实时性,采用Hadoop分布式系统平台,提出了一种Map Reduce工作流实时调度优化方法。该方法采用2个相关参数来动态调整每个作业在队列中的重要程度,以便对工作流的优化做出动态的判断。此外,为了减少工作流整体的执行时间,对关键作业能否本地化进行判断和时间对比,从而尽量增加map任务的本地化。实验结果显示,提出的工作流实时调度优化方法在响应时间和调度成功率方面表现出较好的性能。(本文来源于《机床与液压》期刊2019年06期)

朱蕾蕾[8](2019)在《大数据环境下的分布式数据流处理关键技术》一文中研究指出大数据时代中数据量过于庞大,导致人们寻找有用消息变得更加艰难,因此本文对大数据环境下的分布式数据流处理关键技术进行了论述,并对该处理方式应用到的技术进行了分类研究。(本文来源于《电子技术与软件工程》期刊2019年06期)

杨莲,郭良君,马磊,王圣芳[9](2019)在《大数据环境下hadoop分布式文件系统分散式动态副本存储优化策略研究》一文中研究指出在不影响hadoop分布式文件系统分散式存储结构的前提下,结合动态副本存储和伽罗华有限域理论对范德蒙码的计算方法和计算模式进行整体优化,降低了编译码的时间代价和计算的内存压力,节约了hadoop分布式文件系统约35%的存储开销,提高了hadoop分布式文件系统节点负载均衡能力和译码恢复效率。这种算法更适合于医疗专业文书的处理,解决临床科研需求和数据供给2个方面的问题。既能节省了存储容量,可以容纳与日俱增且越发复杂化的医疗数据,又能降低硬件服务器成本,为医院节省资金开销,更能快速查询获取数据池中的有效数据,让这些躺着的数据变成活的,充分发挥他们的临床使用价值和科研价值。这一套完整的、系统的优化方案,为未来hadoop分布式文件系统的发展提供了一条有效途径。(本文来源于《中国医院统计》期刊2019年01期)

姜文秀[10](2019)在《基于分布式环境的数据挖掘算法研究》一文中研究指出随着海量数据处理的关注程度逐渐提升,分布式数据挖掘算法也成为一个热点研究领域。在实际挖掘特定兴趣时,会用到数据挖掘中的关联规则,数据的海量性必然要求采用分布式挖掘方法,以此减轻计算压力。分布式环境中的数据挖掘可以将数据分发到不同节点进行处理,最后将局部结果汇总,从而完成整个计算过程。(本文来源于《电脑知识与技术》期刊2019年02期)

分布式数据环境论文开题报告

(1)论文研究背景及目的

此处内容要求:

首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。

写法范例:

对复杂属性环境的数据识别有利于充分挖掘大数据包含的信息与价值,提出一种非关系型分布式大数据挖掘算法。首先,引入分布式的最大频繁项算法模型,在物理分散逻辑下,对非关系型数据应用分布式方法进行数据分析,利用建立候选频繁项的搜索条件降低数据检测次数,并采取划分投影法,计算各频繁项对应的分区编号,将其规划到不同的分区中,从而优化冗余频繁项,然后针对数据库中大数据的数据特征建立各个属性的关联度,根据Boosting聚类方法,把由弱聚类得到的局部模型在每次迭代过程中升级为全局模型,再对其进行区块划分,并利用划分质量重新调整迭代采样率,最终得到聚类结果,完成数据挖掘。通过仿真验证了非关系型分布式大数据挖掘具有显着的准确性、稳定性和实用性。

(2)本文研究方法

调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。

观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。

实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。

文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。

实证研究法:依据现有的科学理论和实践的需要提出设计。

定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。

定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。

跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。

功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。

模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。

分布式数据环境论文参考文献

[1].段玉风.大数据环境下分布式数据抓取策略的研究与应用[J].网络安全技术与应用.2019

[2].邹静昭,赵宁,卢翠荣,武琳.复杂属性环境非关系型分布式大数据挖掘仿真[J].计算机仿真.2019

[3].严新成,陈越,巴阳,贾洪勇,朱彧.云环境下支持可更新加密的分布式数据编码存储方案[J].计算机研究与发展.2019

[4].李葳.分布式数据环境下预报资料自动传输技术的研究与应用[J].信息与电脑(理论版).2019

[5].任尚云.云计算环境下网络空间数据分布式存储方法研究[J].信息通信.2019

[6].李荣荣.分布式环境下大规模图数据的密集子图发现方法研究[D].北京交通大学.2019

[7].梁肖,孙丽.大数据环境下的分布式数据流实时处理技术研究(英文)[J].机床与液压.2019

[8].朱蕾蕾.大数据环境下的分布式数据流处理关键技术[J].电子技术与软件工程.2019

[9].杨莲,郭良君,马磊,王圣芳.大数据环境下hadoop分布式文件系统分散式动态副本存储优化策略研究[J].中国医院统计.2019

[10].姜文秀.基于分布式环境的数据挖掘算法研究[J].电脑知识与技术.2019

标签:;  ;  ;  

分布式数据环境论文-段玉风
下载Doc文档

猜你喜欢