导读:本文包含了并行决策树分类算法论文开题报告文献综述及选题提纲参考文献,主要关键词:大数据,流计算,分类算法,Storm
并行决策树分类算法论文文献综述
张永潘[1](2017)在《基于大数据平台的决策树分类算法及并行化研究》一文中研究指出随着数据库、物联网技术及各种信息技术的迅猛发展,越来越多的数据从各行各业(如:电信运营商、证券金融银行、互联网终端等)当中产生。海量的数据在日积月累不断地爆发式增长,我们必须探求如何在大数据中获得更多的价值,可见对海量数据的处理和分析的需求迫在眉睫。大数据的主要特点有:海量(volume)、高速(velocity)、准确(veracity)、多样(variety)等,大数据技术发展的起步阶段,国内外研究的主要侧重点是处理海量数据和处理多样的数据类型。然而在当前互联网时代下的大数据大多都存在于金融股票、运营商网络流量、网站实时请求、交通数据流等业务背景下,数据的形式大多是以高速的流式数据形态传递。与存储在传统数据库中的静态数据不同,流式数据作为一种新的数据形态,对数据分析过程的高速性和准确性要求更加的严格。对于流式数据的分析处理需要我们能够快速的记录实时数据流信息并更加准确的保证信息的时效性。本文对以上问题进行了深入的调研与分析,充分研究国内外流数据处理平台和方法的特点与优势,并提出一种大数据环境下的流式数据概念漂移检测算法和并行化的决策树分类算法,主要用于解决不稳定流数据的隐含概念漂移检测和处理。在提出的P-HT并行化决策树分类算法基础上,设计了一种基于分布式流处理平台的流数据并行化建模算法及实时分类评估框架。首先本文将对传统的分类算法进行增量化的改进以适应流数据处理的需求,其次,根据流数据的特点提出概念漂移检测的ADDS算法和基于Storm平台的并行化P-HT决策树分类算法。最后,将两种算法分别进行了实验分析,实验结果ADDS算法有较好的概念漂移探测效果,P-HT决策树分类算法有较高的效率和抗概念漂移性能。(本文来源于《南京邮电大学》期刊2017-10-26)
李力[2](2015)在《基于Hadoop的决策树分类算法的并行化研究》一文中研究指出随着计算机和网络技术的迅速发展,数据呈爆炸式增长。大数据的有效存储和处理成为各大企业当前面临的最艰巨的任务之一。如何高效、低成本的从海量数据中挖掘出潜在、有用的信息是数据挖掘技术当前面临的一大难题。在数据挖掘算法中决策树分类算法占有重要地位,决策树分类算法被视为是一种重要的分类和预测手段。但传统的决策树分类算法为内存驻留算法,在单机环境下,由于内存的限制,只能处理小规模的数据;其次,决策树分类算法最耗时的阶段为分割指标的计算阶段;再者,决策树的生成过程是一个递归过程,时间复杂度高。因此本文旨在解决传统决策树算法不能处理大规模数据的问题,以及如何高效的处理大规模数据的问题。近来,云计算的出现,为数据挖掘技术的进一步发展带来了新的前景。因为云计算不仅具有海量存储的能力,而且还提供并行处理的能力;其次,云计算系统可以构建在普通的、廉价的PC机上,代替高性能计算机,大大降低了成本。因此,云计算的出现,使数据挖掘技术进入了云挖掘的时代。Hadoop是Apache基金会开发的一个分布式系统基础框架,其中,HDFS分布式存储文件系统和Map Reduce分布式计算框架是Hadoop最重要的设计。其次,Hadoop使得用户在进行分布式程序开发的时候可以不用了解分布式的底层细节,并提供了一种高效、低成本、可扩展的计算模式。本文通过分析算法本身的特点,结合Map Reduce编程模式,将决策树分类算法移植到Hadoop平台上,从而实现了高效、低成本的数据挖掘工作。本文的主要工作如下:(1)针对传统的ID3决策树分类算法不能处理大规模数据的问题,通过引入云计算的并行化思想,提出了一种基于Hadoop平台的并行决策树分类算法H_ID3H_ID3算法利用Map Reduce编程模型,实现了数据集纵向划分的并行化、横向划分的并行化以及决策树同一层所有节点最佳分裂属性选择的并行化。通过算法的实现及相关实验,验证了算法的可行性,其次还可以得到如下结论:H_ID3算法能够处理大规模的数据集,且具有良好的可扩展性和高加速比;其次,在处理的数据集规模较大时,H_ID3算法的效率明显高于ID3算法。(第3章)(2)针对传统C4.5决策树分类算法不能处理大规模数据的问题,提出了一种基于Hadoop平台的决策树分类算法H_C4.5H_C4.5算法和H_ID3算法的并行化思想大致相同,只是最佳分裂属性的选择标准不同。同样,通过算法的实现及相关实验,验证了算法的可行性,以及H_C4.5算法具有的高效性、高扩展性和高加速比。(第4章)(3)针对传统CART决策树分类算法不能处理大规模数据的问题,提出了一种基于Hadoop平台的决策树分类算法H_CARTH_CART算法利用Map Reduce模型,实现了对数据集的并行划分,以及利用Map Reduce本身具有的排序功能,实现对连续属性值的并行化排序;其次,同样也实现了决策树同一层所有节点最佳分裂属性的并行化计算,大大提高了算法效率。通过算法的实现和相关实验,验证了算法的可行性和H_CART算法具有的高效性、高可扩展性和高加速比。(第5章)(本文来源于《四川师范大学》期刊2015-04-24)
林树地,吴扬扬[3](2013)在《基于Hadoop的C4.5决策树分类算法并行化》一文中研究指出通过研究各种决策树分类算法的并行方案后,并行设计C4.5算法。同时根据Hadoop云平台的MapReduce编程模型,详细描述C4.5并行算法在MapReduce编程模型下的实现及其执行流程。最后,对输入的海量文本数据进行分类,验证了算法的高效性和扩展性。(本文来源于《微型机与应用》期刊2013年12期)
朱敏[4](2011)在《基于MapReduce的并行决策树分类算法研究与实现》一文中研究指出分类是数据挖掘和机器学习等领域中一个非常重要的研究课题,在众多领域中都得到了广泛的应用。当前已经提出的分类方法主要有贝叶斯分类、决策树、神经网络、支持向量机等,其中决策树方法以其构造速度快、生成模式简单、精度高等优点而广受欢迎。目前影响较大的决策树算法主要有ID3、SLIQ、SPRINT等。由于决策树分类模型精准程度直接依赖于训练数据集的大小,在处理海量数据时就会遇到时间复杂度过高的瓶颈,使其很难得到推广。因此,决策树分类算法的并行化开发就显得非常必要。本论文基于MapReduce并行编程模型对决策树分类算法的并行化进行了系统的研究。论文首先研究了各种串行决策树分类算法的主要思想,同时对现有的并行编程模型进行了全面的研究、分析和比较,发现MapReduce模型是一种适用于大规模数据并行计算的并行编程模型。在对决策树分类算法的并行性开发时,主要通过将训练数据集在各处理机上进行划分、并行地确定结点的最佳分裂属性以及并行地分割属性列表到各个子结点来实现。论文分别研究了叁种MapReduce实现架构下并行决策树分类算法的设计,并在Phoenix共享内存架构上对SPRINT算法进行了具体的并行实现。通过实验分析和比较,结果表明本文研究的方法和实现不仅比基于MPI并行编程模型的同类决策树算法的实现编程更容易,而且在计算节点较多的情况下能得到更优的性能,获得更大加速比。(本文来源于《江西师范大学》期刊2011-04-01)
朱敏,万剑怡,王明文[5](2011)在《基于MR的并行决策树分类算法的设计与实现》一文中研究指出决策树分类方法是实现数据挖掘中分类任务的一种有效方法,但在大规模测试数据集上运行时其实现性能受到严重影响。本文设计和实现一种基于MapReduce架构的并行决策树分类算法。实验结果表明:基于MapReduce的决策树分类算法比同类算法在其他并行编程模型下的实现在计算节点较多的情况下能得到更优的性能。(本文来源于《广西师范大学学报(自然科学版)》期刊2011年01期)
邢晓宇[6](2010)在《决策树分类算法的并行化研究及其应用》一文中研究指出随着企业信息化进程的不断推进,针对工业、商业、金融和信息检索各种应用所产生的巨大数据集而进行的算法研究,已经成为数据挖掘领域研究的主要动力。数据量不断增加,如何处理海量数据成为数据处理的一大难点。解决这个问题有两种方法:一种方法就是减少响应时间的采样方法,但在一些情况下,减少训练数据集可能会导致计算模型不准确,更为严重的是,挖掘模型可能根本没有用,如轮廓识别、异常点识别等;另外一种方法就是并行计算方法。并行计算方法是相对于串行计算方法来说的,所谓的并行计算分为空间上的并行和时间上的并行。空间上的并行是指用多个处理器同时执行计算,而时间上的并行则是指流水线技术。并行数据挖掘和高性能计算机结合在一起,就能为挖掘海量数据集提供一个最佳的研究方案。在众多的分类算法中,决策树具有出色的数据分析效率和排除噪音的强壮性,具有易于提取显示直观易懂的分类规则和易于显示重要的决策属性等优点,是典型的以逻辑模型的方式输出的分类结果的数据挖掘技术。目前学者们已经开展了对决策树并行算法的研究,但是存在着通信量过大、数据分布不合理、负载不平衡和可扩展性差等问题,出现了算法性能随数据量的递增而下降的情况。为解决现有决策树并行算法中存在的问题,本文搭建了并行计算环境,并对决策树并行化进行了认真分析,给出了决策树构建的并行性方案。在对决策树的并行训练策略进行性能分析的基础上,选择了横向数据划分方法,保证了决策树的精度。采用C语言设计并实现ID3并行算法,该算法在执行效率、减少时间复杂度方面具有较好的性能。最后将ID3并行算法应用于学生考试成绩的实例中,得到决策树模型以及决策规则。(本文来源于《云南财经大学》期刊2010-05-01)
房祥飞[7](2007)在《基于决策树的分类算法的并行化研究及应用》一文中研究指出随着社会各个领域计算机应用的普及,信息技术和网络技术高度发展,产生的数据量日益增大。如何有效地管理、利用数据库中数据,以及怎样才能发现其中潜在的知识,这就需要有新的、更为有效的手段来对各种数据源整理并进行分析,发现新的知识以发挥这些数据的潜能。由此数据挖掘技术应运而生并得以迅猛发展。数据挖掘,又称为数据库中的知识发现,就是从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取隐含在其中的、人们事先不知道的、但又是潜在的有用的信息和知识的过程。数据挖掘是一门新兴的技术,它以数据库技术作为基础,把逻辑学、统计学、机器学习、模糊学、可视化计算等多门学科的成果综合在一起,进行如何从数据库中得到有用信息的研究。数据挖掘技术得到了人们的普遍关注和广泛兴趣,广泛应用于商品市场、银行金融、保险、公共设施、政府、教育、远程通讯、运输等各个行业中。分类是数据挖掘中的一个重要研究领域。分类是一个两步过程。首先建立一个模型,描述预定义的数据类集或概念集,然后,使用模型进行分类。决策树分类是一种非常有效的分类方法。迄今为止,人们提出了很多种不同的决策树分类算法,各种算法在执行速度、可扩展性、输出结果的可理解性,分类的准确性等方面各有千秋。但它们在理论和方法上仍有不足之处。对决策树算法的进一步优化研究将不仅有助于算法理论的完善,而且有助于算法的推广和应用。本文对数据挖掘技术,尤其是决策树分类技术进行了较为系统地分析和研究,并对现有的并行决策树分类算法提出了改进,主要包括以下一些内容:(1)数据挖掘技术的概述。本文介绍了数据挖掘的基本概念、步骤,分类、主要方法、典型应用以及所面临的挑战等等。(2)决策树分类算法的研究。本文介绍了决策树分类的一般过程,描述和分析了几种典型的决策树建树和剪枝算法及其特点,就性能进行了对比,并对决策树技术的研究方向进行了探讨。(3)决策树分类算法的优化研究。本文对决策树分类算法的时间可扩展性和空间可扩展性进行了描述,对提高可扩展性进行了研究。对决策树的并行化研究进行了细致地探讨。(4)一种决策树分类的并行改进算法。本文提出了一种决策树分类的并行改进算法,不仅可以提高计算的并行性,而且可以降低I/O及通信开销,从而达到更好的并行性能,同时它具有良好的可扩展性。(5)决策树在市场细分中的应用。将本文提出的并行决策树算法应用于具体的市场细分实例中。针对手机市场,通过并行决策树分类技术在大量的消费者购买数据中进行分析和比对,进行市场细分,完成从数据导入到生成规则的完整的数据挖掘步骤,挖掘出不同消费者的特征,为决策者提供决策支持。在理论知识商业化应用方面,本文进行了一次有意义的探索和尝试。(本文来源于《山东师范大学》期刊2007-04-27)
郭四稳[8](2006)在《基于决策树分类器的归纳并行算法》一文中研究指出分类决策树的归纳是一种重要的数据挖掘算法。本文重点介绍了两种基于并行算法的分类决策树的构造算法,并对它们的适用性及特点作了分析。(本文来源于《计算机与数字工程》期刊2006年09期)
严胜祥,吴绍春,吴耿锋,金沈杰[9](2004)在《一种基于纵向划分数据集的并行决策树分类算法》一文中研究指出本文提出了一种处理多属性数据集的快速可扩展性并行分类算法—FSPC算法。它首次采用了纵向划分数据集以及在测试属性的选择过程中同步划分数据集等方法。实验结果表明 ,它不仅有利于减少通信及进行I/O的开销 ,而且有利于提高算法的并行度。(本文来源于《计算机工程与科学》期刊2004年07期)
并行决策树分类算法论文开题报告
(1)论文研究背景及目的
此处内容要求:
首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。
写法范例:
随着计算机和网络技术的迅速发展,数据呈爆炸式增长。大数据的有效存储和处理成为各大企业当前面临的最艰巨的任务之一。如何高效、低成本的从海量数据中挖掘出潜在、有用的信息是数据挖掘技术当前面临的一大难题。在数据挖掘算法中决策树分类算法占有重要地位,决策树分类算法被视为是一种重要的分类和预测手段。但传统的决策树分类算法为内存驻留算法,在单机环境下,由于内存的限制,只能处理小规模的数据;其次,决策树分类算法最耗时的阶段为分割指标的计算阶段;再者,决策树的生成过程是一个递归过程,时间复杂度高。因此本文旨在解决传统决策树算法不能处理大规模数据的问题,以及如何高效的处理大规模数据的问题。近来,云计算的出现,为数据挖掘技术的进一步发展带来了新的前景。因为云计算不仅具有海量存储的能力,而且还提供并行处理的能力;其次,云计算系统可以构建在普通的、廉价的PC机上,代替高性能计算机,大大降低了成本。因此,云计算的出现,使数据挖掘技术进入了云挖掘的时代。Hadoop是Apache基金会开发的一个分布式系统基础框架,其中,HDFS分布式存储文件系统和Map Reduce分布式计算框架是Hadoop最重要的设计。其次,Hadoop使得用户在进行分布式程序开发的时候可以不用了解分布式的底层细节,并提供了一种高效、低成本、可扩展的计算模式。本文通过分析算法本身的特点,结合Map Reduce编程模式,将决策树分类算法移植到Hadoop平台上,从而实现了高效、低成本的数据挖掘工作。本文的主要工作如下:(1)针对传统的ID3决策树分类算法不能处理大规模数据的问题,通过引入云计算的并行化思想,提出了一种基于Hadoop平台的并行决策树分类算法H_ID3H_ID3算法利用Map Reduce编程模型,实现了数据集纵向划分的并行化、横向划分的并行化以及决策树同一层所有节点最佳分裂属性选择的并行化。通过算法的实现及相关实验,验证了算法的可行性,其次还可以得到如下结论:H_ID3算法能够处理大规模的数据集,且具有良好的可扩展性和高加速比;其次,在处理的数据集规模较大时,H_ID3算法的效率明显高于ID3算法。(第3章)(2)针对传统C4.5决策树分类算法不能处理大规模数据的问题,提出了一种基于Hadoop平台的决策树分类算法H_C4.5H_C4.5算法和H_ID3算法的并行化思想大致相同,只是最佳分裂属性的选择标准不同。同样,通过算法的实现及相关实验,验证了算法的可行性,以及H_C4.5算法具有的高效性、高扩展性和高加速比。(第4章)(3)针对传统CART决策树分类算法不能处理大规模数据的问题,提出了一种基于Hadoop平台的决策树分类算法H_CARTH_CART算法利用Map Reduce模型,实现了对数据集的并行划分,以及利用Map Reduce本身具有的排序功能,实现对连续属性值的并行化排序;其次,同样也实现了决策树同一层所有节点最佳分裂属性的并行化计算,大大提高了算法效率。通过算法的实现和相关实验,验证了算法的可行性和H_CART算法具有的高效性、高可扩展性和高加速比。(第5章)
(2)本文研究方法
调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。
观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。
实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。
文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。
实证研究法:依据现有的科学理论和实践的需要提出设计。
定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。
定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。
跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。
功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。
模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。
并行决策树分类算法论文参考文献
[1].张永潘.基于大数据平台的决策树分类算法及并行化研究[D].南京邮电大学.2017
[2].李力.基于Hadoop的决策树分类算法的并行化研究[D].四川师范大学.2015
[3].林树地,吴扬扬.基于Hadoop的C4.5决策树分类算法并行化[J].微型机与应用.2013
[4].朱敏.基于MapReduce的并行决策树分类算法研究与实现[D].江西师范大学.2011
[5].朱敏,万剑怡,王明文.基于MR的并行决策树分类算法的设计与实现[J].广西师范大学学报(自然科学版).2011
[6].邢晓宇.决策树分类算法的并行化研究及其应用[D].云南财经大学.2010
[7].房祥飞.基于决策树的分类算法的并行化研究及应用[D].山东师范大学.2007
[8].郭四稳.基于决策树分类器的归纳并行算法[J].计算机与数字工程.2006
[9].严胜祥,吴绍春,吴耿锋,金沈杰.一种基于纵向划分数据集的并行决策树分类算法[J].计算机工程与科学.2004