离散属性论文-陆玉佳

离散属性论文-陆玉佳

导读:本文包含了离散属性论文开题报告文献综述及选题提纲参考文献,主要关键词:属性约简,多重分形,离散型萤火虫算法,MapReduce

离散属性论文文献综述

陆玉佳[1](2019)在《基于MapReduce的改进离散型萤火虫算法和多重分形的属性约简方法研究》一文中研究指出在机器学习和数据挖掘领域中,属性约简是进行数据预处理的一个关键环节。属性约简通过将原始数据集的噪音属性进行约简,在达到维数约简目的同时又能够保留原始数据集的特征。本文采用多重分形维数作为属性子集的评价准则,以萤火虫优化算法作为搜索策略,以求解属性约简问题。同时针对大数据环境下的属性约简问题,本文引入MapReduce并行编程模式,对提出的属性约简方法进行并行化改进,以提高算法运行效率。论文主要研究工作如下:(1)提出了基于MapReduce的改进离散型萤火虫算法和多重分形的属性约简方法(MR-IDGSO)。首先,通过对萤火虫个体的移动方式进行离散化改进,引入迁徙策略和高斯变异策略,避免算法陷入局部最优,提出了改进离散型萤火虫算法(IDGSO);其次与多重分形(MFD)相结合应用于属性约简中;最后针对大数据环境下的属性约简问题,采用MapReduce编程模式,实现对IDGSO和MFD并行化。在UCI数据集和实际气象数据集上的实验表明,该方法的约简性能和运行效率性能较优,具有较好的有效性和可行性。(2)将本文提出的MR-IDGSO方法应用到雾霾预测领域。采用MR-IDGSO方法对雾霾气象数据集进行属性约简,筛选出关键致霾因子,为雾霾预测提供有效的数据,然后选择SVM算法对约简出来的关键致霾因子进行分类准确率验证,通过北京、上海和广州叁个地区的雾霾数据集的测试,验证了本文方法在雾霾预测领域中的可行性和有效性。(本文来源于《合肥工业大学》期刊2019-04-01)

胡振华[2](2018)在《基于变精度粗糙集理论的多属性离散化方法研究》一文中研究指出随着机器学习、数据挖掘技术的普及,对机器学习结果的精确度要求越来越高。研究者们提出了许多学习算法,可以应用到各个领域和场景中,如非常适合分类学习的C4.5决策树算法和支持向量机算法。为提高学习效果和预测精度,作为数据挖掘和机器学习的一个重要预处理步骤,连续值属性的离散化的重要性实则非常重要。许多学习算法,如决策树,只能用于离散化的数据集,而且连续值属性的离散化使学习算法更易理解数据,并提高计算效率。当前,大多数离散化方法只考虑某一连续属性与类属性间的关系。单属性离散化方法缺乏对属性重要性的考量,离散属性的顺序大多随机决定,导致隐藏信息的丢失。单属性和多属性相结合的离散化方法可解决上述问题,其条件属性相对其他属性的重要度作为多属性评价标准,基于最小描述长度理论的信息长度为单属性评价标准。经研究验证,该离散化方法有效利用了属性重要度,提高了离散效果。单属性和多属性相结合的离散化方法的离散化停止规则是基于经典粗糙集理论中的一致性水平得到,因此存在缺点。经典粗糙集理论对集合间包含关系的定义过于严格,将大样本的多数包含也视为不一致样本,必然导致信息丢失。变精度粗糙集理论则放宽了包含关系的严格定义,引入了噪音阈值β,当不包含程度低于阈值时才说明某集合包含于另一集合。为了改进原离散方法,本文基于变精度粗糙集理论的包含关系提出不一致率,以此替换原离散化方法的离散停止准则,得到新的离散化算法。实验结果分析证明单属性和多属性相结合的离散化方法符合理论预期,有效避免了隐藏信息的丢失。本文基于变精度粗糙集理论对单属性和多属性相结合的离散化方法提出的改进使得原离散化方法的性能明显提升。基于变精度粗糙集理论虽然能够得到更合理的离散停止准则,但在计算过程中噪音阈值β值是基于经验得到的。如何通过数据集本身训练得到β值是离散化领域中值得研究的方向。(本文来源于《华中科技大学》期刊2018-12-01)

陆玉佳,倪志伟,朱旭辉,许力分,伍章俊[3](2018)在《基于MapReduce改进离散型萤火虫算法和多重分形的属性约简方法》一文中研究指出针对大数据环境下属性约简问题,提出基于MapReduce改进离散型萤火虫算法(IDGSO)和多重分形(MFD)的属性约简方法.首先,通过对萤火虫个体的移动方式进行离散化改进,引入迁徙策略和高斯变异策略,避免陷入局部最优,并提出改进离散型萤火虫算法.然后,将IDGSO结合MFD应用于属性约简中.最后,针对大数据环境下属性约简问题,采用MapReduce编程模式,实现对IDGSO和MFD的并行化.在UCI数据集和实际气象数据集上的实验表明,文中算法约简性能较优,运行效率较快,具有较好的有效性和可行性.(本文来源于《模式识别与人工智能》期刊2018年06期)

朱欣怡[4](2018)在《离散属性贝叶斯网络分类器的研究》一文中研究指出贝叶斯网络是对不确定性建模的工具,它将随机变量的相互关系用图模式表示出来,是概率理论和图模型的结合.目前分类学习是机器学习和大数据挖掘研究的重点问题之一,这些理论和技术已经在多领域得到了广泛应用.贝叶斯分类器是一种分类模型,可以高效地对大数据信息依照属性变量之间的依赖关系作较为精确的分类预测.根据属性变量的性质可以将分类器分为:离散属性贝叶斯分类器、连续属性贝叶斯分类器、混合属性贝叶斯分类器等,本文研究的是离散属性贝叶斯分类器.为了提高分类器的精度根据属性变量的依赖关系,学者们提出了众多分类器的构造方法和理论,如:朴素贝叶斯分类器、TAV贝叶斯分类器、隐朴素贝叶斯分类器、完全贝叶斯分类器等.其中朴素贝叶斯分类器是所有分类器中最为基础的一个,它成立的前提是假设属性变量是条件独立的,这使得属性变量之间的依赖信息无法得到利用,而这部分往往也会蕴含着较重要的分类信息.为了提高朴素贝叶斯分类器的精度,1996年Friedman等人提出了一种新型的分类器一一TAN分类器,放松了属性变量间独立性的假设,允许除了类变量外还可以有一个属性变量作为其属性父节点,这使得TAN分类器可以部分依赖属性变量的信息.当属性变量之间依赖关系复杂又提出了隐朴素贝叶斯分类器、K依赖分类器、半朴素贝叶斯分类器等.此外除了改变贝叶斯图模型外我们也可以通过改变属性变量的权重来提高分类器的精度,根据属性变量对分类的影响不同,又提出了基于互信息的加权朴素贝叶斯分类方法.本文做出了两种改进:1.在朴素贝叶斯分类器中通过改变权重的定义和幂次方来提高分类器的精度;2.根据属性变量之间依赖性强弱不同,对隐朴素贝叶斯分类器做模型简化.(本文来源于《山东师范大学》期刊2018-03-20)

陈迎春,李鸥,孙昱[5](2018)在《基于聚类离散化和变精度邻域熵的属性约简》一文中研究指出针对传感网采集数据的不完备性,利用数据本身特点,通过定义类簇指标,提出基于改进K-means聚类算法的数据离散化方法,以减小噪声、孤立点和不完备数据集对决策识别结果产生的影响;然后,通过引入互信息熵的属性重要度度量和变精度修正系数,提出基于互信息熵的变精度邻域粗糙集属性约简启发式算法,整合变精度和邻域粗糙集的优势,在减小约简算法计算复杂度的同时提高决策系统识别精度.仿真结果表明了算法在提高决策系统识别精度和降低其计算复杂度方面的有效性,模拟环境测试进一步验证了其工程适用性.(本文来源于《控制与决策》期刊2018年08期)

李娜[6](2017)在《基于属性离散化的贝叶斯分类算法及其应用研究》一文中研究指出朴素贝叶斯分类算法由于其简单且高效的优点成为数据挖掘十大经典算法之一,但是该算法在进行分类时假定属性间是彼此独立的。不过,在现实应用当中这类假设通常无法成立。在本文中,通过对数据预处理和减弱朴素贝叶斯算法的条件独立性假设来提高算法的分类准确率。主要研究工作如下:离散化技术是经常被用到数据预处理当中的技术。已知的数据离散化方法通常在处理不平衡数据集时表现不是非常理想。本文提出了一种新的离散化算法ICAIM算法,通过结合叁个不同离散化标准的优点来改善CAIM算法的性能。ICAIM算法提高了离散区间的质量,使离散化后的数据集的分类性能更好,尤其是不平衡数据集。同时,ICAIM算法的运行时间较CAIM算法有明显提高。隐朴素贝叶斯分类算法忽视了数据集中冗余或者无关属性对分类结果造成的不利影响,本文针对这一缺陷,提出了采用CFS算法对属性实施选取操作,选出一组最优的属性子集合。在减弱朴素贝叶斯算法的条件独立性假设的众多方法之中,属性权重法早已引起了研究者的重视。为进一步减弱条件独立性假设引发的不利影响,本文将根据各属性对分类结果的影响程度,为不同的属性赋予相应的权重。本文提出的权重获取方法不仅考虑了属性与属性间的依赖关系,而且考虑了属性与类属性间的依赖关系,使每个属性获取到的权重更加合理。现有的属性加权方法仅将学习到的属性权重纳入朴素贝叶斯分类公式中,而不将权重纳入其条件概率估计中,本文使用一种被称之为深度属性加权的方法,能够提高朴素贝叶斯模型的质量。最后把本文所提出的ICAIM和SW-HNB算法应用到冠心病中医辅助诊疗系统当中。首先通过ICAIM算法对冠心病临床数据进行离散化处理,然后再用SW-HNB算法对患者的病症分类。实验证明该系统可以有效地起到辅助诊疗的效果。(本文来源于《大连海事大学》期刊2017-05-01)

伍健民[7](2017)在《考虑属性决策规则异质性的混合离散选择模型及随机用户均衡研究》一文中研究指出出行行为研究是交通领域的重要课题,它为交通系统研究提供了坚实的理论基础。传统的离散选择模型为交通需求分析做出了巨大贡献,但其通常假设出行者是完全理性的,并以期望效用最大化作为决策依据。而现实中的出行者往往无法做到完全理性,不仅仅只追求出行效用最大或出行阻抗最小,也会尽量避免因备选选择可能更好而产生的负面后悔情绪。而最新的研究表明,出行者在决策制定过程中会存在决策准则异质性的问题,并且在模型中同时考虑多种决策规则往往可以提高模型的拟合度。因此如何在一个模型中同时考虑多种决策规则是一个值得深入研究的问题。本文以后悔理论和期望效用理论为基础,在随机后悔最小化(RRM)和随机效用最大化(RUM)的框架内,考虑决策规则在属性层面上存在的异质性,构建了一个更具一般性的混合离散选择模型(G-RMUM模型)。模型假设决策者在同一属性值的计算上可能同时考虑两种决策规则,并且不同的决策规则具有不同的权重系数。在选取特定权重系数的情况下,RRM、RUM以及其它相关的现有模型都是该一般混合离散选择模型的特例。本文首先利用瑞士官方一组关于出行方式选择的调查数据,对提出的G-RMUM模型运用Biogeme软件包进行参数估计和模型验证。通过与其它各模型拟合数据的对比,表明G-RMUM模型与数据的拟合度最高。为了增加模型的可信度,再次利用笔者收集到关于出行路径选择的意向性调查数据对多个模型进行检验,结果显示相较于其他模型G-RMUM模型有更大的提升,从而证实该模型对出行者的选择决策描述更加准确。此外,本文进一步将G-RMUM模型引入交通配流研究,重新定义了随机用户均衡条件,构建了新的配流模型,给出了等价的变分不等式模型及相应的算法。通过数值算例分析相关参数对配流结果的影响。结果表明G-RMUM模型能够更加细致的捕捉到出行者在择路过程中在属性层面上存在的异质性。在时间价值取不同值的情况下,G-RMUM模型也都可以很好的描述路网中路段流量和路径流量的分配情况。对于指导路网设计、交通需求预测等提供了新的思路。(本文来源于《南京大学》期刊2017-05-01)

赵柯[8](2016)在《面向离散属性的决策树分类方法研究》一文中研究指出数据挖掘是指在大量已存在的数据中发现规律的一个过程。近年来,在大量数据中智能提取知识已经引起了业界广泛的关注。数据挖掘领域包括分类、聚类、聚簇、关联分析等各种挖掘方法。决策树算法因它提取知识简单、高效、易于理解等优点,在数据挖掘领域中占有无可替代的地位。在已有的决策树算法中,计算决策树分裂结点的标准大多以香农的信息熵为基础,信息熵需反复地进行对数运算,分类效率不高。又因已有算法在选择候选结点时的随机性,使分类器无法进一步选择判断属性分裂标准相同时的情况,进而降低预测分类的准确率。本文针对已有决策树算法的缺点,提出以下改进:(1)本文针对已有决策树算法分类效率不高的问题,为避免复杂的对数运算,提高CPU的利用率,提出了改进的属性判断标准的优化函数。对比实验显示该优化函数能有效提高分类效率和CPU的利用率。(2)本文针对生成后的决策树分类器精确率低的问题,为避免当两个或更多的属性判断标准的计算值接近某个阈值或相等,随机选择一个结点作为下一个属性分裂的结点,进一步引入了一个基于堆的属性判断方法,以此来提高分类精确率。通过实验验证,该方法可以有效提高某些特定数据集的分类精确率。(3)本文进一步针对决策树分类精确率不高以及过度拟合的问题,引入了基于分类规则的方法。利用改进的决策树算法N次随机抽样生成N个决策树分类器,再从这些分类器中挑选出最优的分类规则,生成最终的决策树模型。经过实验验证,该算法相比已有算法,在分类效率和分类准确率上都有相应的提高。(本文来源于《大连海事大学》期刊2016-12-01)

康燕茹[9](2016)在《基于连续属性离散化的属性偏序理论的知识发现》一文中研究指出计算机技术的迅猛发展和数据库系统的普遍使用,给人们提供了强有力的平台,去更好地利用信息技术进行生产,而且搜集和检索数据的能力也有显着提高。丰富多样的信息感知和采集设备引领我们步入大数据时代。然而,采用什么样的手段和技术从海量数据中发现对决策非常有价值的规则和知识,成为前沿科技亟需解决的关键问题。数据挖掘与机器学习作为处理数据的重要手段,已然成为当今研究的一个热点问题。但是,许多知识发现和数据挖掘的算法得以进行的先决条件就是所要处理的属性值是离散值,而在现实生活中得到的数据常常是连续属性,所以必须对连续属性进行离散化处理。本文通过以UCI数据集的知识发现和规则提取为基础,通过主流连续属性离散化方法的对数据集中的多维属性值进行离散化处理,并且以形式概念分析理论的形式背景的可视化表达为重要手段,运用离散化处理后的数据结果构建二值形式背景,以形式背景分层优化和属性偏序结构图生成方法为关键环节,生成不同数据集的属性偏序结构图,进行知识的规则提取,通过与数据集的分布特点及类标签来比较,对离散化方案进行评估。主要内容如下:1)建立了基于形式背景的知识表达原理的混合数据集成框架,实现各种数据在一个框架下可视化表示和基于属性偏序结构理论实现的数据挖掘。2)研究了基于优化形式背景生成偏序结构原理的知识发现数学方法,生成了基于属性覆盖对象(或者对象覆盖属性)原理的数据偏序结构图。3)针对现有离散化算法在高维数据处理中的局限性,研究了一种基于非线性降维技术的高维数据离散化方法-改进局部线性嵌入算法,实现基于连续属性离散化的属性偏序理论的知识发现。本文通过对UCI数据集的降维及离散化处理后,有着更高精度的知识,简化了复杂的知识规则,对大数据的知识规则提取及可视化有重要意义。(本文来源于《燕山大学》期刊2016-12-01)

李志豪[10](2016)在《基于离散粒子群算法的粗糙集属性约简》一文中研究指出提出了一种改进的属性约简启发式算法,首先介绍了离散粒子群算法的基本原理,构造出适应值函数,利用粒子群算法对信息系统进行属性约简,并通过实例验证该方法的有效性。(本文来源于《工业控制计算机》期刊2016年11期)

离散属性论文开题报告

(1)论文研究背景及目的

此处内容要求:

首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。

写法范例:

随着机器学习、数据挖掘技术的普及,对机器学习结果的精确度要求越来越高。研究者们提出了许多学习算法,可以应用到各个领域和场景中,如非常适合分类学习的C4.5决策树算法和支持向量机算法。为提高学习效果和预测精度,作为数据挖掘和机器学习的一个重要预处理步骤,连续值属性的离散化的重要性实则非常重要。许多学习算法,如决策树,只能用于离散化的数据集,而且连续值属性的离散化使学习算法更易理解数据,并提高计算效率。当前,大多数离散化方法只考虑某一连续属性与类属性间的关系。单属性离散化方法缺乏对属性重要性的考量,离散属性的顺序大多随机决定,导致隐藏信息的丢失。单属性和多属性相结合的离散化方法可解决上述问题,其条件属性相对其他属性的重要度作为多属性评价标准,基于最小描述长度理论的信息长度为单属性评价标准。经研究验证,该离散化方法有效利用了属性重要度,提高了离散效果。单属性和多属性相结合的离散化方法的离散化停止规则是基于经典粗糙集理论中的一致性水平得到,因此存在缺点。经典粗糙集理论对集合间包含关系的定义过于严格,将大样本的多数包含也视为不一致样本,必然导致信息丢失。变精度粗糙集理论则放宽了包含关系的严格定义,引入了噪音阈值β,当不包含程度低于阈值时才说明某集合包含于另一集合。为了改进原离散方法,本文基于变精度粗糙集理论的包含关系提出不一致率,以此替换原离散化方法的离散停止准则,得到新的离散化算法。实验结果分析证明单属性和多属性相结合的离散化方法符合理论预期,有效避免了隐藏信息的丢失。本文基于变精度粗糙集理论对单属性和多属性相结合的离散化方法提出的改进使得原离散化方法的性能明显提升。基于变精度粗糙集理论虽然能够得到更合理的离散停止准则,但在计算过程中噪音阈值β值是基于经验得到的。如何通过数据集本身训练得到β值是离散化领域中值得研究的方向。

(2)本文研究方法

调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。

观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。

实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。

文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。

实证研究法:依据现有的科学理论和实践的需要提出设计。

定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。

定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。

跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。

功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。

模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。

离散属性论文参考文献

[1].陆玉佳.基于MapReduce的改进离散型萤火虫算法和多重分形的属性约简方法研究[D].合肥工业大学.2019

[2].胡振华.基于变精度粗糙集理论的多属性离散化方法研究[D].华中科技大学.2018

[3].陆玉佳,倪志伟,朱旭辉,许力分,伍章俊.基于MapReduce改进离散型萤火虫算法和多重分形的属性约简方法[J].模式识别与人工智能.2018

[4].朱欣怡.离散属性贝叶斯网络分类器的研究[D].山东师范大学.2018

[5].陈迎春,李鸥,孙昱.基于聚类离散化和变精度邻域熵的属性约简[J].控制与决策.2018

[6].李娜.基于属性离散化的贝叶斯分类算法及其应用研究[D].大连海事大学.2017

[7].伍健民.考虑属性决策规则异质性的混合离散选择模型及随机用户均衡研究[D].南京大学.2017

[8].赵柯.面向离散属性的决策树分类方法研究[D].大连海事大学.2016

[9].康燕茹.基于连续属性离散化的属性偏序理论的知识发现[D].燕山大学.2016

[10].李志豪.基于离散粒子群算法的粗糙集属性约简[J].工业控制计算机.2016

标签:;  ;  ;  ;  

离散属性论文-陆玉佳
下载Doc文档

猜你喜欢