导读:本文包含了符号型数据论文开题报告文献综述及选题提纲参考文献,主要关键词:分类,相似度,代表,分类冲突
符号型数据论文文献综述
刘福伦[1](2018)在《基于覆盖约简的符号型数据分类及主动学习》一文中研究指出分类研究作为机器学习、模式识别和数据挖掘等领域最主要的研究任务,一直受到学术界、工业界的持续广泛的关注。大数据时代的到来,更是为分类研究带来了前所未有的机遇与挑战。随着粗糙集技术,特别是邻域覆盖粗糙集技术的不断发展和完善,大量相关算法被相继提出。特别是基于覆盖约简的分类方法,已成为当前的研究热点。本文就基于代表的邻域覆盖粗糙集分类算法,重点研究了不同相似度计算方法以及不同冲突解决机制对其分类性能的影响;同时根据算法特点设计出与之对应的五种主动学习策略,使改造后的算法能应用在主动学习的任务场景中。首先,本文重现了一种覆盖约简算法——基于代表的邻域覆盖粗糙集分类算法,并详细介绍了该算法在训练和测试阶段的工作原理。然后,本文对比了 Overlap,Eskin,OF,IOF,Gooda113和Gooda114六种不同相似度计算方法,在训练阶段对分类精度的影响。因为名词型数据的相似度计算方法与数值型数据的不同,它们会考虑值域空间以及分布规律等其他信息。所以研究不同相似度计算方法下的算法分类性能尤为重要。实验发现,Overlap和IOF相似度明显更适用于原算法。另外,本文还提出相似度模型、支持度模型、密度模型和属性权重模型四种冲突解决模型,研究了它们在测试阶段对分类精度的影响。原算法在测试阶段,特别是数据采样不均时,采用标准投票处理分类冲突的方法存在较大误分类风险。而本文提出的四种模型便能有效应对这类情况的发生。实验证明,原算法采用属性权重模型后能有效提高分类精度。最后,本文提出了基于代表性和基于不确定性的五种主动学习策略,设计出基于代表的邻域覆盖粗糙集主动学习算法。算法能根据当前己标记和未标记样本的信息,主动获取部分未标记样本的决策信息,从而不断更新分类器,不断加强分类能力。实验首先对本文提出的五种主动学策略进行对比,然后选择分类性能最好的学习策略与经典的AL-ID3,AL-Bayes和AL-kNN算法进行对比,验证了本文提出的基于异质QBC主动学习算法能在分类精度方面取得更好的结果。(本文来源于《西南石油大学》期刊2018-05-01)
杨烽[2](2018)在《利用粒计算的符号型数据分组算法》一文中研究指出在数据挖掘领域,基于符号型数据分组的数据预处理是一个极富挑战性的问题,它给人们提供了一种更加简化的数据表现形式。在已往的研究中,相关学者提出了许多解决方案,例如,运用粗糙集的方法来解决这一问题。文中提出了一种基于粒计算的符号型数据分组算法,主要分为粒度生成和粒度选择两个阶段。在粒度生成阶段,对于每一条属性,以对应属性值的聚类为叶子节点,自底向上以二进制树的形式构建粒层,形成属性树森林。在粒度选择阶段,以信息增益为基础,对每棵树进行全局考虑,选取最优的粒层,选层结果就是符号型数据的分组结果。实验结果表明,本算法呈现出比已有算法更加平衡的层次结构和更加优秀的压缩效率,具有较好的应用价值。(本文来源于《计算机科学》期刊2018年S2期)
王建新[3](2016)在《符号型数据聚类算法的研究》一文中研究指出近年来符号型数据的无监督学习在模式识别、机器学习、数据挖掘和知识发现等诸多领域,起着愈来愈重要的作用。为了有效地挖掘符号型数据内在的组结构信息,相关文献中已经发展了很多符号型数据的聚类算法。然而这些算法相比数值型数据的聚类算法,在性能方面仍然有很大的提升空间,其根本原因在于符号型数据缺乏类似数值型数据那样清晰的空间结构。本工作跟踪国际国内的研究前沿,针对符号型数据的聚类问题进行了深入的探究和实验,取得的成果如下:(1)深入研究目前国际国内流行的、经典的符号型数据聚类算法,分析比较各个方法的优缺点,进而引出新的聚类算法的研究动机和目标。通过采用新的符号数据表示方案,将原始的符号数据在不失任何信息的情况下,映射到新的维度的欧式空间中。基于这一新的符号数据的聚类框架,为了找到类中更有代表性的模式,结合Carreira-Perpi~n'an提出的K-Modes算法进行无监督学习(SBC_K-modes算法)。通过与其它四种经典的符号型数据聚类算法在9个UCI数据集上实验的比较,结果验证了新算法的有效性。(2)在对符号数据可能存在的空间结构的进一步研究和假设的基础上,提出一种新的符号数据的再表示方案。经过推理和实验验证了这一表示的正确性和有效性。在这一表示的基础上,结合两种不同的差异性度量方式和K-Means算法基本范式,提出了两种算法(NSBC和JSBC)。通过与其它四种经典的符号型数据聚类算法在9个UCI数据集上实验的比较,结果验证了新算法的有效性。总之,本文对符号数据聚类相关理论进行了研究,提出了新的符号数据的再表示方案和相应的算法,并在UCI数据集上对算法的有效性进行了验证。本文的研究为符号型数据的聚类分析提供了新方法与新思路,在数据挖掘和知识发现等领域有着一定的应用价值。(本文来源于《山西大学》期刊2016-06-01)
张小宇[4](2009)在《基于图论的符号型数据聚类算法研究》一文中研究指出聚类是数据挖掘中重要的组成部分,是一种无监督的学习。聚类算法是将一组分布未知的数据进行分类,尽可能地使得同一类中的数据具有相同的性质,而不同类的数据其性质各异。近年来,随着人们对聚类技术的不断研究,聚类分析在机器学习、数据挖掘等很多领域已经成为人们进行数据分析和信息提取的研究热点。针对数值型数据的聚类已经进行了大量的研究,在实际应用中符号型数据仍然广泛存在,并且数值型数据的聚类算法不能直接应用于符号性数据,因此,符号性数据的聚类算法成为近年来的研究热点。本文利用图的相关理论对符号型数据聚类算法进行了深入研究,主要研究成果如下:(1)根据符号型数据的特征,结合图论的相关概念,提出了一个把符号型数据转化为无向图的转化模型,该模型有利于更好地研究符号型数据聚类算法,有一定实际价值。(2)在转换后的无向图基础上,通过图聚类领域的相关理论,给出了字符型数据中不同属性值之间相似性度量,并将该相似性度量应用于K-Modes算法,实验结果表明,该相似性度量优于0-1相似性度量。(3)设计并实现了一个基于符号型数据的聚类实验系统。该系统基于B/S结构,Apache2.2.4+PHP5.2.9+Mysql5.0技术开发而成,采用了最新的web2.0理念和技术。本系统具有稳定性,交互性,可扩展性等特点,该系统的建立为符号型数据聚类研究提供了一个横向比较平台,具有一定的应用意义。总之,本文以图聚类理论为研究手段,以符号型数据聚类为研究目标,提出了一种新的符号型数据相似性度量,并采用最新的技术和理念实现了一个符号型数据聚类算法实验系统,并在此基础上对UCI数据集进行了聚类实验分析,证明了改进的相似性度量方法能够提高聚类精度,具有一定的应用价值。(本文来源于《山西大学》期刊2009-06-01)
符号型数据论文开题报告
(1)论文研究背景及目的
此处内容要求:
首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。
写法范例:
在数据挖掘领域,基于符号型数据分组的数据预处理是一个极富挑战性的问题,它给人们提供了一种更加简化的数据表现形式。在已往的研究中,相关学者提出了许多解决方案,例如,运用粗糙集的方法来解决这一问题。文中提出了一种基于粒计算的符号型数据分组算法,主要分为粒度生成和粒度选择两个阶段。在粒度生成阶段,对于每一条属性,以对应属性值的聚类为叶子节点,自底向上以二进制树的形式构建粒层,形成属性树森林。在粒度选择阶段,以信息增益为基础,对每棵树进行全局考虑,选取最优的粒层,选层结果就是符号型数据的分组结果。实验结果表明,本算法呈现出比已有算法更加平衡的层次结构和更加优秀的压缩效率,具有较好的应用价值。
(2)本文研究方法
调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。
观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。
实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。
文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。
实证研究法:依据现有的科学理论和实践的需要提出设计。
定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。
定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。
跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。
功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。
模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。
符号型数据论文参考文献
[1].刘福伦.基于覆盖约简的符号型数据分类及主动学习[D].西南石油大学.2018
[2].杨烽.利用粒计算的符号型数据分组算法[J].计算机科学.2018
[3].王建新.符号型数据聚类算法的研究[D].山西大学.2016
[4].张小宇.基于图论的符号型数据聚类算法研究[D].山西大学.2009