导读:本文包含了数值类型属性论文开题报告文献综述及选题提纲参考文献,主要关键词:混合数据,数据挖掘,聚类分析,K-原型
数值类型属性论文文献综述
申罡[1](2015)在《针对混合数值型和分类型属性数据的划分式聚类算法研究》一文中研究指出聚类分析是数据挖掘领域的主要技术之一,该技术能够探索数据中的潜在结构,自动对数据进行划分,因而在学术界和工业界有着广泛的应用。但现有的多数聚类算法只能处理数值型或分类型数据,而现实世界中的数据集大多兼有数值型属性和分类型属性。这两种属性的取值差异较大,传统的聚类算法无法有效地处理。因而针对混合属性数据聚类算法的研究一直是聚类分析领域中的研究热点之一。本文研究了针对混合属性数据的划分式聚类算法,在传统聚类算法的基础上提出了两个新算法。在模糊K-prototypes算法的基础上提出了一个属性加权的模糊K-prototypes聚类算法AWFKP(Attributes Weighted Fuzzy K-prototypes)。算法结合了模糊隶属度、模糊质心和属性加权的思想:首先将模糊质心的思想运用于模糊K-prototypes算法的分类型属性簇中心表示,从而使簇中心能够更全面地代表簇信息;其次,考虑到不同属性对相异性度量的贡献不同,基于属性共现率的思想,设计了新的属性加权的相异性度量方法并给出了新算法;最后在UCI标准数据集上对算法进行了验证。实验结果表明算法聚类结果对应的划分相似度更高,对数据的处理结果更接近数据的真实划分。提出了基于遗传算法的K-prototypes聚类算法GAKP (Genetic Algorithm based K-prototypes)。针对K-prototypes算法对初始簇中心敏感的问题,将K-prototypes应用到遗传算法的框架中,使得新算法具有对簇原型的全局搜索能力。算法设计了基于划分相似度的适应度函数;采用随机生成法和随机选择法初始化种群,利用旋轮法选择待交叉的个体,使用精英策略保留个体至下一代;针对个体的数值型染色体和分类型染色体分别用模拟二进制交叉和单点交叉进行交叉操作;利用多项式变异和等概率变异分别对个体的数值型染色体和分类型染色体进行变异操作。在UCI标准数据集上对算法进行了验证,实验结果表明算法改善了K-prototypes对初始簇中心敏感这一缺点,并且能够取得更接近数据真实划分的聚类结果。(本文来源于《北京交通大学》期刊2015-01-01)
曹露燕,蒋晓云,孟凡荣[2](2006)在《基于数值型和分类型混合属性数据集的聚类算法研究》一文中研究指出介绍了数值型和分类型属性的概念以及处理分类型属性的方法,详细探讨了一种处理分类型和数值型的混合型属性数据集的算法(k-prototypes);在此算法的基础上,提出了一种基于分组选择法确定初始点的改进算法;并使用实际数据集对改进算法进行了测试,用详尽的数据证明改进算法的正确性和较强的可伸缩性,最后指出了聚类分析技术的进一步研究的方向.(本文来源于《2006“数学技术应用科学”》期刊2006-08-01)
数值类型属性论文开题报告
(1)论文研究背景及目的
此处内容要求:
首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。
写法范例:
介绍了数值型和分类型属性的概念以及处理分类型属性的方法,详细探讨了一种处理分类型和数值型的混合型属性数据集的算法(k-prototypes);在此算法的基础上,提出了一种基于分组选择法确定初始点的改进算法;并使用实际数据集对改进算法进行了测试,用详尽的数据证明改进算法的正确性和较强的可伸缩性,最后指出了聚类分析技术的进一步研究的方向.
(2)本文研究方法
调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。
观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。
实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。
文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。
实证研究法:依据现有的科学理论和实践的需要提出设计。
定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。
定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。
跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。
功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。
模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。
数值类型属性论文参考文献
[1].申罡.针对混合数值型和分类型属性数据的划分式聚类算法研究[D].北京交通大学.2015
[2].曹露燕,蒋晓云,孟凡荣.基于数值型和分类型混合属性数据集的聚类算法研究[C].2006“数学技术应用科学”.2006