聚类有效性指标论文-刘丛,陈倩倩,陈应霞

聚类有效性指标论文-刘丛,陈倩倩,陈应霞

导读:本文包含了聚类有效性指标论文开题报告文献综述及选题提纲参考文献,主要关键词:有效性指标,多距离聚类,多目标进化算法,聚类数目

聚类有效性指标论文文献综述

刘丛,陈倩倩,陈应霞[1](2019)在《多距离聚类有效性指标研究》一文中研究指出现有的聚类有效性指标大都是基于欧氏距离而设计.虽然对超球型数据效果较好,但对非超球型数据效果并不理想.基于此,提出一种基于多目标进化算法的多距离聚类有效性指标(MoMDVI).首先使用两种距离设计两个聚类目标,并使用类代表点代替类中心点;其次使用一组实数设计染色体,该组实数可解码成代表点序号的形式;然后使用基于正则化的分布估计算法(RMMEDA)对两个目标进行优化.在进化算子中,加入差分进化算子对RMMEDA算法进行改进,以提高算法的收敛速度.将MoMDVI与现有算法在不同结构的数据上对比可知,MoMDVI不仅可以自动检测超球型数据聚类数目,也可以自动检测非超球型数据聚类数目.(本文来源于《小型微型计算机系统》期刊2019年10期)

傅立伟,武森[2](2019)在《基于属性值集中度的分类数据聚类有效性内部评价指标》一文中研究指出针对分类数据,通过数据对象在属性值上的集中程度定义了新的基于属性值集中度的类内相似度(similarity based on concentration of attribute values,CONC),用于衡量聚类结果中类内各数据对象之间的相似度;通过不同类的特征属性值的差异程度定义了基于强度向量差异的类间差异度(dissimilarity based on discrepancy of SVs,DCRP),用于衡量两个类之间的差异度.基于CONC和DCRP提出了新的分类数据聚类有效性内部评价指标(clustering validation based on concentration of attribute values,CVC),它具有以下3个特点:(1)在评价每个类内相似度时,不仅依靠类内各数据对象的特征,还考虑了整个数据集的信息;(2)采用几个特征属性值的差异评价两个类的差异度,确保评价过程不丢失有效的聚类信息,同时可以消除噪音的影响;(3)在评价类内相似度及类间差异度时,消除了数据对象个数对评价过程的影响.采用加州大学欧文分校提出的用于机器学习的数据库(UCI)进行实验,将CVC与类别效用(category utility,CU)指标、基于主观因素的分类数据指标(categorical data clustering with subjective factors,CDCS)指标和基于信息熵的内部评价指标(information entropy,IE)等内部评价指标进行对比,通过外部评价指标标准交互信息(normalized mutual information,NMI)验证内部评价效果.实验表明相对其他内部评价指标,CVC指标可以更有效地评价聚类结果.此外,CVC指标相对于NMI指标,不需要数据集以外的信息,更具实用性.(本文来源于《工程科学学报》期刊2019年05期)

温鹏[3](2019)在《聚类分析中的改进K-means算法和新聚类有效性指标的研究》一文中研究指出聚类分析是自主的发现数据集中的自然结构,并根据数据间的规律将数据集划分成若干个聚簇的重要工具。作为“无监督学习”的方法,聚类分析己经被广泛应用在数据挖掘,模式识别,图像处理等领域。聚类分析主要分为对聚类算法和聚类有效性指标(CVI)的研究。但是,面对大数据时代,现有的聚类算法和聚类有效性指标都存在若干问题,包括:算法的效率较低、聚类结果的准确性较差、对噪声点较为敏感和无法高效正确地处理大规模数据集等问题。针对上述问题,本文聚焦于对K-means算法的改进,同时提出了新的适用于大数据的聚类有效性指标(BCVI)。本文的主要工作如下:(1)针对传统的K-means算法应对大规模数据集时效率较低的问题,本文将网格算法中划分网格的思想引入K-means算法提高算法效率,提出了改进算法Grid-K-means;同时,本文利用网格算法中的网格密度解决了K-means算法无法确定初始聚类中心的问题;为了规避网格算法划分网格需要设置过多参数的问题,本文利用动态网格的操作代替数据点的操作来提高改进的Grid-K-means算法的效率和准确率,并减少聚类算法需要手动设置初始参数的数量。改进的Grid-K-means算法具有更好的稳定性、准确性和鲁棒性。(2)本文提出新的适用于大规模数据集的聚类有效性指标BCVI。BCVI指标利用加权网格作为多个代表点来处理各种形状的聚簇,避免了所有样本点参与计算带来的计算量过大的问题。同时,多个代表点较单个代表点可以更好地评估聚类结果的质量。最后,利用各个聚类中心构建的最小生成树和最大生成树的组合确定聚簇之间的分离性。各个聚类中心之间的最大生成树的加入可以更好的评估聚簇间的分离程度,同时可以平衡聚簇内部紧致性数据上的差异,保证BCV1指标有更稳定的评估效果。(3)BCVI指标由簇内紧致性和簇间分离性的线性组合构成,通过分析BCVI指标特性可以发现BCVI指标具有的单调性特性可以快速地确定最佳聚类数(Kop邮)。BCVI在寻找最佳聚类数(Kopt)方面花费的时间成本远低于利用经验规则2 ≤ K ≤(?)的常用方法。通过该方法,BCVI可以快速确定最佳聚类数KKpt,特别是对于大规模数据集。(4)利用模拟数据集和真实数据集对本文提出的改进算法Grid-K-means和新的聚类有效性指标BCVI进行测试。实验证明,Grid-K-means算法比传统的K-means算法、K-medoids算法、K-means++算法和改进的K-means算法更快,更准确。同时,BCVI指标与其他7种现有指标(DI指标、DBI指标、I指标、CH指标、COP指标、STR指标、VCVI指标)的对比实验结果表明,新的BCVI指标在数据处理速度和稳定性方面优于传统指标。(本文来源于《安徽大学》期刊2019-03-01)

王雪[4](2019)在《聚类分析中面向重迭数据集的新型聚类有效性指标的研究》一文中研究指出聚类分析在许多科学领域发挥着重要作用,聚类算法和聚类验证是聚类分析的两个基本要素。在聚类分析之前,聚簇的数量是聚类算法的基本参数。在聚类分析之后,对聚类结果的有效性进行评估。而在整个过程中最佳聚类数的合理选择对形成正确的聚类结果有着十分重要的影响。然而,聚类分析属于无监督学习方法,这一特性使其在应用中很难获取具体数据集的最佳聚类数。作为一种度量聚类性能和确定聚类数的有效方法,聚类有效性指标在聚类分析的过程中就显得尤为重要。本文主要工作是在改进的聚类算法的同时对聚类有效性指标进行研究,并在此基础上针对一些不足之处提出了新的聚类有效性指标。新算法和新指标都比较适合处理重迭数据,改进了之前一些指标和算法对重迭数据无法处理的不足。具体工作内容如下:(1)本文主要对不同类型的聚类算法进行了研究和分析并提出了一种新的聚类算法。本文共对其中12种聚类算法进行了分析。基于对12种不同类别聚类算法的研究,总结了不同类别的算法都存在各自的优点和缺陷。着重对K-means算法进行了介绍,因为新算法是利用网格划分方法对K-means算法做出的改进。新算法不仅克服了K-means算法的缺陷还可以有效的处理重迭数据集。(2)文章中着重对13种聚类有效性指标进行研究,这13种指标被分为两类进行讨论分析。通过分析以及结合大量的相关文献总结可知无论是外部有效性指标还是内部有效性指标对于数据结构的多样性以及重迭度方面都存在不足。(3)本文主要提出一种新的聚类有效性指标,新指标是一种适用于重迭数据的指标——WCH指标。新的聚类有效性指标是由聚簇内紧密度、聚簇间分离度以及聚簇间重迭度叁部分构成的。新指标的提出不仅考虑到了大部分指标考虑到的聚簇内紧密度和聚簇间分离度的问题还在此基础之上加入了数据重迭度对聚类结果判断的因素。本文并用数学方法分类讨论、归纳总结将数据重迭度表示出来。(4)本文针对新指标性能的检测做了大量的对比实验。从众多指标中选择了比较经典的有代表性的指标DI指标,DBI指标,I指标和COP指标与新的聚类有效性指标基于新聚类算法对不同类型数据集的聚类结果的判断做了对比试验。其中,这些不同类型的数据集其中包括5个模拟数据集和3个真实数据集,有着不同的维数,不同的空间分布,不同的重迭度和不同的规模等。用这些对比实验证明新指标的优越性。大量对比实验的结果表明:新的聚类有效性指标——WCH指标能够对不同维数,不同规模,不同形状等不同的数据集特别是不同重迭度的数据集的聚类结果做出高效准确的判断。(本文来源于《安徽大学》期刊2019-03-01)

朱斌斌[5](2019)在《基于改进聚类算法的新聚类有效性指标的研究》一文中研究指出聚类分析作为一种无监督学习方法,是获取数据信息的重要工具,它被广泛的应用在数据挖掘、模式识别、图像处理、机器学习和其他各个领域。由于简单性和高效性的特点,K-means算法是划分聚类方法中最为流行的一种聚类方法,但由于不同的参数值设置和初始聚类中心点的随机选择而导致划分聚类结果很不稳定,可能为单个数据集产生不同的聚类分区。聚类有效性指标(CVI)是评估不同聚类算法划分聚类结果的重要方法。然而,大多数聚类算法对于最佳聚类数(Kopt)无法确定,因此,很多研究者提出了众多新聚类有效性指标CVI,但是,目前大多数CVIs都存在若干问题:聚类结果的稳定性差,效率低、不能处理重迭度比较大的数据集和一些复杂的非凸形数据集等。针对以上问题本文首先改进了传统的K-means算法,并由此基于不同的聚类算法提出了两个新的聚类有效性指标CVI。本文主要做出了以下几个方面的工作:1.对于传统的K-means算法对起始聚类中心点的随机选择而导致聚类结果的不稳定性问题进行了改进,提出了一种基于动态平均距离的改进的D-K-means算法。并利用多个数据集进行实验对比,结果显示改进的算法更稳定,更精确。2.针对一些重迭度比较大的,样本点之间有很大密度差异的数据集,传统的CVIs在聚类的过程中可能处理不当而导致聚类结果不稳定,本文利用最大最小生技术提出了一种基于层次聚类算法的新聚类有效性指标-NCVI。并与其他6个常用的CVI指标在4个模拟数据将和2个UCI真实数据集上做实验对比,结果表明本文提出的指标更稳定,在给定的数据集上划分聚类结果更精确。3.针对传统的CVIs在划分聚类时,由于指标的波动性而导致聚类结果不稳定,并且对于形状不规则的非凸型数据集,NCVI指标可能有一些比较差的聚类效果,因此,基于以上不足本文通过簇内紧凑和簇间分离的线性组合提出了另一种基于改进K-means算法的新聚类有效性指标-DCVI。该指标是通过动态距离的方式寻找所有簇之间样本点的动态平均值,这样做的日的是防止产生多个极大值与极小值点,不仅提高了指标的稳定性,还拓展了适应数据集的广泛性。4.将改进的K-means算法和新提出的指标相结合设计了一种新的快速确定最佳聚类数的K值优化算法(KVOA)。传统的聚类算法在聚类开始时会设置最佳聚类划分的值(Kopt),不同的Kopt会对聚类的分区结果产生很大的影响。因此本文设计一种基于新提出的指标的K值优化算法目的在于更精确的确定聚类的最佳分区。5.针对每个聚类算法的不同特性,有的算法执行速度快(分区算法),而有的则结果更稳定(层次算法),本文提出了一种基于不同聚类算法的拓展的K值优化算法(EKVOA)。该算法不仅能够处理常规的数据集,对于很多维数比较高的UCI机器学习数据集(Haberman,Heart,Energy_efficiency等)也能够很好的处理。最后,利用多个模拟数据集和多个UCI机器学习真实数据集来对本文提出的改进算法和两个新的聚类有效性指标(DCVI和NCVI)进行测试。实验结果表明,改进的D-K-means算法比传统的K-means算法具有更高的精确度和稳定性。新提出的DCVI指标在稳定性上和适用范围上明显优于其他传统的6个CVI指标。(本文来源于《安徽大学》期刊2019-03-01)

王俊智,杜朋召,牛兆轩[6](2018)在《基于K-means聚类方法和Ⅰ Index聚类有效性检验指标的岩体结构面自动分组及应用》一文中研究指出岩体结构面产状数据的统计分组是工程地质、水文地质工作中基础但十分重要的环节。常用的倾向、走向玫瑰花图和极点等密度图人为主观因素大,需借助合适的数学手段对结构面产状数据进行客观划分。基于Kmeans聚类方法和Ⅰ Index聚类有效性检验指标,提出了一种岩体结构面自动分组方法,并开发了岩体结构面自动分组程序RDAP。通过与经典文献进行对比,验证了所提分组方法的可靠性。最后,以某工程为例,使用RDAP对实测涌水裂隙资料进行了预处理,初步计算了灌浆钻孔的最佳方位,为工程涌水的防治提供了依据。(本文来源于《长江科学院院报》期刊2018年09期)

祖志文,李秦[7](2018)在《关于马氏距离模糊聚类的有效性指标研究》一文中研究指出为了研究基于马氏距离模糊聚类算法的有效性,首先对比分析了基于数据集模糊划分与几何结构的模糊聚类有效性指标,确定了将紧致度、分离度与清晰度结合的有效性研究方向,然后针对基于马氏距离的模糊聚类提出新的度量标准,构造有效性指标,最后结合算法在真实数据集上进行实验,结果表明新指标能准确识别马氏距离模糊聚类算法在多维数据上的最佳聚类数目。(本文来源于《陕西理工大学学报(自然科学版)》期刊2018年02期)

唐益明,丰刚永,任福继,胡相慧,张有成[8](2018)在《面向结构复杂数据集的模糊聚类有效性指标》一文中研究指出如何有效确定聚类数是聚类领域的历史性难题之一。面向聚类的一大标志性算法——模糊C均值算法,现在聚类评价性指标普遍对数据结构复杂和集群大小差异悬殊的数据集难以做出精准判断。针对该问题,提出了一种新的基于数据集几何结构和大小集群的模糊聚类的有效性指标V_(GSDC)(面向几何结构和大小集群的指标)。以类内平方误差和、隶属度权值得到紧致性度量策略,以聚类中心距离最小值、各聚类中心到平均聚类中心的距离和衍生出分离性测算方法,由此合成得到新的有效性指标V_(GSDC)。进一步凭借V_(GSDC)的极值处对应的类别数可自动得到最佳聚类数。通过在6个数据集上与11种聚类有效性指标的实验对比分析,发现所提的V_(GSDC)指标性能最优,不仅可以处理多种类型的数据集,而且充分考虑了数据集的结构特征和复杂性,能够适用于大型、聚类中心间距离差异悬殊的数据集。(本文来源于《电子测量与仪器学报》期刊2018年04期)

李朋[9](2018)在《聚类分析中新聚类有效性指标的研究》一文中研究指出在数据挖掘领域,聚类分析是对数据进行处理的重要工具,它在图像处理、电子商务、生物学、地理信息等领域有着广泛的应用。聚类隶属于无监督机器学习,因此,在训练样本标记信息未知的情况下,可以利用聚类算法将训练数据集划分成K个类簇。但是,大多数聚类算法都存在着一个致命的缺点:最佳聚类数Kopt无法预先确定,Kopt是聚类算法有效聚类的前提,而聚类属于无监督学习,所以,如何度量聚类算法对数据集聚类划分的结果,以及确定数据集的最佳聚类数Kopt都将具有很大难度和挑战。目前,聚类有效性指标(CVI)是解决上述问题的重要工具,本文也从不同的角度提出了两个新的CVI。针对新提出的两个CVI,本文做了如下几个方面的工作:1.针对传统的K-means算法聚类结果不稳定的问题,本文提出了基于密度参数选择初始聚类中心点的K-means算法。利用方差能够衡量数据集中样本点间的离散程度这一统计学特性,提出了新聚类有效性指标(简称:VCVI指标)。本文通过将新聚类有效性指标VCVI与空间分形几何知识相结合,对经验规则Kmax≤(?)的合理性进行了推理说明。2.将基于密度参数选择初始聚类中心点的K-means算法与新聚类有效性指标VCVI相结合,提出了基于VCVI的K值优化与确定算法。对于一些数据量规模较大的数据集,VCVI指标与一些常用的CVI相比,VCVI指标的聚类度量效果更好,并且求解最佳聚类数Kopt的效率更高。3.针对一些非球状分布,不同簇之间样本个数与密度差异较大,以及样本空间分布比较复杂的数据集,VCVI指标是无法对它们的聚类划分结果进行较好的性能度量,因此,本文又利用了最小生成树和欧式几何相关知识,提出了新的聚类有效性指标(简称:MSTI指标)。4.将Average-Linkage层次聚类算法与MSTI指标相结合,本文又提出了基于MSTI指标的Kopt值确定算法,对于一些非球状分布以及簇与簇之间样本个数与密度差异较大的数据集,与VCVI指标以及其它聚类有效性指标相比,MSTI指标具有更好的聚类划分度量性能。实验结果表明,本文提出的两个新CVI具有很好稳定性、健壮性,以及较好的聚类划分度量性能。(本文来源于《安徽大学》期刊2018-03-01)

耿嘉艺,钱雪忠,周世兵[10](2019)在《新模糊聚类有效性指标》一文中研究指出模糊聚类是模式识别、机器学习和图像处理等领域的重要研究内容。模糊C-均值聚类算法是最常用的模糊聚类实现算法。该算法需要预先给定聚类数才能对数据集进行聚类。提出了一种新的聚类有效性指标,对聚类结果进行有效性验证。该指标从划分熵、隶属度、几何结构角度,定义了紧凑度、分离度、重迭度叁个重要特征测量。在此基础上,提出了一种最佳聚类数确定方法。将新聚类有效性指标与传统有效性指标在六个人工数据集和叁个真实数据集进行实验验证。实验结果表明,所提出的指标和方法能够有效地对聚类结果进行评估,适合确定样本的最佳聚类数。(本文来源于《计算机应用研究》期刊2019年04期)

聚类有效性指标论文开题报告

(1)论文研究背景及目的

此处内容要求:

首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。

写法范例:

针对分类数据,通过数据对象在属性值上的集中程度定义了新的基于属性值集中度的类内相似度(similarity based on concentration of attribute values,CONC),用于衡量聚类结果中类内各数据对象之间的相似度;通过不同类的特征属性值的差异程度定义了基于强度向量差异的类间差异度(dissimilarity based on discrepancy of SVs,DCRP),用于衡量两个类之间的差异度.基于CONC和DCRP提出了新的分类数据聚类有效性内部评价指标(clustering validation based on concentration of attribute values,CVC),它具有以下3个特点:(1)在评价每个类内相似度时,不仅依靠类内各数据对象的特征,还考虑了整个数据集的信息;(2)采用几个特征属性值的差异评价两个类的差异度,确保评价过程不丢失有效的聚类信息,同时可以消除噪音的影响;(3)在评价类内相似度及类间差异度时,消除了数据对象个数对评价过程的影响.采用加州大学欧文分校提出的用于机器学习的数据库(UCI)进行实验,将CVC与类别效用(category utility,CU)指标、基于主观因素的分类数据指标(categorical data clustering with subjective factors,CDCS)指标和基于信息熵的内部评价指标(information entropy,IE)等内部评价指标进行对比,通过外部评价指标标准交互信息(normalized mutual information,NMI)验证内部评价效果.实验表明相对其他内部评价指标,CVC指标可以更有效地评价聚类结果.此外,CVC指标相对于NMI指标,不需要数据集以外的信息,更具实用性.

(2)本文研究方法

调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。

观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。

实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。

文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。

实证研究法:依据现有的科学理论和实践的需要提出设计。

定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。

定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。

跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。

功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。

模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。

聚类有效性指标论文参考文献

[1].刘丛,陈倩倩,陈应霞.多距离聚类有效性指标研究[J].小型微型计算机系统.2019

[2].傅立伟,武森.基于属性值集中度的分类数据聚类有效性内部评价指标[J].工程科学学报.2019

[3].温鹏.聚类分析中的改进K-means算法和新聚类有效性指标的研究[D].安徽大学.2019

[4].王雪.聚类分析中面向重迭数据集的新型聚类有效性指标的研究[D].安徽大学.2019

[5].朱斌斌.基于改进聚类算法的新聚类有效性指标的研究[D].安徽大学.2019

[6].王俊智,杜朋召,牛兆轩.基于K-means聚类方法和ⅠIndex聚类有效性检验指标的岩体结构面自动分组及应用[J].长江科学院院报.2018

[7].祖志文,李秦.关于马氏距离模糊聚类的有效性指标研究[J].陕西理工大学学报(自然科学版).2018

[8].唐益明,丰刚永,任福继,胡相慧,张有成.面向结构复杂数据集的模糊聚类有效性指标[J].电子测量与仪器学报.2018

[9].李朋.聚类分析中新聚类有效性指标的研究[D].安徽大学.2018

[10].耿嘉艺,钱雪忠,周世兵.新模糊聚类有效性指标[J].计算机应用研究.2019

标签:;  ;  ;  ;  

聚类有效性指标论文-刘丛,陈倩倩,陈应霞
下载Doc文档

猜你喜欢