混合数据聚类论文-刘超,姚清华,乐然

混合数据聚类论文-刘超,姚清华,乐然

导读:本文包含了混合数据聚类论文开题报告文献综述及选题提纲参考文献,主要关键词:混合型数据,聚类有效性,聚类稳定性

混合数据聚类论文文献综述

刘超,姚清华,乐然[1](2019)在《混合型数据聚类方法的比较》一文中研究指出为了科学使用真实世界数据,探索适用于日益常见的混合型数据的聚类方法,文章分析和比较了两种典型的混合型数据聚类方法K-prototypes与ClustMD,改进了聚类方法关键参数选择方法,并提出聚类稳定性指标。结果表明,两种聚类方法均具有很高的有效性和稳定性,各有优缺点。当数据相关性强、数据缺失严重或非连续变量较多时,建议使用K-prototypes。(本文来源于《统计与决策》期刊2019年11期)

李顺勇,张苗苗[2](2019)在《一种带权的混合数据聚类个数确定算法》一文中研究指出混合数据的聚类过程中通常面临一个不可回避的问题:聚类个数的确定。基于Liang k-prototype算法引入属性权重,重新定义混合数据缺失某类的类间熵和(SBAE_M)、有效性指标(CUM)及相异性度量。提出一种带权的混合数据聚类个数确定算法。该算法的基本思想是:用newk-prototype算法将混合数据进行聚类,计算其聚类结果的CUM及SBAE_M,将最坏的类剔除,并将该类中的对象用新的相异性度量进行重新分配,CUM最大时包含的类别数即为聚类个数。在5个UCI数据集上验证了该算法的有效性。(本文来源于《计算机应用与软件》期刊2019年01期)

邵晓晨[3](2018)在《基于稀疏表示的混合属性数据聚类关键技术研究》一文中研究指出数据挖掘是协助管理决策的最重要工具之一,随着数据挖掘的应用范围不断扩大,数据挖掘所处理的数据逐渐由单一的数值型或者分类型数据逐渐呈现出混合属性类型。对混合属性数据的挖掘研究是一个热点问题,其中数据聚类是属于其中的重要内容。传统的聚类算法只是针对单一的数值属性或者分类属性,而越来越多的研究显示,大多数真实数据是以混合属性呈现的,而这使得大多数传统聚类算法处理起来相对困难。所以,设计出能够处理混合属性数据的高效的聚类算法已成为聚类分析中一个很有吸引力的问题。本文针对混合属性数据聚类的相关问题,研究基于稀疏表示的数据聚类方法,具体研究包括如下内容:(1)针对未标记混合属性数据的缺失问题,研究提出了基于稀疏表示的混合属性数据填补方法。通过将局部约束线性编码和局部约束稀疏表示引入到K最近邻字典构建过程,更好的保留了数据的局部结构特征,同时一定程度上解决了相似对象难于确定的问题。将提出的填补方法应用在六个混合属性数据集中,实验结果验证了该算法在填补效果上的优势。(2)针对混合属性数据的相似性度量变得难于计算导致的聚类困难,提出了基于K-SVD的混合属性数据谱聚类算法。该算法通过将稀疏表示中的字典学习过程引入谱聚类中,得到带有判别信息的稀疏系数矩阵,并据此作为谱聚类算法中的权重矩阵输入,这样既能克服数据点间距离难于计算的劣势,又能发挥谱聚类简单高效的优势。利用真实数据的实验验证了该方法在聚类准确率上面的优势。(3)针对混合属性数据的簇中心初始化问题,研究提出了基于密度的簇中心初始化方法。该方法通过将密度的概念引入,并据此选择簇中心,一定程度上避免了以随机的方式选择簇中心导致出现不稳定的聚类结果。通过配合前面提出的基于K-SVD的混合属性数据谱聚类算法进行实验,实验结果表明该方法在处理混合属性数据集表现出了一定的优越性。(本文来源于《北京科技大学》期刊2018-04-25)

李晔,陈奕延,张淑芬[4](2018)在《基于密度峰值的混合型数据聚类算法设计》一文中研究指出针对k-prototypes算法无法自动识别簇数以及无法发现任意形状的簇的问题,提出一种针对混合型数据的新方法:寻找密度峰值的聚类算法。首先,把CFSFDP(Clustering by Fast Search and Find of Density Peaks)聚类算法扩展到混合型数据集,定义混合型数据对象之间的距离后利用CFSFDP算法确定出簇中心,这样也就自动确定了簇的个数,然后其余的点按照密度从大到小的顺序进行分配。其次,研究了该算法中阈值(截断距离)及权值的选取问题:对于密度公式中的阈值,通过计算数据场中的势熵来自动提取;对于距离公式中的权值,利用度量数值型数据集和分类型数据集聚类趋势的统计量来定义。最后通过在叁个实际混合型数据集上的测试发现:与传统k-prototypes算法相比,寻找密度峰值的聚类算法能有效提高聚类的精度。(本文来源于《计算机应用》期刊2018年02期)

刘世华[5](2017)在《基于密度峰值和维度概率模型的混合属性数据聚类研究》一文中研究指出随着大数据时代的到来,人工智能、机器学习和数据挖掘技术对现代社会的影响越来越深远。聚类分析作为人类认识世界的基本能力,受到了越来越多科研工作者的重视。由于混合属性数据的普遍存在和其统一距离度量的困难性,混合属性数据聚类的研究一直是聚类分析研究中的热点之一。本文对混合属性数据聚类中的相似性度量、聚簇信息表示、自适应聚类和基于密度峰值和维度概率模型的聚类新方法进行了深入研究分析,取得了如下研究成果:(1)针对聚簇信息的表示问题,创新性地提出了维度概率模型的概念。本文首先定义了面向数值属性数据的维度概率分布、维度概率摘要等相关概念和点簇相似度、簇簇相似度的计算方法,接着提出了基于该模型的DMPCAH层次聚类算法。最后通过实验对比分析发现,该算法比传统的K-Means算法和AGNES层次聚类算法在聚类精度上有了较大的提高,并可实现聚簇数目的自动确定和离群点的识别。在此研究基础上,本文进一步将维度概率模型扩展到混合属性数据的聚类分析中,定义了面向混合属性数据的维度概率模型的相关概念和相似度计算方法。基于此模型,结合最新的密度峰值聚类算法,提出了面向混合属性数据的DPKM和DPM聚类算法。实验分析表明,DPKM算法能够有效进行混合属性数据聚类,比传统的K-Prototypes算法聚类精度更高;DPM算法利用点簇相似性度量对DPC聚类的数据点进行重新分配,能够有效提高原DPC聚类算法的聚类效果。(2)针对混合属性数据统一相似性度量的问题,本文提出了一种统一距离度量方法(简称为UDM距离),并将其用于生成混合属性数据的距离矩阵;接着提出了一种用于混合属性数据聚类的DPC_M算法,通过实验分析表明,在UCI真实数据集中,DPC_M算法的聚类准确度比传统的K-Prototypes算法提高了 4%~13%。此外,本文还将此UDM距离度量方法与现有的Gower距离、K-Prototypes距离、OCIL改进距离、Goodall距离进行了比较研究,从实验结果来看,本文提出的UDM距离方法在所有实验数据集中表现最稳定,其时间复杂度也比较低,运行时间随着数据点数的增长率最慢。(3)针对混合属性数据集中统一相似性度量方法不够稳定,传统算法无法自动确定聚簇数目等问题,提出了一种基于密度峰值的混合属性数据自适应融合聚类框架和一种基于该框架的ACEDP算法。算法首先将数据集的数值属性子集采用可自动确定聚簇数目的聚类算法进行聚类,其结果映射为分类属性加入到分类属性数据子集中;然后采用基于熵权值改进的Goodall距离度量方法生成新分类属性数据集的距离矩阵,最后采用基于双拐点改进的可自动确定聚簇中心的密度峰值聚类算法进行自适应融合聚类。在真实数据集上的实验表明,该方法能够有效实现混合属性聚类,提高聚类精度并自动确定聚簇数目。(本文来源于《浙江工业大学》期刊2017-10-20)

庞天杰,梁吉业[6](2016)在《一种基于抽样的大规模混合数据聚类集成算法》一文中研究指出混合数据聚类是聚类分析中一个重要的问题。现有的混合数据聚类算法主要是在全体样本的相似性度量的基础上进行聚类,因此对大规模数据进行聚类时,算法效率不高。基于此,设计了一种新的抽样策略,在此基础上,提出了一种基于抽样的大规模混合数据聚类集成算法。该算法对利用新的抽样策略得到的多个样本子集分别进行聚类,并将结果集成得到最终聚类结果。实验证明,与改进的K-prototypes算法相比,该算法的效率有了显着提高,同时聚类有效性指标基本相同。(本文来源于《计算机科学》期刊2016年09期)

黄咏宁[7](2016)在《基于混合高斯模型的面板数据聚类研究》一文中研究指出面板数据的聚类有两个核心的问题:一是样本间相似程度的表征问题,二是类簇之间的区分问题,即聚类算法的选择问题。现有针对面板数据的聚类研究大多采用线性技术测度样本间相似程度,即通过线性方法将叁维面板数据集转化为二维平面数据集,进而采用硬聚类算法完成样本聚类。然而,由于面板数据特有的动态性与结构性,其变量间往往存在非线性相关关系,线性技术显然无法准确地描述变量的非线性特征。此外,面板数据的复杂聚类过程使得聚类结果存在较大的不确定性,而常用的硬聚类算法无法度量这种不确定性。本文将针对以上问题展开研究。本文包括以下四方面内容:第一,提出以核主成分分析(KPCA)对面板数据进行预处理,通过核主成分算法提取非线性变量的数据特征、计算核主成分得分,实现对样本同质性的测度及面板数据的平面化;第二,针对硬聚类算法难以描述面板数据聚类的不确定性,引入了基于混合高斯模型(GMM)的概率软聚类算法。通过估计混合高斯模型参数,可得到各聚类类簇的近似分布函数及样本点聚于各类簇的后验概率矩阵。根据具体分布函数及概率值大小,不仅能实现对样本的软聚类,还能对聚类结果的不确定性加以定量的描述;第叁,以2012-2014年134家房地产上市企业的财务面板数据为例,对上述方法的可行性进行实证分析;第四,从控制变量的角度出发,分别对核主成分预处理和基于混合高斯模型的概率聚类设置对照实验,证明本文所提出方法的有效性。本文的主要结论有:第一,基于核主成分分析及混合高斯模型的聚类方法能作为面板数据聚类的一种系统性方法,具有一定的实践应用价值;第二,对于一类变量非线性相关的面板数据,核主成分算法对数据非线性特征的提取能力及综合能力显着地强于线性算法;第叁,基于混合高斯模型的概率软聚类算法在聚类结果上与硬聚类算法相近,但能为聚类结果的不确定性提供更多的描述性信息。本文的贡献之处体现在:第一,提出一种针对非线性面板数据的可行、有效的聚类方法,扩展了聚类分析的应用范围;第二,通过编写Matlab程序实现该聚类方法的实证分析,不仅方便该方法在实践中的应用及方法的扩展改进,也促进Matlab软件在国内的推广应用。(本文来源于《华南理工大学》期刊2016-05-19)

熊杰[8](2016)在《基于混合模型的肿瘤组学数据聚类研究》一文中研究指出肿瘤的分型是指发现同一肿瘤的不同亚型。由于肿瘤的临床异质性,在临床上往往对于不同的肿瘤亚型采用不同的治疗策略。尽管如此,对于病理上相同的肿瘤亚型,相同的治疗方式往往导致肿瘤患者不同的预后。因此,发现正确的肿瘤亚型对于指导肿瘤的临床治疗和预后有着重要的作用。然而,目前基于细胞水平的病理肿瘤亚型分型仍然存在很强的异质性,而且常常导致错误分型和诊断。故而从更加精细的角度对肿瘤进行分型显得尤为迫切。近年来,随着基因芯片,二代测序等高通量技术的进一步发展,使得人们从整个基因组的角度全面剖析肿瘤成为可能。相对于基于细胞形态的病理数据,肿瘤的基因组数据对肿瘤的描述更加“精细”和全面。因此,从基因组数据出发对肿瘤进行分型将提供更多的关于肿瘤分子亚型的信息,为肿瘤的临床诊断和治疗提供更多的依据。聚类分析是肿瘤基因组分型的重要工具,其指将一群物理或抽象对象依据对象的某些特征分为由类似对象组成的多个更小的类的过程,这样的分类使得同一类中的对象彼此相似,而不同类中的对象彼此相异。由于使用的简易性以及实现工具的多样性,基于距离度量的经典启发式算法如K-均值算法,层次聚类算法等在生物医学研究领域非常流行。尽管这些聚类算法在很多领域都有成功的应用案例,但是其统计学性质往往不清楚,从而阻碍了基于这些算法的统计推断的发展。近年来,基于概率模型的聚类算法相对于启发式算法从统计的角度提供了一个更好的选择。模型聚类假设数据从潜在的混合模型(如:高斯混合模型)中生成。相对于启发式聚类算法,在混合模型聚类算法中关于类个数的选择问题成为一个统计模型的选择问题。尽管如此,当对高维小样本数据(如基于基因芯片和测序的基因组学数据)聚类时,由于混合模型需要估计的参数过多,而观测样本点又太少,从而导致所谓一系列“维度灾难”。因此,在此情形下降维成为不可回避的问题。基于此,本论文在混合共因子分析模型(mixtureofcommonfactoranalyzers:mcfa)的基础上,通过引入一个对载荷矩阵的惩罚项,提出了一个惩罚混合共因子分析模型(penalizedmcfa:pmcfa)并给出了模型参数估计的期望最大(expectationmaximum:em)算法和实现算法的r程序。数据模拟表明,引入的惩罚项能很好的对变量进行选择。在小圆蓝细胞瘤基因表达数据中的验证表明,pmcfa能通过其选择的35个信息基因准确区分四种不同亚型的小圆蓝细胞瘤。此外,我们还利用pmcfa详细分析了一个宫颈癌的微小rna(mirna)表达数据集。结果表明pmcfa选择了16个mirnas为信息mirna且基于这些mirnas发现了两个与宫颈癌预后相关的类。文献检索发现在这16个mirnas中hsa-mir-140-5p并未在宫颈癌中有过功能和机制报道。为了说明pmcfa所选择的变量的实际意义,我们进一步运用分子、细胞、动物实验研究hsa-mir-140-5p在宫颈癌细胞中的功能和潜在分子机制。实验表明hsa-mir-140-5p通过靶向igf2bp1(insulin-likegrowthfactor2mrna-bindingprotein1)抑制了宫颈癌的增殖、侵袭和转移。这些为从海量公共基因组学数据中发现潜在分型相关的基因或分子,并验证分子的生物学功能,进而为癌症靶向治疗提供更多方法和工具。本文分六章,第一章我们主要介绍高斯混合模型(gaussianmixturemodel:gmm)及其在高维数据聚类中的困难以及一些克服这些困难的方法。第二章我们提出了pmcfa模型然后给出了模型参数估计的期望最大(expectationmaximum:em)算法,并在模拟数据和真实肿瘤基因表达数据集上测试了该算法。此外,在本章我们还详尽分析了tcga(thecancergenomealtas)公共数据库中基于二代测序的宫颈癌mirna表达数据并发现了两个预后显着差异的宫颈癌mirna亚型。根据pmcfa对变量的选择和文献检索我们确定了下游功能实验的mirna。第叁章我们给出了实验相关的材料和方法。第四章我们证实hsa-mir-140-5p通过靶向igf2bp1抑制宫颈癌细胞的增殖、侵袭、和转移。第五章我们研究了多形性胶质母细胞瘤(gbm)的信使rna(mrna)和miRNA的表达数据并鉴定出一个和GBM生存相关的整合了mRNA和miRNA的分子标签。第六章我们对论文做了总结和展望。(本文来源于《湖南师范大学》期刊2016-03-01)

庞天杰,赵兴旺[9](2016)在《一种基于先验信息的混合数据聚类个数确定算法》一文中研究指出聚类个数的确定是聚类分析中一个富有挑战性的难题。现有的聚类个数确定方法主要采用随机选取初始聚类中心的策略,导致聚类过程中迭代次数的稳定性不强。基于此,在利用含有类标签的先验信息优化初始类中心的基础上,提出了一种基于先验信息的混合数据聚类个数确定算法。实验证明,该算法是有效的。(本文来源于《计算机科学》期刊2016年02期)

钱潮恺,黄德才[10](2016)在《基于维度频率相异度和强连通融合的混合数据聚类算法》一文中研究指出k-Prototypes算法对初始点选取的敏感性导致聚类结果具有随机性,并且忽视样本数据点与聚类集合中已有样本的总体差异.针对此问题,文中提出基于维度频率相异度和强连通融合的混合数据聚类算法,首先通过多次预聚类产生大量子簇,然后根据子簇之间的连通关系,采用强连通融合的策略得到最终的聚类结果.在UCI数据库中3个混合属性数据集上的实验表明,相比k-Prototypes算法及已有的混合属性聚类算法,文中算法具有更好的聚类质量,从而验证文中算法的优越性.(本文来源于《模式识别与人工智能》期刊2016年01期)

混合数据聚类论文开题报告

(1)论文研究背景及目的

此处内容要求:

首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。

写法范例:

混合数据的聚类过程中通常面临一个不可回避的问题:聚类个数的确定。基于Liang k-prototype算法引入属性权重,重新定义混合数据缺失某类的类间熵和(SBAE_M)、有效性指标(CUM)及相异性度量。提出一种带权的混合数据聚类个数确定算法。该算法的基本思想是:用newk-prototype算法将混合数据进行聚类,计算其聚类结果的CUM及SBAE_M,将最坏的类剔除,并将该类中的对象用新的相异性度量进行重新分配,CUM最大时包含的类别数即为聚类个数。在5个UCI数据集上验证了该算法的有效性。

(2)本文研究方法

调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。

观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。

实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。

文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。

实证研究法:依据现有的科学理论和实践的需要提出设计。

定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。

定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。

跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。

功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。

模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。

混合数据聚类论文参考文献

[1].刘超,姚清华,乐然.混合型数据聚类方法的比较[J].统计与决策.2019

[2].李顺勇,张苗苗.一种带权的混合数据聚类个数确定算法[J].计算机应用与软件.2019

[3].邵晓晨.基于稀疏表示的混合属性数据聚类关键技术研究[D].北京科技大学.2018

[4].李晔,陈奕延,张淑芬.基于密度峰值的混合型数据聚类算法设计[J].计算机应用.2018

[5].刘世华.基于密度峰值和维度概率模型的混合属性数据聚类研究[D].浙江工业大学.2017

[6].庞天杰,梁吉业.一种基于抽样的大规模混合数据聚类集成算法[J].计算机科学.2016

[7].黄咏宁.基于混合高斯模型的面板数据聚类研究[D].华南理工大学.2016

[8].熊杰.基于混合模型的肿瘤组学数据聚类研究[D].湖南师范大学.2016

[9].庞天杰,赵兴旺.一种基于先验信息的混合数据聚类个数确定算法[J].计算机科学.2016

[10].钱潮恺,黄德才.基于维度频率相异度和强连通融合的混合数据聚类算法[J].模式识别与人工智能.2016

标签:;  ;  ;  

混合数据聚类论文-刘超,姚清华,乐然
下载Doc文档

猜你喜欢