聚类高维数据流论文-向志华,邵亚丽

聚类高维数据流论文-向志华,邵亚丽

导读:本文包含了聚类高维数据流论文开题报告文献综述及选题提纲参考文献,主要关键词:贪心策略,特征加权,聚类,高维数据

聚类高维数据流论文文献综述

向志华,邵亚丽[1](2019)在《一种结合贪心选择和特征加权的高维数据聚类算法》一文中研究指出为解决传统聚类算法无法对高维数据聚类的问题,文中提出了一种结合贪心选择和特征加权的TC-Mean shift高维数据聚类算法。通过对一维数据进行聚类,获得一维数据的聚类结果,再通过加权添加维度聚类,最终获得所有维度数据的聚类,实现对高维数据的聚类。测试结果表明,该算法能够准确地对稀疏的高维数据样本进行聚类,能够处理各种维度的数据,具有良好的实际应用价值。(本文来源于《电子科技》期刊2019年11期)

张勇,陈菊[2](2019)在《基于决策树的网络高维数据软子空间聚类方法研究》一文中研究指出典型网络高维数据软子空间聚类方法采用软子空间聚类算法,根据目标函数最优解判断聚类是否最优,最优解计算过程容易过度拟合陷入局部最优,导致分类结果精度低。故文中提出基于决策树的网络高维数据软子空间聚类方法,根据信息增益选择决策树节点,在信息增益基础上添加分裂信息项防止决策树节点过度分类,获取不同树节点属性类别划分结果。在此基础上采用后剪枝技术删除含有噪音和干扰属性结点,将包含样本数量最多的分类结果视为网络高维数据软子空间的分类结果。仿真实验结果表明,所提方法聚类分析正确率随着网络高维数据集维数的增加而增加,且随样本数量增加的同时运行时间增长幅度较低,用时较短,是一种应用价值高的网络高维数据软子空间聚类方法。(本文来源于《现代电子技术》期刊2019年20期)

秦川[3](2019)在《基于模型的高维数据聚类方法综述》一文中研究指出随着计算机、互联网、大数据以及人工智能等技术的发展,出现了越来越多的高维数据。典型的高维数据场景包括金融投资领域中的资产组合分析、信用违约分析;计算机领域中的图像识别、文本分类;生物领域中的基因表达数据等等。各个领域出现高维数据的原因都是为了试图表达出更多的信息,比如在资产组合分析中,往往有许多种选择和决策方式,每种选择和决策方式都有各自的收益亦有各自的风险,在研究与选择资产组合的时候,研究机构将越来越多的变量考虑进来,试图更准确地刻画风险收益模型。高维数据中的有价值特征通常隐藏在原始特征空间中的不同的低维子空间,在金融、保险、证券等行业中,通过对高维数据进行聚类,识别出收益和风险,或通过聚类进行客户分类,正变成经济生活中的热门课题。常规的聚类分析方法通常将数据对象全部属性考虑在内,然而在聚类分析中,随着数据维度的增加会产生各种问题,如样本量需要指数级增长才能避免观测空间变得稀疏(然而这通常难以做到),以及零差距问题、维度有效性问题、维度相关性问题等等。这些传统聚类分析方法难以处理的问题被统称为“维度灾难”,如何有效地解决“维度灾难”的影响一直是近些年来学界所研究的热点内容。本文主要从技术角度对高维数据下的聚类问题进行分析,首先对基于模型的聚类算法进行了全面的阐述,然后介绍维度灾难问题以及基于模型的聚类算法在维度灾难下会因为对协方差矩阵_()的估计过度参数化而失效。解决高维空间聚类最常见的方法就是降维,接着介绍了主成份分析(PCA)、多维缩放(MDS)等四种经典线性降维算法以及核主成份分析(KPCA)、等距映射(ISOMAP)等四种非线性降维算法。这些传统降维算法的缺点在于都是将原始特征空间全局降到了同一个子空间中,并没有考虑到接下来的聚类任务,可能会丢失有用的信息特征,进而破坏了原有的聚类结构。近年来,子空间聚类技术的提出进一步克服了以往方法的局限性,子空间聚类算法尝试在相同数据集的不同子空间上进行聚类,并在聚类的同时实现数据降维,不仅提高了分类的正确率,还有效地解决了高维数据维度灾难的问题。本文介绍了若干模型聚类的子空间聚类算法,主要包括混合因子分析模型(MFA)、拓展的简约高斯混合模型(EPGMM)、高维高斯混合模型(HD-GMM)和判别潜在子空间混合模型(DLM)。其中MFA模型主要是将高斯混合模型与因子分析结合得到,能够同时实现降维与聚类的作用。EPGMM模型需要在混合因子分析模型的基础上,引入了一个修正的因子分析协方差结构,通过限制这个结构的某些方面,推导出了一系列子模型。高维高斯混合模型不再以因子分析为基础,而是用子空间聚类方法和简约高斯混合模型相结合的思想实现边聚类边降维的效果。判别潜在子空间混合模型将数据拟合在一个潜在的标准正交判别子空间中,这个子空间的本征维度小于原始空间的维数并且该子空间对于所有类簇都是一样的。通过约束组内和组间的模型参数,DLM也推导出了一系列子模型以适应不同的情况。最后,在真实数据集上所做的实例分析表明,子空间聚类算法和传统方法相比更适用于高维小样本的数据。一是因为子空间聚类算法的协方差结构的参数和原始维度之间存在线性关系,通过控制协方差的结构可以放宽样本量上的限制。二是子空间聚类算法能够找出隐藏在原始特征空间中的不同的低维子空间,提高了分类正确率。当出现低维子空间相同的情况时,子空间聚类算法的降维策略会退化成全局降维算法。(本文来源于《云南财经大学》期刊2019-06-16)

邵俊健[4](2019)在《高维数据的聚类算法及其距离度量的研究》一文中研究指出目前,高维数据在我们的日常生活随处可见,如何从高维数据中获取我们所需要的信息是当前研究的一个热点。对于高维数据的聚类问题,可以通过降维后使用传统的聚类算法,也可使用子空间聚类算法进行聚类,亦可使用新的距离度量方式来计算各样本点之间的距离从而来衡量相似性。本文的工作主要包括以下两个方面。(1)合适的距离度量函数对于聚类结果有重要的影响。针对大规模高维数据集,使用增量式聚类算法进行距离度量的选择分析。SpFCM算法是将大规模数据集分成小样本进行增量分批聚类,可在有限的计算机内存中获得较好的聚类结果。在传统的SpFCM算法的基础上,使用不同的距离度量函数来衡量样本之间的相似性,以得出不同的距离度量对SpFCM算法的影响。在不同的大规模高维数据集中,使用欧式距离、余弦距离、相关系数距离和扩展的杰卡德距离来计算距离。实验结果表明,后叁个距离度量相对于欧式距离可以很大程度提高聚类效果,其中相关系数距离可以得到较好的结果,余弦距离次之,扩展的杰卡德距离效果比较一般。(2)针对含有高斯噪声的高维数据的聚类问题,提出一种使用新的距离度量方式的增量式聚类算法(Anti-noise fuzzy(c+p)-means clustering,ANFCM(c+p))。由于传统的模糊C均值聚类算法对初始化聚类中心比较敏感,所提出的聚类算法结合SpFCM的增量方法与FCPM中的初始化聚类中心的方法,即将先前数据块的聚类中心附近的几个样本点添加到下一个数据块以进行聚类,以避免FCM对噪声的敏感性。此外,提出的聚类算法使用一种新的改进后的距离度量的同时,并且使用改进的约束条件和目标函数。通过以上改进,可以有效的区分已知类和未知类在算法中的不同影响程度,同时加强已知类和未知类之间的影响程度。实验结果表明,该算法对高维且含有高斯噪声的数据集有很好的聚类效果,并且具有鲁棒性。(本文来源于《江南大学》期刊2019-06-01)

旷宗强[5](2019)在《面向高维数据的自适应半监督聚类集成方法的研究》一文中研究指出随着互联网的飞速发展,数据的维度和数量呈爆炸式增长,高维数据的聚类分析问题显得愈发重要。传统的聚类分析方法不能有效地对高维数据聚类,因此研究者提出半监督聚类集成的方法来解决此类问题。半监督聚类集成将半监督学习和集成学习应用在聚类分析任务中,能够显着地提升高维数据聚类结果的准确性、稳定性和鲁棒性。然而,当前的半监督聚类集成方法存在一些缺点,例如:1)没有专门设计有效的方法处理高维数据问题;2)不能充分地利用先验知识,尤其是成对约束信息;3)在聚类集成生成过程中,随机性太强,没有采用自适应的方法来优化生成过程;4)在聚类集成一致性函数过程中,考虑了所有的聚类成员的结果,即使有些聚类成员的结果质量很差。为解决这些缺点,本文提出了一种双重自适应的半监督聚类集成方法(DASSCE)。DASSCE主要贡献有:1)提出了一种基于bagging约束的子空间生成方法,该方法使用bagging约束产生一组约束子集,并使用不同的约束子集指导子空间生成。2)设计了一种自适应的约束聚类集成选择方法,该方法能够有效地移除聚类结果中的冗余和噪音划分结果。3)采取自适应的子空间集合优化方法,从而获得了更好的聚类效果。为评测DASSCE的有效性,本文采用来自不同领域的、不同特点的、公开的高维数据集并设计了详尽的实验。实验结果表明:在高维数据聚类问题上,由于采取了本文提出的叁个创新点,DASSCE获得了比其他半监督聚类方法更好的聚类效果。(本文来源于《华南理工大学》期刊2019-04-15)

王妍,马燕,黄慧,李顺宝,张玉萍[6](2019)在《基于Hubness现象的高维数据混合聚类算法》一文中研究指出高维数据聚类是聚类分析中的难点。K-hubs聚类算法是在K-means方法基础上,结合高维数据空间的Hubness现象对数据进行聚类。针对K-hubs聚类算法需要随机确定初始聚类中心,不适用于非超球状簇等问题,本文提出了基于多阶段层次聚类和划分聚类的高维数据混合聚类算法。该算法将数据点按其Hub值分为Hub点,Midhub点和Antihub点叁类,然后对Hub点和Midhub点分别采用层次聚类,接着进一步采用层次聚类合并簇,最后,对Antihub点利用划分聚类合并到最近的簇。在UCI数据集上的实验结果表明,与其它最新的聚类算法相比,本文提出的算法在高维数据集上得到了较好的聚类结果。(本文来源于《电视技术》期刊2019年06期)

李磊[7](2019)在《应用于大规模高维数据的稀疏化近邻传播聚类算法》一文中研究指出随着信息化与互联网技术的快速发展,各个行业所产生的数据规模不断增大,其复杂性也不断增加。一般来说,大规模高维数据主要包含两个特性,第一,数据量大且增长速度快;第二,数据维度高,冗余特征多。传统的数据挖掘和处理算法往往不尽如人意,因此,如何高效地从大规模高维数据中挖掘出有价值的信息,成为当下的研究热点。近邻传播聚类算法(AP算法)是一种基于信息传递的聚类算法,具有不用事先指定聚类数目、聚类效果稳定等优点。但当数据复杂性增强时,AP算法的复杂度也增长的十分明显。本文主要针对关于AP算法的改进,保留AP算法的优势,并实现其在大规模高维数据中的推广。在本论文中,针对数据规模大这一特性,提出基于核心点提取的稀疏化快速近邻传播聚类算法,简称CFAP算法。首先,利用基于高斯核相似性的核心点提取方法提取核心集,实现对大数据规模的缩减;然后,借鉴K-NN分类算法的判别思想,结合AP算法基于信息传递的这一特性,利用样本只和最近的K个样本传递信息,对核心集的相似度矩阵实现稀疏化;最后,将CFAP算法与HAP算法,AP算法在数据集上进行实验,通过实验分析对比,验证了CFAP算法在时间上的高效性及聚类结果的有效性。另一方面,针对数据维度高这一特性,本论文提出将CFAP算法应用在SAS-Clustering算法框架下,实现CFAP算法在高维数据上的推广。首先,针对SAS-Clustering算法框架本身的不足,提出使用Golden-Section黄金分割搜索法替代Grid-Search网格搜索法,极大的提高了对最佳特征集合S的搜索效率;其次,针对K-means算法聚类效果不稳定这一缺陷,使用CFAP算法替代原本该框架下的K-means算法,提出SAS-CFAP算法;最后,通过实验验证了SAS-CFAP算法的鲁棒性和可行性。(本文来源于《南京航空航天大学》期刊2019-03-01)

邵俊健,王士同[8](2019)在《高维数据的增量式聚类算法的距离度量选择研究》一文中研究指出合适的距离度量函数对于聚类结果有重要的影响。针对大规模高维数据集,使用增量式聚类算法进行距离度量的选择分析。SpFCM算法是将大规模数据集分成小样本进行增量分批聚类,可在有限的计算机内存中获得较好的聚类结果。在传统的SpFCM算法的基础上,使用不同的距离度量函数来衡量样本之间的相似性,以得出不同的距离度量对SpFCM算法的影响。在不同的大规模高维数据集中,使用欧氏距离、余弦距离、相关系数距离和扩展的杰卡德距离来计算距离。实验结果表明,后3个距离度量相对于欧氏距离可以很大程度地提高聚类效果,其中相关系数距离可以得到较好的结果,余弦距离和扩展的杰卡德距离效果比较一般。(本文来源于《计算机工程与科学》期刊2019年02期)

陈冬英,严琼[9](2019)在《基于软组织形变的高维数据聚类算法研究》一文中研究指出将高维数据聚类法中子空间凝聚算法用于软组织形变仿真,保证虚拟手术中软组织形变真实性与实时性的均衡。该算法首先进行软组织表面形变区域的映射,而后完成平面圆形区域的划分,最后在平面圆形区域中形成全空间与子空间之间的函数关系。通过Open GL库联合C++语言进行模拟仿真,实验结果表明,该算法简单高效、计算量小、实时性好、真实性高,基本能满足一般软组织浅层形变仿真要求。(本文来源于《衡水学院学报》期刊2019年01期)

蒋君妍[10](2018)在《面向高维数据的聚类算法改进研究》一文中研究指出高维数据的复杂性、稀疏性和多样性等特点制约着传统聚类算法的有效性,面向高维数据的聚类分析已然成为数据挖掘领域的重要研究方向之一。子空间聚类算法是传统聚类算法在高维空间中的延伸,能够有效实现高维数据聚类。稀疏子空间聚类算法是一种基于谱聚类方法的子空间聚类算法,它具有不依赖子空间的维度和数量、能够处理噪声和奇异点等优点。本文从传统的K-means聚类算法和稀疏子空间聚类算法出发,在分析现有聚类算法的基础上,对高维数据的聚类算法展开了改进研究和应用。本文设计出一种结合了“距离优化法”与“密度法”的K-means改进算法—DK-means算法,用于确定初始聚类中心;为了解决DK-means算法加入额外的计算量而导致时间复杂度增高的问题,本文引入了一种基于“安全距离”的优化策略,设计了 EDK-means算法,进一步改善了 DK-means算法的执行效率,提高了聚类质量。同时通过将Trace Lasso引入稀疏子空间聚类的正则项,设计了一种新的自我表示模型,将EDK-means应用到谱聚类过程中,设计并实现了 TL-MSR子空间聚类算法,较好地解决了聚类算法的性能问题。本文对改进后的聚类算法进行了实验验证,并与原始聚类算法进行比较分析。实验结果表明,改进的聚类算法优于原始聚类算法。同时本文还针对改进的聚类算法设计并实现了一个聚类算法原型系统。(本文来源于《南京邮电大学》期刊2018-11-14)

聚类高维数据流论文开题报告

(1)论文研究背景及目的

此处内容要求:

首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。

写法范例:

典型网络高维数据软子空间聚类方法采用软子空间聚类算法,根据目标函数最优解判断聚类是否最优,最优解计算过程容易过度拟合陷入局部最优,导致分类结果精度低。故文中提出基于决策树的网络高维数据软子空间聚类方法,根据信息增益选择决策树节点,在信息增益基础上添加分裂信息项防止决策树节点过度分类,获取不同树节点属性类别划分结果。在此基础上采用后剪枝技术删除含有噪音和干扰属性结点,将包含样本数量最多的分类结果视为网络高维数据软子空间的分类结果。仿真实验结果表明,所提方法聚类分析正确率随着网络高维数据集维数的增加而增加,且随样本数量增加的同时运行时间增长幅度较低,用时较短,是一种应用价值高的网络高维数据软子空间聚类方法。

(2)本文研究方法

调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。

观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。

实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。

文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。

实证研究法:依据现有的科学理论和实践的需要提出设计。

定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。

定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。

跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。

功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。

模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。

聚类高维数据流论文参考文献

[1].向志华,邵亚丽.一种结合贪心选择和特征加权的高维数据聚类算法[J].电子科技.2019

[2].张勇,陈菊.基于决策树的网络高维数据软子空间聚类方法研究[J].现代电子技术.2019

[3].秦川.基于模型的高维数据聚类方法综述[D].云南财经大学.2019

[4].邵俊健.高维数据的聚类算法及其距离度量的研究[D].江南大学.2019

[5].旷宗强.面向高维数据的自适应半监督聚类集成方法的研究[D].华南理工大学.2019

[6].王妍,马燕,黄慧,李顺宝,张玉萍.基于Hubness现象的高维数据混合聚类算法[J].电视技术.2019

[7].李磊.应用于大规模高维数据的稀疏化近邻传播聚类算法[D].南京航空航天大学.2019

[8].邵俊健,王士同.高维数据的增量式聚类算法的距离度量选择研究[J].计算机工程与科学.2019

[9].陈冬英,严琼.基于软组织形变的高维数据聚类算法研究[J].衡水学院学报.2019

[10].蒋君妍.面向高维数据的聚类算法改进研究[D].南京邮电大学.2018

标签:;  ;  ;  ;  

聚类高维数据流论文-向志华,邵亚丽
下载Doc文档

猜你喜欢