聚类数论文-李杏丽

聚类数论文-李杏丽

导读:本文包含了聚类数论文开题报告文献综述及选题提纲参考文献,主要关键词:聚类算法,K-prototypes,聚类有效性,D-S证据理论

聚类数论文文献综述

李杏丽[1](2019)在《混合数据最佳聚类数的确定方法与应用》一文中研究指出随着“大数据”一词的频繁出现,数据挖掘也成了一个热点名词,它代表着将大而杂的数据转换成信息的一个综合过程,聚类分析是它的重要研究方向之一。聚类算法是聚类分析的重要工具,而聚类数目往往是决定聚类算法性能的关键,鉴于大部分聚类算法需要预先给定类别数的现状,因此确定最佳聚类数是我们更好地进行数据挖掘重要一步。由于研究问题的日益复杂化,越来越多的混合属性数据成为了处理对象,然而针对混合数据的聚类研究却没有得到很好的发展,所以针对混合数据的聚类有效性研究并以此来确定最佳聚类数在当今时代具有针对性和适用性。本文在大数据背景下,分析了混合属性数据的聚类有效性问题的重要性,进而对聚类有效性问题进行深入研究;之后针对现有的聚类算法的缺点进行改进以提高算法的效能,最后结合D-S证据理论提出针对混合属性数据提出DSKP算法,并总结该算法的优越性和特点,提出聚类有效性未来的可能发展方向。在改进聚类算法方面,做了如下几个方面的创新工作:(1)基于数据属性的特征确定初始聚类中心以降低初始聚类中心选择的随机性,同时针对大型数据提出进行简单随机抽样的处理方式,以达到降低异常值对聚类结果的影响和提高算法运行效率的目的。(2)基于混合数据主成分法提出改进分类型数据权重~?的方法,根据混合数据主成分分析法可以将多变量数据综合为几个综合因子的原理,利用R软件的AFDM函数将去噪音后的混合属性数据集做主成分处理,根据分类型数据占综合因子的比例来确定分类型数据的权重。(3)依据D-S证据理论在判定不确定因素的优势,将改进后的聚类算法结合传统版和进化版的D-S证据理论,提出两种版本的DSKP算法,并通过实例验证其在解决混合数据的聚类有效性问题的优越性和普适性。(本文来源于《兰州财经大学》期刊2019-06-10)

王学军,李有红,李炽平[2](2019)在《基于密度自适应聚类数的社区发现谱方法》一文中研究指出社区结构发现研究可揭示复杂网络中隐藏中观结构,为进一步开展网络的形成和演化研究应用提供依据,如可为智能推荐、舆情控制、电力和交通网络调度等方面提供决策支持数据。针对复杂网络社区结构挖掘中社区数量难以确定的问题,提出一种基于密度自适应聚类数的社区发现谱方法。引入谱图分析中比较成熟的谱聚类特征向量分析方法,基于局部节点密度构图,结合网络图的边介数值构造相似矩阵,规范化后进行谱聚类,求得最大特征维度k值,k值即为社区个数。最后采用k-means方法对特征向量空间进行聚类,使得复杂网络社区得以呈现。在人工UCI和真实数据集(southern women data)上的实验表明,与现有谱聚类社区发现算法相比,该方法能自动确定社区个数,能得到划分精度更高的社区。(本文来源于《计算机技术与发展》期刊2019年05期)

邹臣嵩,杨宇[3](2018)在《基于密度和最优聚类数的入侵检测方法》一文中研究指出针对聚类算法在入侵检测应用中存在的参数预设、聚类有效性评价、未知攻击类型检测等问题,提出了一种基于密度和最优聚类数的改进算法,根据样本的分布情况启发式地确定初始聚类中心,从样本的几何结构角度提出一种新的内部评价指标,给出了最优聚类数确定方法,在此基础上,设计了一个增量式的入侵检测模型,实现了聚类中心和聚类数目的动态调整.实验结果表明,与K-means及其他两种改进聚类算法相比,新算法收敛速度更快、聚类准确率更高,能够对未知网络行为进行有效聚类,具有较好的入侵检测效果.(本文来源于《西南师范大学学报(自然科学版)》期刊2018年12期)

张雄[4](2018)在《聚类分析中最佳聚类数确定方法研究》一文中研究指出聚类分析作为数据挖掘、机器学习领域中的重要分析方法,近几十年来得到了许多专家学者的深入研究。如今,随着互联网的发展,各种数据源大量涌现,聚类分析方法也因此得到了较快的发展,并取得了许多成果。然而,聚类分析目前仍存在许多问题,其中之一就是最佳聚类数的确定问题。针对该问题,本文深入研究了聚类分析及聚类有效性评价,提出了一种新的聚类有效性指标,对现有的K-means算法进行了改进,并对中文新闻文本聚类这一实际问题进行了算法应用。本文的主要研究成果如下:1、提出一种基于泛化能力的聚类有效性指标——GA指标,该指标通过当前聚类结果对样本集中其他数据的泛化能力来衡量聚类有效性。通过逻辑推理和数据实验,证明该指标能较好地实现对聚类结果好坏的评价。2、结合本文提出的GA聚类有效性指标,提出一种基于GA指标的K-means最佳聚类数确定方法KGA算法,解决了K-means算法需要事先确定聚类数这一缺点。通过人工数据集以及真实数据集检验,该方法能够有效确定K-means聚类的最佳聚类数。3、基于GA指标以及KGA算法,设计出一个中文新闻文本聚类框架。该框架通过GA指标以及KGA算法对K-means算法进行改进,并将改进后的K-means算法应用到中文新闻文本聚类的实际问题中。通过对1800篇新闻进行实验,本文提出的中文新闻文本聚类框架的实用性以及有效性都得到了验证。(本文来源于《南京邮电大学》期刊2018-11-14)

卢建云,朱庆生,吴全旺[5](2018)在《一种启发式确定聚类数方法》一文中研究指出聚类分析是数据挖掘领域中最重要的任务之一,目前许多聚类算法已经被成功应用到图像聚类、文本聚类、信息检索、社交网络等领域.但面对结构复杂,分布不均衡的数据集时,确定数据集的最佳聚类数目显得尤为困难.因此,本文针对结构复杂、分布不均衡的数据集提出了一种启发式最佳聚类数确定的方法.首先,构建随机游走模型对数据集中的点进行重要性排序,通过k-最近邻距离图谱确定重要数据点的个数,由此排除噪声点和不重要的点对类之间以及类内密度变化的影响.其次,通过设计的启发式规则(k-最近邻链间距和k-最近邻链最近邻间距)构建决策图确定最佳聚类数目并识别出聚类代表点.最后,通过最近距离传播算法进行聚类.实验表明该方法可以快速准确地找到最佳聚类个数,同时,本文提出的聚类算法与流行的聚类算法相比取得了比较好的聚类结果.(本文来源于《小型微型计算机系统》期刊2018年07期)

秦欢,于佐军[6](2016)在《基于改进蜂群算法优化聚类数的K-means算法》一文中研究指出针对标准人工蜂群算法的缺点:搜索效率低、收敛速度慢,本文提出了一种改进的人工蜂群算法。通过引入算术交叉操作以及利用最优解指导搜索方向,显着增加了算法的收敛速度,在7个基准函数上的测试结果表明该算法拥有比其它五种智能算法更优越的效果。在此基础上,针对K-means算法的缺点,提出了基于改进蜂群算法优化聚类数的K-means算法,使得算法具备自动获得最佳聚类数的功能,在人工数据集和Iris数据集上的测试结果亦表明了算法的可行性。(本文来源于《第27届中国过程控制会议(CPCC2016)摘要集》期刊2016-07-31)

贾瑞玉,宋建林[7](2016)在《基于聚类中心优化的k-means最佳聚类数确定方法》一文中研究指出k-means聚类算法是在确定的聚类数k下对数据集进行聚类,通常凭借先验规则假定一个k值,取值具有很大主观性;此外,k-means初始聚类中心的选择一般也是随机的,这使得k-means聚类经常出现聚类指标局部最优化,聚类结果不稳定.针对以上两个问题,结合密度法改进了k-means初始聚类中心点的选择,并在此基础上提出了一种确定k-means最佳聚类数的方法.实验结果证明,该方法可以得到更好的聚类结果,具有更高的准确性、更好的稳定性以及更优的收敛性.(本文来源于《微电子学与计算机》期刊2016年05期)

刘波,何希平[8](2015)在《基于聚类数的评分矩阵恢复算法》一文中研究指出评分矩阵(rating matrix)的特点是高维、稀疏、低秩,对其研究的主要方法是低秩矩阵恢复。对这些算法而言,不同评分矩阵的秩,会得到不同的恢复精度。但目前没有理论来研究评分矩阵秩的估计,从而影响了这些算法的应用。从理论上分析了用户聚类数与评分矩阵秩的关系,给出用户聚类数的计算方法,并在此基础上提出一种基于聚类数的秩1矩阵恢复(Clusters Number Rank-1 Matrix Completion,CN-R1MC)算法来恢复评分矩阵。通过在多个推荐系统数据集上的实验证明:用户聚类数能较好地近似评分矩阵的秩,这对提高评分矩阵的恢复精度有重要的作用。所提出的算法有较好的应用价值。(本文来源于《计算机工程与应用》期刊2015年21期)

包翔,宋余庆,刘哲,刘毅,郑明杰[9](2015)在《一种图像分割聚类数自适应计算方法》一文中研究指出聚类理论是进行图像分割时的一种常用工具,然而多数聚类算法不能自动确定合适的聚类个数.提出一种基于高斯核密度函数的图像分割聚类数自适应计算方法.首先运用尺度空间滤波理论得到相应图像灰度值核密度函数的指纹图,然后运用高斯滤波理论得到滤波之后的核密度函数,再根据其与原核密度函数的相似程度得到聚类个数,最后将其作为核模糊聚类算法的初始参数进行分割.我们利用聚类标准I指标对分割结果进行评价,结果表明,该方法能准确地确定图像的初始聚类个数,并能达到更好的分割效果.(本文来源于《小型微型计算机系统》期刊2015年08期)

肖国红,金福江[10](2015)在《织物图像颜色处理中聚类中心和聚类数的确定方法》一文中研究指出针对织物图像颜色的预处理中随机选取聚类中心和聚类数对聚类结果带来的误差,提出了将RGB色泽分布中局部极大点位置作为聚类中心、以最优分类准则确定聚类数的方法,通过对k-means聚类算法的改进,实现了对不同物理形态的织物图像进行颜色聚类。实验表明,用改进的k-means聚类算法处理后的图像更适合测色。(本文来源于《第26届中国过程控制会议(CPCC2015)论文集》期刊2015-07-31)

聚类数论文开题报告

(1)论文研究背景及目的

此处内容要求:

首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。

写法范例:

社区结构发现研究可揭示复杂网络中隐藏中观结构,为进一步开展网络的形成和演化研究应用提供依据,如可为智能推荐、舆情控制、电力和交通网络调度等方面提供决策支持数据。针对复杂网络社区结构挖掘中社区数量难以确定的问题,提出一种基于密度自适应聚类数的社区发现谱方法。引入谱图分析中比较成熟的谱聚类特征向量分析方法,基于局部节点密度构图,结合网络图的边介数值构造相似矩阵,规范化后进行谱聚类,求得最大特征维度k值,k值即为社区个数。最后采用k-means方法对特征向量空间进行聚类,使得复杂网络社区得以呈现。在人工UCI和真实数据集(southern women data)上的实验表明,与现有谱聚类社区发现算法相比,该方法能自动确定社区个数,能得到划分精度更高的社区。

(2)本文研究方法

调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。

观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。

实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。

文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。

实证研究法:依据现有的科学理论和实践的需要提出设计。

定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。

定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。

跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。

功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。

模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。

聚类数论文参考文献

[1].李杏丽.混合数据最佳聚类数的确定方法与应用[D].兰州财经大学.2019

[2].王学军,李有红,李炽平.基于密度自适应聚类数的社区发现谱方法[J].计算机技术与发展.2019

[3].邹臣嵩,杨宇.基于密度和最优聚类数的入侵检测方法[J].西南师范大学学报(自然科学版).2018

[4].张雄.聚类分析中最佳聚类数确定方法研究[D].南京邮电大学.2018

[5].卢建云,朱庆生,吴全旺.一种启发式确定聚类数方法[J].小型微型计算机系统.2018

[6].秦欢,于佐军.基于改进蜂群算法优化聚类数的K-means算法[C].第27届中国过程控制会议(CPCC2016)摘要集.2016

[7].贾瑞玉,宋建林.基于聚类中心优化的k-means最佳聚类数确定方法[J].微电子学与计算机.2016

[8].刘波,何希平.基于聚类数的评分矩阵恢复算法[J].计算机工程与应用.2015

[9].包翔,宋余庆,刘哲,刘毅,郑明杰.一种图像分割聚类数自适应计算方法[J].小型微型计算机系统.2015

[10].肖国红,金福江.织物图像颜色处理中聚类中心和聚类数的确定方法[C].第26届中国过程控制会议(CPCC2015)论文集.2015

标签:;  ;  ;  ;  

聚类数论文-李杏丽
下载Doc文档

猜你喜欢