增量聚类算法论文-杨波,杨文忠,殷亚博,何雪琴,袁婷婷

增量聚类算法论文-杨波,杨文忠,殷亚博,何雪琴,袁婷婷

导读:本文包含了增量聚类算法论文开题报告文献综述及选题提纲参考文献,主要关键词:短文本,词向量,文本表示,空间金字塔池化

增量聚类算法论文文献综述

杨波,杨文忠,殷亚博,何雪琴,袁婷婷[1](2019)在《基于词向量和增量聚类的短文本聚类算法》一文中研究指出由于微博短文本的高维稀疏和传统Single-Pass聚类算法对文本数据顺序敏感等问题,导致短文本聚类准确率较低。针对上述问题提出一种基于词向量和增量聚类的短文本聚类算法(improved single-pass algorithm based on word embedding,ISWE)。通过词向量模型得到文本的词向量矩阵,利用金字塔池化(spatial pyramid pooling,SPP)策略对文本词向量矩阵进行处理得到文本表示,使用改进的Single-Pass算法进行微博短文本聚类。实验结果表明,使用SPP策略的文本表示使聚类准确率明显提高,ISWE算法相较于传统的Single-Pass算法有更高的准确率和调整兰德系数,验证了其有效性和准确性。(本文来源于《计算机工程与设计》期刊2019年10期)

姚琳燕[2](2019)在《增量聚类算法的研究》一文中研究指出聚类分析技术是数据挖掘技术领域中的重要组成部分,在多个领域中有着广泛的应用。随着数据的不断增长,如何从海量数据中高效地获取信息成为聚类算法如今研究的重点。传统静态聚类算法无法在聚类前获取全部数据,导致聚类时效性较差,在大数据环境下适用性不强,因此,增量式聚类算法成为了一个研究热点。当新增数据到来时,将新增数据和原有数据一起重新聚类需要花费大量时间和资源,本文从处理动态数据集的角度出发进行研究,结合静态聚类算法的优点,利用已有的聚类模型处理增量数据,使聚类算法能够更好更快地处理动态数据集。主要研究工作如下:(1)针对单点处理式增量K-Means算法的设计及其初始中心点选择的相关研究。首先,参考K近邻的思想,设计了一种增量方法,根据新增数据的k个近邻来判断新增数据的归属,一个未知类别的数据点应该与其近邻中数据点所属的多数类别保持一致。随着新增数据点不断增长,除了考虑将新增点划分到某个已知簇中或生成一个新簇,还应该考虑增量数据的加入对原始聚类模型的影响,在新增数据达到一定数量时,使用类簇的相关特征来判断是否对簇进行合并或分裂操作。当新簇包含的样本点远小于其他类簇时作为噪声处理。其次,由于使用K-Means算法对初始数据进行聚类时质心的选择对初始聚类模型的影响较大,本文将初始中心点选择在数据密集区域的凸包边界上,能够得到更好的初始聚类模型。该增量算法不仅实现了动态数据的增量处理,能够利用初始聚类结果实现数据模型的实时更新,也提高了聚类精度。(2)针对批处理增量模糊聚类算法的设计及其如何处理稀疏高维数据的相关研究。模糊c均值聚类算法简单,且迭代速度快,但只能处理低维小规模数据,利用该算法的优点,本文采用分块和抽样的方式进行增量式扩展,提出了适合处理稀疏高维大规模数据的改进增量模糊聚类算法spHF(c+l)M、oHF(c+l)M和rseHF(c+l)M算法。spHF(c+l)M算法和oHF(c+l)M算法将数据进行分块处理,rseHF(c+l)M算法对数据进行抽样处理。在每个分块或抽样数据块上运行模糊c均值算法时,首先加入样本权值以提高聚类效果,然后使用改进的考虑质心之间相互影响的目标函数进行迭代提高聚类精度,接着在每一步迭代中将质心标准化,使用余弦距离计算相似度,使算法更加适合稀疏高维数据集。在计算机内存有限的情况下,这种增量模式下的聚类算法能够实现超大规模稀疏高维文本数据集的准确高效处理。实验结果显示,本文叁种改进增量聚类算法在大规模英文文本数据集上效果更好更稳定速度更快。(3)最后,简要介绍了中文文本聚类的流程和文本信息的处理过程,同时将本文的增量聚类算法应用在中文文本聚类上,实现了中文文本的增量处理。实验结果证明,本文改进增量聚类算法在处理动态中文文本数据集时效果良好。(本文来源于《江南大学》期刊2019-06-01)

孙暖[3](2019)在《动态增量聚类算法的研究》一文中研究指出K均值聚类算法是一种划分算法,因此存在一些缺陷,为了解决此问题,模糊C均值算法引入了隶属度U,解决了“硬”划分问题,但是模糊C均值不能初始化聚类中心和聚类个数。近邻传播算法算法是一种新型聚类算法,在效率方面比传统的算法有优势,但是面对非球状数据集的时候,不能产生好的聚类结果,基于以上问题,提出以下几个研究方面:针对模糊C均值不能初始化聚类中心和聚类数的缺陷,本文首先使用Init-cluster选择初始聚类中心和聚类个数,当这些参数确定之后采用基于核函数的模糊C均值算法聚类。为了避免异常值对聚类结果产生影响,本文提出了一种基于角度的异常点检测算法,可以有效地检测异常值,该算法能有效的排除影响聚类结果的异常值,提高算法整体的抗噪性和准确性。面对在低维空间中高维数据集的线性不可分的问题,本文引入全局核函数和局部核函数相结合的方法,由于不同类型的核函数具有不同的效果,所以构造出的新型核函数的具备两种类型核函数优点。近邻传播算法是基于欧式距离来构造相似度矩阵,所以对流形数据集的聚类效果并不理想,本文提出基于图的相似性度量,重新定义了相似度,放大元素之间的细微差别,让我们不仅能处理正常数据而且对非球状数据也能处理。面对不断增加的数据,如何基于现有的聚类结果进行动态增量聚类变得非常重要,传统的聚类算法只能聚类静态数据点。本文从元素之间的夹角出发,另辟蹊径,提出基于角度的增量聚类算法,避免了大量的重复计算。本文在KFCM聚类结果的基础上,提出类与类之间的相异度,根据相异度的大小直接把数据分配到对应类别中,解决了传统聚类算法无法聚类动态数据集的缺陷。实验表明,这可以节约时间,提高了效率。(本文来源于《哈尔滨理工大学》期刊2019-03-01)

姚琳燕,钱雪忠,樊路[4](2019)在《基于簇特征的增量聚类算法》一文中研究指出针对传统聚类算法无法处理大规模数据的特点,结合增量算法和簇特征的思想,在初始聚类阶段,采用基于距离的K-means聚类算法获取相应簇的特征。根据簇特征,并结合K最近邻(KNN)的思想处理增量,提出了基于簇特征的增量聚类算法。提出的方法已经在加州大学尔湾分校(UCI)机器学习库中提供的真实数据集的帮助下得到验证。实验结果表明:提出的增量聚类方法的聚类精度较普通K-means算法和原始增量K-means算法有明显提高。(本文来源于《传感器与微系统》期刊2019年01期)

杨柳[5](2018)在《基于增量聚类的动态网络社团检测算法》一文中研究指出复杂网络作为刻画现实世界复杂系统的工具,已经广泛用于社会学、生物学等领域。但是真实的复杂系统是随着时间缓慢变化的,将不同时刻的系统进行建模,并按照时间排序即可得到动态网络。社团是网络的一个重要特征,对动态网络进行社团挖掘,可以使人们更好地了解网络的特征及其演化规律,有重要的理论价值与实际意义。然而,如果使用传统的聚类算法,会忽略相邻时刻网络间的关系;演化聚类的算法准确度高,但是受限于时间复杂度,在大规模网络中并不适用;增量聚类算法利用动态网络缓慢变化的特点,基于前一时刻发现的社团结构,避免了对网络中全部节点的重新划分,不仅有效降低了时间复杂度,还保证了相邻时刻社团检测结果的一致性。本文提出了一种基于增量聚类与连接密度的动态网络社团检测算法IPSCAN。工作主要分为两部分,首先,根据动态网络中边的增删对节点结构相似性与相似度值的影响,分析了边更新影响的区域,重新定义了增量节点的集合。然后,将增量节点集合中的节点根据相似度值分为核心节点与非核心节点,当处理某一时刻新增的核心节点时,尝试从此节点扩展并判断是否生成新社团,克服了IC等增量算法社团数目固定、不能发现新出现的社团的缺陷。通过对时间复杂度的分析发现IPSCAN算法具有增量算法高效率的特点。对本文提出的算法在合成数据集与真实数据集上进行实验,从准确性与时间复杂度两方面验证算法的性能,并与演化聚类算法Facetnet、增量聚类算法IC及DABP进行对比。例如在真实动态网络数据集Football上,IPSCAN算法得到的社团结果的模块度比Facetnet算法高5%,比IC算法高12%,比DABP算法高11%;在大规模真实数据集DBLP上的结果显示,本文算法得到的社团结果的模块度比DABP算法高11%,且显着高于IC算法,而IPSCAN算法在每个时刻的运行时间控制在6秒以内,DABP算法的运行时间最高达67秒。实验结果表明,IPSCAN算法的准确度高于IC算法,而DABP算法虽然可以发现新社团,但是准确度低于IPSCAN算法,且时间效率比IPSCAN算法低。本文提出的算法不仅具有良好的社团检测能力,可以发现新出现的社团;而且还具有增量算法高效的优点,可以用于大规模动态网络的社团发现。(本文来源于《西安电子科技大学》期刊2018-06-01)

李浩然[6](2018)在《基于特征选择的增量聚类算法研究》一文中研究指出当今时代,由于互联网和信息技术的高速发展,人们获取大量的数据变得越来越容易。因此,如何将这些数据变为能够指导人们生活工作的有用信息,变得尤为重要。但是当今数据多具有高维度,增量性和具有少量先验标签信息的特点。虽然传统的聚类算法曾作为挖掘数据中潜在信息的重要手段,但在处理具有以上这些特点的数据时,变得低效、不准确且不能有效利用数据的先验信息。因此,如何挖掘这种具有高维度增量性的数据,且在挖掘过程中能有效的利用数据的先验信息,则变得尤为重要。本文针对以上问题,提出了一种新的增量聚类算法。该算法由解决数据高维度问题的特征选择算法和解决增量数据聚类问题的增量聚类算法两部分组成。在特征选择算法方面,首先通过对Relief算法的评价权重进行更改,使得更改后的权重可以用于评价特征子集。其次,使用二次Renyi信息熵并结合互信息的思想提出了QJMI评价准则,该准则可以判别特征子集中特征的间的相关性与冗余性,且具有较低的计算负载。最后,通过将两者结合,提出了基于复合相关度评价准则的FSIRQ特征选择算法。该算法能够选出具有代表性的特征子集,且具有计算速度快的特点。在增量聚类算法方面,本文通过选择聚类结果中的样本代表点,将样本代表点与增量数据混合进行聚类,解决了增量数据的聚类问题。最后,通过将FSIRQ算法与该增量聚类算法结合,提出了FS-RDRS-IC增量聚类算法。该算法可以很好的解决高维度增量型数据的增量聚类问题,并且能够合理的利用数据所具有的先验知识,使得算法具有较好的高效性与准确性。实验选用UCI数据库中的数据集,首先通过对比现有的特征选择算法,证明了FSIRQ算法的准确性与高效性。然后通过与传统聚类算法的比较,结果表明了FS-RDRS-IC增量聚类在计算速度与计算准确度上的所具有的优势。(本文来源于《哈尔滨工程大学》期刊2018-01-01)

党燕,许志伟,刘利民,王宇,赵思远[7](2017)在《基于Single-Pass算法的网络舆情文本增量聚类算法研究》一文中研究指出随着信息技术的快速发展,互联网成为主要社会信息传播方式,网络舆情的影响力不断扩大。网络舆情具有内容丰富、信息量大且相关话题种类繁多等特点,虽然聚类技术可以用来发现网民关注的话题,但是传统聚类算法还无法直接应用于海量动态网络舆情监控。本文根据网络舆情动态演化特点,研究高效的增量文本聚类算法,选取经典的增量聚类算法Single-Pass进行了改进,解决了该算法输入数据顺序敏感问题及求解效率问题。实验结果表明,在海量舆情文本聚类过程中,该方法可以大大提升舆情文本聚类效率,同时聚类精度未受到影响。(本文来源于《内蒙古工业大学学报(自然科学版)》期刊2017年05期)

王玲,孟建瑶[8](2018)在《基于局部分布的贝叶斯自适应共振理论增量聚类算法》一文中研究指出针对传统的贝叶斯增量聚类算法需要人为设置参数,且对分布不均衡数据聚类效果不佳的问题,提出一种基于局部分布的贝叶斯自适应共振理论增量聚类算法.首先,利用数据快照读取数据;然后,在无需设置参数的情况下,考虑类簇的局部分布情况,自适应地确定新数据的所属类别,并更新获胜类簇;最后,确定相邻快照中类簇的演化关系.不同数据集的仿真结果表明,所提出的算法在准确性和自适应性方面均有显着提高.(本文来源于《控制与决策》期刊2018年03期)

刘晓琳,曹付元,梁吉业[9](2018)在《面向新闻评论的短文本增量聚类算法》一文中研究指出对新闻评论进行增量聚类可以有效地发现网民对新闻事件的观点,在舆情分析领域具有十分重要的意义。针对传统的增量聚类算法存在对文本输入顺序敏感的缺点,提出了一种基于待定循环策略的增量聚类算法(uncertain cyclic Single-Pass,UCSP)。在聚类过程中,针对传统的短文本向量空间模型语义信息匮乏、特征项稀疏的问题,结合神经网络训练的词向量模型,构建了一种基于多特征组合的短文本表示模型。在爬取的5个腾讯新闻评论数据集进行实验,并与传统的文本表示模型和聚类算法进行对比分析,结果表明,所提算法可以有效地提高聚类质量。(本文来源于《计算机科学与探索》期刊2018年06期)

陈学位[10](2017)在《一种基于日志的分布式增量聚类算法》一文中研究指出随着云计算的普及,大型在线服务系统受到越来越多的关注,各种大型在线服务系统在市场上层出不穷。随着系统的日趋庞大和复杂,大型在线服务系统产生的日志数据达到TB级别,同时需要保证系统24小时99.99%可用性。大型在线服务系统的正确运行和效率对于大型在线服务系统非常的重要,验证的正确率和效率直接关系到大数据系统能否在实际生产环境中稳定的运行,是大型在线服务系统上线生命周期中不可或缺的关键环节。日志数据作为分析大型在线服务系统的重要依据。日志数据的分析技术的成熟,将大力有助于大型在线服务系统的稳定运行和高效维护。高效的日志分析技术成为研究人员分析验证以及调试大型在线分析系统的难点和热点。日志聚类分析技术旨在通过聚类分析的技术,降低大型在线服务系统的开发和维护的人力成本,帮助大型在线服务系统的工程师和研究人员解决相关的问题,保证系统的稳健性。本文以日志的聚类分析及其效率优化为研究课题,重点研究了日志数据的分布与解析,聚类分析技术,大数据处理分析技术等。针对海量日志数据的数据量大和长尾分布的特点,提出了一种Cascading层迭聚类算法。使用MapReduce技术实现了该算法,通过实验验证了算法的可行性和有效性,并把Cascading聚类算法分析技术集成到日志分析系统。本文的主要内容以及贡献包括1)研究与分析了日志数据的特征和日志数据的长尾分布的特点。大量相似的日志数据都属于系统正常运行的日志数据,反应系统异常和错误的信息分布在“长尾”中。提出日志数据的预处理方法,包括对日志数据进行抽样、解析、转换等。2)在深入研究了各类聚类算法并分析了各类聚类算法的优缺点的基础之上,结合日志数据的长尾分布特征,提出了一种针对此类数据分布的基于分布式的Cascading聚类算法。3)通过对Cascading聚类算法在日志数据的实验,证实了Cascading聚类算法在运行时间和空间上的可行性,在长尾分布的日志数据下的优越性,通过实验说明采用日志聚类算法所减少的工作量。4)搭建了日志数据分析系统,包括历史样本库、用户接口、核心算法、功能模块等,并把算法应用到日志数据分析的系统中。本人声明所呈交的学位论文是本人在微软研究院交流期间完成的相关工作,相应知识产权归微软所有。(本文来源于《电子科技大学》期刊2017-03-01)

增量聚类算法论文开题报告

(1)论文研究背景及目的

此处内容要求:

首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。

写法范例:

聚类分析技术是数据挖掘技术领域中的重要组成部分,在多个领域中有着广泛的应用。随着数据的不断增长,如何从海量数据中高效地获取信息成为聚类算法如今研究的重点。传统静态聚类算法无法在聚类前获取全部数据,导致聚类时效性较差,在大数据环境下适用性不强,因此,增量式聚类算法成为了一个研究热点。当新增数据到来时,将新增数据和原有数据一起重新聚类需要花费大量时间和资源,本文从处理动态数据集的角度出发进行研究,结合静态聚类算法的优点,利用已有的聚类模型处理增量数据,使聚类算法能够更好更快地处理动态数据集。主要研究工作如下:(1)针对单点处理式增量K-Means算法的设计及其初始中心点选择的相关研究。首先,参考K近邻的思想,设计了一种增量方法,根据新增数据的k个近邻来判断新增数据的归属,一个未知类别的数据点应该与其近邻中数据点所属的多数类别保持一致。随着新增数据点不断增长,除了考虑将新增点划分到某个已知簇中或生成一个新簇,还应该考虑增量数据的加入对原始聚类模型的影响,在新增数据达到一定数量时,使用类簇的相关特征来判断是否对簇进行合并或分裂操作。当新簇包含的样本点远小于其他类簇时作为噪声处理。其次,由于使用K-Means算法对初始数据进行聚类时质心的选择对初始聚类模型的影响较大,本文将初始中心点选择在数据密集区域的凸包边界上,能够得到更好的初始聚类模型。该增量算法不仅实现了动态数据的增量处理,能够利用初始聚类结果实现数据模型的实时更新,也提高了聚类精度。(2)针对批处理增量模糊聚类算法的设计及其如何处理稀疏高维数据的相关研究。模糊c均值聚类算法简单,且迭代速度快,但只能处理低维小规模数据,利用该算法的优点,本文采用分块和抽样的方式进行增量式扩展,提出了适合处理稀疏高维大规模数据的改进增量模糊聚类算法spHF(c+l)M、oHF(c+l)M和rseHF(c+l)M算法。spHF(c+l)M算法和oHF(c+l)M算法将数据进行分块处理,rseHF(c+l)M算法对数据进行抽样处理。在每个分块或抽样数据块上运行模糊c均值算法时,首先加入样本权值以提高聚类效果,然后使用改进的考虑质心之间相互影响的目标函数进行迭代提高聚类精度,接着在每一步迭代中将质心标准化,使用余弦距离计算相似度,使算法更加适合稀疏高维数据集。在计算机内存有限的情况下,这种增量模式下的聚类算法能够实现超大规模稀疏高维文本数据集的准确高效处理。实验结果显示,本文叁种改进增量聚类算法在大规模英文文本数据集上效果更好更稳定速度更快。(3)最后,简要介绍了中文文本聚类的流程和文本信息的处理过程,同时将本文的增量聚类算法应用在中文文本聚类上,实现了中文文本的增量处理。实验结果证明,本文改进增量聚类算法在处理动态中文文本数据集时效果良好。

(2)本文研究方法

调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。

观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。

实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。

文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。

实证研究法:依据现有的科学理论和实践的需要提出设计。

定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。

定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。

跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。

功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。

模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。

增量聚类算法论文参考文献

[1].杨波,杨文忠,殷亚博,何雪琴,袁婷婷.基于词向量和增量聚类的短文本聚类算法[J].计算机工程与设计.2019

[2].姚琳燕.增量聚类算法的研究[D].江南大学.2019

[3].孙暖.动态增量聚类算法的研究[D].哈尔滨理工大学.2019

[4].姚琳燕,钱雪忠,樊路.基于簇特征的增量聚类算法[J].传感器与微系统.2019

[5].杨柳.基于增量聚类的动态网络社团检测算法[D].西安电子科技大学.2018

[6].李浩然.基于特征选择的增量聚类算法研究[D].哈尔滨工程大学.2018

[7].党燕,许志伟,刘利民,王宇,赵思远.基于Single-Pass算法的网络舆情文本增量聚类算法研究[J].内蒙古工业大学学报(自然科学版).2017

[8].王玲,孟建瑶.基于局部分布的贝叶斯自适应共振理论增量聚类算法[J].控制与决策.2018

[9].刘晓琳,曹付元,梁吉业.面向新闻评论的短文本增量聚类算法[J].计算机科学与探索.2018

[10].陈学位.一种基于日志的分布式增量聚类算法[D].电子科技大学.2017

标签:;  ;  ;  ;  

增量聚类算法论文-杨波,杨文忠,殷亚博,何雪琴,袁婷婷
下载Doc文档

猜你喜欢