多数据流聚类论文-叶福兰

多数据流聚类论文-叶福兰

导读:本文包含了多数据流聚类论文开题报告文献综述及选题提纲参考文献,主要关键词:离群点,检测,不确定数据流,聚类

多数据流聚类论文文献综述

叶福兰[1](2019)在《基于离群点检测的不确定数据流聚类算法研究》一文中研究指出应用网络流量、日志管理等数据流过程中,常遭设备精度、噪声等问题影响出现大量不确定性数据流,影响数据流的管理与挖掘。相关研究表明,检测数据流中的离群点能够挖掘网络中被忽视的异常数据。因此,提出基于离群点检测的不确定数据流聚类算法,首先,通过微聚类划分算法将数据集划分成若干个微聚类;然后,根据信息熵的微聚类过滤机制获取全局离群点,在离群点微聚类中使用基于距离的方法挖掘出局部离群点;最后,采用不确定数据流子空间聚类算法完成全局离群点以及局部离群点两种不确定数据流聚类。分析结果表明,在数据量和维度的影响下,采用同类聚类算法聚类时聚类效果较差,而所提算法可有效克服此类问题,且具有较强的伸缩性。(本文来源于《中国电子科学研究院学报》期刊2019年10期)

杨涛,张红梅,王家乐,周卓洁,杜宏[2](2019)在《大数据下数据流聚类挖掘算法的优化分析》一文中研究指出随着IT技术的不断提升和完善,不管是在PC端,还是在移动端,人们借助互联网工具来实现的各种服务,都以数据的形式被记录下来,而这些数据不仅体量庞大、变化迅速,而且还呈现出一定的时序性。传统的数据分析已经不能适应如今庞大的数据流,同时不同的算法,最终所得到的处理结果也是不一样的,此时利用数据流相关的技术得到了重视和大规模的开发应用。鉴于此,文中通过明确数据流的概念和特点,并列举了常用的数据流聚类算法。充分考虑时间权值对数据流聚类的影响,在微簇中心点引入了时间衰减函数,提出F-Stream算法,分别对在线微聚类算法、离线宏聚类算法和数据流全局化缓存结构进行了优化设计。通过和CluStream算法进行时间效率、聚类质量和敏感参数的对比实验,发现F-Stream算法的整体性能更优,具有很好的聚类效果。(本文来源于《物联网技术》期刊2019年08期)

唐中海,徐静[3](2019)在《基于大数据的定性数据流聚类优化模型研究》一文中研究指出探讨了基于大数据的定性数据流聚类优化模型,设计了一个函数作为评价聚类模型有效性的目标函数,同时考虑了聚类模型的确定性和与上一个聚类模型的连续性.根据概念漂移的检测指标,提出了一种综合检测指标和优化模型的定性数据流聚类结构演化趋势的检测方法.通过对几个真实数据集的实验研究,验证了该算法在定性数据流聚类中的有效性,并与现有的数据流聚类算法进行了比较.(本文来源于《西安文理学院学报(自然科学版)》期刊2019年04期)

张东月,周丽华,吴湘云,赵丽红[4](2019)在《基于网格耦合的数据流聚类》一文中研究指出随着越来越多的应用程序产生数据流,数据流聚类分析的研究受到了广泛关注.基于网格的聚类通过将数据流映射到网格结构中形成数据概要,进而对概要进行聚类.这种方法通常具有较高的效率,但是每个网格独立处理,没有考虑网格之间的相互影响,因此聚类质量有待提高.在聚类过程中不再独立处理网格,而是考虑了网格之间的耦合关系,提出了一种基于网格耦合的数据流聚类算法.网格的耦合更加准确地表达了数据之间的相关性,从而提高了聚类的质量.在合成和真实数据流上的实验结果表明,所提算法具有较高的聚类质量和效率.(本文来源于《软件学报》期刊2019年03期)

杨姣,高仲合,王来花,韦锦涛[5](2018)在《数据流聚类挖掘算法优化研究》一文中研究指出在大数据时代,概念漂移检测技术用于解决数据流的动态性问题,还存在不足之处.为此,该文基于概念漂移检测算法对大数据下数据流聚类挖掘算法进行优化,提出了改进的FKNN模型算法,解决了算法中的需要专家及运算效率比较低下以及采样密度必须足够大或者说维度比较低的难题.(本文来源于《曲阜师范大学学报(自然科学版)》期刊2018年03期)

张军,刘文杰[6](2018)在《一种新的数据流聚类融合算法研究》一文中研究指出提出一种新的选择性聚类融合算法,该算法主要基于分形维数来处理一些高维数据,选择策略则是主要基于互信息,考虑到已选聚类成员的重要程度与聚类成员的质量和多样性,此算法比较适用的数据聚集类为任意形状的,聚类融合可通过加权定义实现。仿真实验中在UCI数据集环境运用本文提出的选择性聚类融合算法,实验结果表明该算法具有良好的有效性。(本文来源于《科技通报》期刊2018年05期)

付家祺,陈坚,淳浩,年青[7](2018)在《一种基于密度和约束的数据流聚类算法》一文中研究指出文章在传统聚类算法的基础上,提出了一种基于密度和约束的数据流聚类算法——C-DBDStream(Constraint and Density Based Clustering of Data Stream)。该算法使用数据流聚类在线和离线两阶段框架。在线聚类阶段使用衰减窗口模型,对数据流中的数据对象进行初步的聚类,应用约束条件生成微簇,并将实例级的约束扩展到了微簇级,并将结果以快照的形式保存下来为下一阶段做准备;离线聚类阶段则利用微簇级约束规则聚类,采用DBSCAN算法中的密度可达寻找密度连通区域以产生最终结果。经实验证明,与Clu Stream算法的对比中,C-DBDStream算法提高了聚类效果。(本文来源于《科技创新与应用》期刊2018年12期)

曾嘉豪[8](2018)在《基于DPC算法混合属性数据流聚类研究》一文中研究指出聚类分析是数据挖掘领域一项重要的研究课题。随着大数据时代的到来,数据流在很多领域得到应用,数据流聚类也成为一项意义深远而且具有挑战性的技术。与传统的静态数据相比,数据流是高速的、动态的、变化的。数据流的这些特性,给数据流聚类带来了困难。此外数据流的高维性、混合属性和海量性等特征对数据流聚类提出了更高的要求。本文将针对以上问题展开研究,提出适应数据流特性且有效处理数据流高维性、混合属性和海量性等问题的数据流聚类算法。本文包括以下四个方面内容:第一,讨论数据流聚类相关问题,概述数据流的特点和数据流处理模型,比较分析数据流聚类方法;第二,研究混合属性数据处理过程,针对数据流的特点进行数值型数据标准化、高维数据降维和混合属性数据度量方法的讨论;第叁,针对DPC算法无法处理混合属性数据、截断距离的选取影响密度的计算和无法处理大规模数据叁个方面的不足,分别提出基于信息熵的混合属性数据处理方法改进DPC算法的距离值计算、采用KNN非参数核密度估计方法改进DPC算法的密度值计算和将滑动窗口技术和DPC算法相结合,实现混合属性数据流聚类;第四,采用DPC改进算法对KDDCup99网络入侵检测数据集进行聚类,并与经典数据流聚类算法Clustream算法和Denstream算法进行比较分析,评价DPC改进算法聚类效果。为了检验DPC改进算法的效用,对人口普查数据集和银行营销数据集进行聚类,并设计对照实验验证DPC算法密度改进的有效性。通过KDDCup99数据集的聚类结果显示,DPC改进算法在任意形状的数据集中能检测正确的聚类,并保持较高的聚类精度,与Clustream算法和Denstream算法相比,DPC改进算法对聚类精度有明显提高和更好的稳定性。在效用检验中,DPC改进算法在人口普查数据集和银行营销数据集聚类中均保持较高的聚类精度,同时对照实验结果也验证了DPC算法密度改进的有效性。本文的主要贡献:第一,针对DPC算法的不足分别从叁个方面提出改进方法,使DPC算法适用于高维混合属性数据流聚类;第二,提出针对高维混合属性数据流可行、有效的聚类方法,适用于网络安全、社会科学和经济等领域数据的聚类研究;第叁,通过编写matlab程序实现DPC改进算法的实证分析,拓展了该方法的应用,也实现了matlab软件在混合属性数据流聚类相关问题中的应用。(本文来源于《华南理工大学》期刊2018-04-01)

陈羽中,郭松荣,郭昆,李国辉,林魏超[9](2018)在《基于时态密度特征的改进数据流聚类算法》一文中研究指出针对经典Clu Stream聚类算法的在线微簇聚类过程中限制微簇数量的增长,对微簇进行强制合并,使其在线聚类结果受到影响,导致数据流聚类质量不高,且难以适应海量大数据等问题,提出一种基于时态密度特征的改进Clu Stream聚类算法.首先,提出微簇时态密度的概念,并用其对微簇进行描述;其次,提出新的微簇删除、合并的机制,能够根据在线微簇的情况动态地添加微簇的数量;最后,应用并行化的框架将算法并行化,以适应海量实时大数据的需求.通过在人工数据集和真实数据集上的对比实验表明,改进后的数据流聚类算法相较于Clu Stream算法能够得到更高质量的聚类结果.(本文来源于《小型微型计算机系统》期刊2018年01期)

万新贵[10](2017)在《分布式数据流聚类算法研究与应用》一文中研究指出随着互联网技术与服务的快速发展,数据流模型进入了数据挖掘的视线。由于数据流具有短时间内有大量数据连续到达和数据随时间动态变化的特点,如何对这些数据流使用有限存储空间进行快速处理以获取有用信息是对数据挖掘及其应用研究的新的挑战。本文基于数据流模型,研究如何通过改进已有的数据流聚类算法和将之基于Storm进行分布式并行化来提高数据流聚类算法的性能,以及如何将研究的算法加以应用。在提高数据流聚类性能的方面,本文通过从算法参数调整、网格簇的形成策略和历史数据分析叁个方面对D-Stream算法进行改进,设计了基于质心距离和密度网格的数据流聚类算法CDD-Stream。与D-Stream算法和NDD-Stream算法的对比实验结果表明,CDD-Stream算法在数据流对象上有更好的聚类时效性和更高的聚类精度。在数据流聚类算法的分布式并行化方面,本文针对CDD-Stream算法中的网格结构更新实施并行化策略,设计了分布式数据流聚类算法DCD-Stream(Distributed Centroid Distance D-Stream)。基于Storm的对比实验结果表明,DCD-Stream算法在数据流对象上有与CDD-Stream算法等同的聚类精度和更好的时效性。在分布式数据流聚类算法的应用方面,针对DCD-Stream算法在基于Storm的IDS中的应用,设计了基于Storm的网络入侵检测系统S-IDS(Intrusion Detection System based on Storm)模型。基于KDD-CUP99数据集的实验结果表明,相比D-Stream算法,DCD-Stream算法具有更高的准确率与更好的时效性,因此验证了DCD-Stream算法在S-IDS系统中的分布性、实时性和准确性。本文的工作与现今数据流挖掘的研究方向相适应,具有较高的先进性和实用性。(本文来源于《南京邮电大学》期刊2017-10-26)

多数据流聚类论文开题报告

(1)论文研究背景及目的

此处内容要求:

首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。

写法范例:

随着IT技术的不断提升和完善,不管是在PC端,还是在移动端,人们借助互联网工具来实现的各种服务,都以数据的形式被记录下来,而这些数据不仅体量庞大、变化迅速,而且还呈现出一定的时序性。传统的数据分析已经不能适应如今庞大的数据流,同时不同的算法,最终所得到的处理结果也是不一样的,此时利用数据流相关的技术得到了重视和大规模的开发应用。鉴于此,文中通过明确数据流的概念和特点,并列举了常用的数据流聚类算法。充分考虑时间权值对数据流聚类的影响,在微簇中心点引入了时间衰减函数,提出F-Stream算法,分别对在线微聚类算法、离线宏聚类算法和数据流全局化缓存结构进行了优化设计。通过和CluStream算法进行时间效率、聚类质量和敏感参数的对比实验,发现F-Stream算法的整体性能更优,具有很好的聚类效果。

(2)本文研究方法

调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。

观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。

实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。

文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。

实证研究法:依据现有的科学理论和实践的需要提出设计。

定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。

定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。

跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。

功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。

模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。

多数据流聚类论文参考文献

[1].叶福兰.基于离群点检测的不确定数据流聚类算法研究[J].中国电子科学研究院学报.2019

[2].杨涛,张红梅,王家乐,周卓洁,杜宏.大数据下数据流聚类挖掘算法的优化分析[J].物联网技术.2019

[3].唐中海,徐静.基于大数据的定性数据流聚类优化模型研究[J].西安文理学院学报(自然科学版).2019

[4].张东月,周丽华,吴湘云,赵丽红.基于网格耦合的数据流聚类[J].软件学报.2019

[5].杨姣,高仲合,王来花,韦锦涛.数据流聚类挖掘算法优化研究[J].曲阜师范大学学报(自然科学版).2018

[6].张军,刘文杰.一种新的数据流聚类融合算法研究[J].科技通报.2018

[7].付家祺,陈坚,淳浩,年青.一种基于密度和约束的数据流聚类算法[J].科技创新与应用.2018

[8].曾嘉豪.基于DPC算法混合属性数据流聚类研究[D].华南理工大学.2018

[9].陈羽中,郭松荣,郭昆,李国辉,林魏超.基于时态密度特征的改进数据流聚类算法[J].小型微型计算机系统.2018

[10].万新贵.分布式数据流聚类算法研究与应用[D].南京邮电大学.2017

标签:;  ;  ;  ;  

多数据流聚类论文-叶福兰
下载Doc文档

猜你喜欢