导读:本文包含了基于聚类的异常值检测论文开题报告文献综述及选题提纲参考文献,主要关键词:异常检测,模糊核聚类,主动学习,日志解析
基于聚类的异常值检测论文文献综述
吕宗平,时熙然,顾兆军[1](2019)在《基于模糊核聚类和主动学习的异常检测方法》一文中研究指出针对日志数据的异常检测获取标记数据代价过高的问题,提出一种基于模糊核聚类与主动学习的算法,即KFCM-AL算法。首先将日志解析,之后利用模糊核聚类算法将待选样本在高维空间进行划分聚类,滤去样本冗余点,同时选取聚类中心进行标记构建初始分类器,最后结合主动学习利用较小的标记代价对异常检测模型进行优化。实验结果表明,所提方法能够利用较少的标记样本获取异常检测模型的性能提升。(本文来源于《现代电子技术》期刊2019年20期)
段磊[2](2019)在《基于半监督聚类的异常用户检测》一文中研究指出近年来,随着智能设备与互联网的快速发展,互联网愈加的深入到人们的生活的各个方面,这使得各个软件应用的用户规模逐渐庞大,如今用户规模上亿的产品也屡见不鲜。与此同时,用户的价值也逐渐被重视,活跃用户的规模也成为了衡量互联网产品价值的重要指标之一。然而,庞大的用户规模也吸引了随利益而来的异常用户,异常用户的大量存在不但损害了正常用户的信息安全,更是严重危害了软件应用的信誉评价。因此异常用户检测也越来越受到人们的关注。常见的异常检测方法主要分为叁种:有监督的方法、无监督的方法和半监督的方法。异常用户因为其数据稀少,导致标记足量的数据集更加困难,因此虽然有监督的方法能达到较好的异常检测效果,但是却需要大量人力。无监督的方法虽然避免了这一问题,然而目前的无监督方法却没能达到预期的异常检测效果。因此作为结合有监督和无监督的半监督方法正逐渐应用于异常用户检测。本论文提出了一个基于半监督聚类的异常用户检测方案。该检测方案结合孤立森林算法和半监督的模糊c均值聚类算法,首先将已标注的数据进行聚类得到聚类中心,接着将未标注数据中的孤立数据分离出来,并且根据之前的聚类中心得到孤立数据归属于异常用户的可能性,最后利用得到的信息作为先验信息,进行半监督聚类检测出异常用户。经过实验可知,在少量标记数据的情况,该检测方案也能达到良好的检测效果。同时本文也依照该方案设计并实现了基于异常用户检测的安全示警系统,该系统包括数据获取、异常用户检测、系统管理和统计分析等模块,经过系统测试证明该系统能有效的检测异常用户并且稳定运行。(本文来源于《北京邮电大学》期刊2019-05-31)
曾霄笑[3](2019)在《基于改进RNN及密度聚类的异常流量检测方法》一文中研究指出近些年来,互联网的规模急速增长,数据规模迅速扩大,网络的管理与监测成为越来越重要的任务。对网络流量异常值进行检测,可以为网络管理、安全预警等多种事务提供关键的决策帮助,具有十分重要的意义。目前,关于异常流量检测的研究已经有了较大发展,但还存在着一些局限性。例如,传统统计模型无法适应网络流量自相似性、长相关性等特性;基于分类训练的方法需要大量的标注数据用作训练不太符合实际;;基于聚类的检测方法又对聚类结果依赖较大。此外,目前大部分的检测研究更多地集中在异常检测的准确度而较少考虑时间效率,难以快速应对网络中的异常。为了提高流量异常检测的准确性和时间效率,本文提出了一种基于流量预测-密度聚类的综合异常检测方法。首先提出一种基于改进RNN结构的流量预测方法,得到较为准确的流量预测值,随后利用预测结果作为聚类检测的输入之一,以缓解基于聚类的异常检测中面对一维流量值聚类时存在的检测性能较差问题,随后提出基于改进密度聚类的异常检测方法对流量数据进行异常检测。具体来说,针对大多数基于循环神经网络(Recurrent Neural Networks,RNN)的流量预测方法存在的长期依赖问题,进而导致的预测准确度低,以及时间效率较低的问题,本文提出一种基于改进循环神经网络的网络流量预测方法,使得预测模型训练速度提高并具有良好的预测准确度。该方法首先基于时钟循环神经网络(Clockwork RNN,CW-RNN)的基础结构,引入随机权重的思想,并将隐层模块替换为回声状态储备池,简化神经网络结构,提高模型的训练速度。随后进一步对隐层激活规则进行修改,每个储备池在每步训练中均由对应时钟前的记录信息进行激活,使得每次的输出都可以综合所有隐层模块的信息,提高神经网络模型的预测精度。通过仿真实验证明,该方法能提供准确的预测结果,并具有较快的训练速度,是一种时间效率和准确度综合更优的预测方法。然后,针对传统基于密度聚类的异常检测方法对样本的局部特性考虑不足,异常检测准确度不高的问题,本文提出一种改进密度聚类的流量异常检测方法。首先在数据特征选取上,针对一维时序流量值聚类时异常检测效果较差的问题,将基于改进CW-RNN的流量预测结果作为聚类输入样本的一个维度,以增加样本包含的流量时序信息特征,提高异常检测的准确性。随后,在密度峰值聚类算法(Density Peak Clustering,DPC)的基础上引入引力理论,提出势能的新概念替代原有的密度,并引入K近邻的计算方法来缓解原算法中对截断距离过于依赖的问题。最后,为了充分考虑样本的局部特征以提高预测精度,提出势能梯度的概念用于进一步异常值的检测。仿真实验结果表明,该改进方法可有效提高流量异常检测的准确度。(本文来源于《北京邮电大学》期刊2019-05-30)
李航[4](2019)在《基于LOF的快速密度峰值聚类的电力数据异常值检测方法研究》一文中研究指出随着智能电网建设和电力系统信息化的提速,电力企业积累了体量巨大的数据,这些数据主要来源于电网的发、输、变、配、用电等五大环节。对电力数据进行分析研究对我国电网向数字化、智能化发展有着重要的意义。异常数据产生的原因主要有属性值缺失,异常用电行为,电力设备故障等。如果在对电力数据进行分析前不事先处理这些原始的污染数据,将对数据分析的准确性有很大的影响。同时,异常数据检测能够发现异常数据以及背后隐藏的信息,对电网的安全运行有着重要的参考意义。通过数据驱动的方法对电力数据进行异常检测,能够实现对电能异常状态的监测,加快电网排查异常现象的反应速度,提高了电网的稳定性,同时减少运行成本,降低电网企业的经济损失。电力数据异常值检测是电力数据研究的基础工作,目前传统的电力数据分析方法已经无法处理如此复杂且大体量的数据,寻找一种适用于处理当前电力系统数据的方法十分必要。文中对比了K-Means、基于密度的聚类和快速密度峰值聚类算法的优缺点,得出快速密度峰值聚类算法在处理电力数据时具有明显优势,故本文选择快速密度峰值聚类算法的对电力数据进行研究。在此基础上提出了一种基于局部异常因子(Local Outlier Factor,LOF)的快速密度峰值聚类算法。针对快速密度峰值聚类算法在处理形状不规则,局部密度变化较大的数据集时效果较差,且对截断距离依赖性较强的缺点,利用LOF的思想重新定义相对密度和相对距离,同时给出了异常值的判定规则。改进后的算法可以充分考虑电力数据的数据特点,并减少了对截断距离的依赖性。在对真实电力数据仿真的基础上验证了该算法的有效性,结果表明本文算法可以更好的描述电力数据的数据特点,使异常点和聚类中心点的特征更加明显。负荷曲线聚类分析在电网公司配用电方面具有重要地位,准确而快速的对负荷数据进行聚类,可以加快电力数据分析效率,是负荷预测、分时划价、用户用电行为分析等研究工作的基础。本文在利用LOF思想改进快速密度峰值算法中的相对密度和相对距离定义的基础上,针对原始算法利用人工判断的方式来选择聚类中心,导致聚类结果具有一定的不确定性,采用一种基于相对密度和相对距离二者的归一化的乘积来对聚类中心临界点进行判别的方法,从而实现自动选择聚类中心的目的。通过实验证明了所提算法的实用性和有效性。(本文来源于《兰州理工大学》期刊2019-05-20)
杨德贺,刘大鹏[5](2018)在《利用聚类方法快速检测前兆观测数据中的异常数据——以水管倾斜仪观测数据为例》一文中研究指出随着前兆观测数据的激增,如何对大量的观测数据中存在的异常数据进行快速检测,是当前面临的比较迫切的问题。本文利用一种基于快速聚类的异常数据检测与评价方法,解决大量观测数据中异常数据的自动检测问题。首先,利用垂直距离分段方法对水管倾斜仪观测数据进行分割,构造分段数据对象;其次,利用均值、方差、峰度与偏度等特征对分段数据对象进行特征表达;然后,基于反正切函数改进影响蚁群算法聚类效率的路径持久性参数,利用快速搜索算法(Clustering by Fast Search,CFS)和改进的蚁群最优化算法(Ant Colony Optimization,ACO)分别对分段数据对象进行聚类,实现对观测数据中异常数据检测的目的;最后,利用F-measure、R-value指标与Chi-square检验评估CFS和ACO聚类方法在异常数据检测上的有效性,以上检测方法都通过了叁种指标的有效性检验。实验结果表明ACO和CFS聚类算法可以有效、快速地检测到观测数据中的局部异常数据,诸如高频变化、尖峰等异常数据,为形变类观测数据中异常数据的识别提供一种有效的检测与评价方法。(本文来源于《地壳构造与地壳应力文集》期刊2018年00期)
樊蓉,李娜[6](2018)在《基于特征选择的K-means聚类异常检测方法》一文中研究指出K-means算法是一种采用距离作为相似性评价指标的聚类算法,其快速简洁的特点在异常检测场景中有一定的应用价值。但是,传统的K-means聚类算法在选取初始中心和度量相似性上有一定缺陷。针对传统的K-means算法中存在的问题,本文对原有的方法进行了改进。第一,在初始化聚类中心时选取了一种优化的方法作为初始聚类中心,替代原有的随机选择方法以减少计算量和迭代次数。第二,采用基于信息熵属性加权的样本相似性度量来进一步精确样本差异。实验过程中,针对异常检测数据含有冗余特征,对样本数据做了冗余特征过滤,实验结果表明改进之后的方法较传统的K-means算法有更好的检测效果。(本文来源于《网络安全技术与应用》期刊2018年04期)
胡开喜[7](2018)在《移动轨迹的异常检测及其聚类研究》一文中研究指出随着位置感知与移动计算技术的进步,以智能手机为代表的一系列移动终端设备在人们的生产生活中越来越普及,各种基于位置的服务也应运而生,为人们带来了极大的便利。人们在享受服务的同时,大量位置数据也相伴而生。这些数据中隐含着移动对象的个性与共性特征,使研究人员分析其中的规律,从而进一步改善人类生活,提高社会生产效率成为可能。然而,社会对于轨迹数据的挖掘还处于一个初级探索阶段,数据的有效利用率并不高。本文围绕轨迹数据的差异性与普遍性两方面的内容,在现有研究的基础上,对轨迹的异常检测与聚类做了进一步的研究。本文的主要工作如下:(1)基于隔离机制的轨迹异常检测研究。现有的轨迹异常检测算法大多只考虑到了轨迹点的空间特征,仅能检测出一些位置异常的静态点,且参数设置复杂,缺乏实际应用价值。因此,本文从多因素的角度出发,提出了一种基于隔离机制的轨迹异常检测算法。首先,从划分后的子轨迹中提取出空间维特征和时间维特征,然后运用孤立森林模型,对多因素特征进行融合,得出异常值。最后,运用箱形图对异常值进行分析,得出异常阈值及异常子轨迹。通过在真实的轨迹数据集上进行实验,并与人工标记和经典TRAOD算法两种结果对比,验证了算法的有效性。(2)基于不确定性的轨迹聚类研究。现有的轨迹聚类算法大多没有考虑到由采集误差导致的轨迹点的不确定性,且缺乏对用户隐私的保护。因此,本文从轨迹点的不确定性出发,提出了一种基于不确定性的轨迹聚类算法。首先,利用Geohash技术将划分后的子轨迹离散化,然后通过改进的编辑距离计算距离矩阵,最后采用扩展后的DBSCAN算法对轨迹进行聚类。通过在真实的动物轨迹和飓风轨迹数据集上进行实验,验证了算法的有效性。(3)轨迹采集与分析系统的设计与实现。现有的基于位置的应用大多没有对轨迹数据进行深入挖掘,学术成果与工程应用难以有效结合。因此,本文在算法研究的基础上,设计并实现了一种轨迹数据采集与分析系统。该系统可以采集移动端上传的轨迹数据,分析人员将采集到的数据整理后,可调用系统中的算法接口对轨迹数据进行分析。(本文来源于《重庆大学》期刊2018-04-01)
王晨曦[8](2018)在《基于聚类算法k-means的异常检测系统》一文中研究指出文章首先对聚类算法k-means的原理进行简要分析,在此基础上对基于聚类算法k-means的异常检测系统进行论述。期望通过本文的研究能够对促进k-means聚类算法的推广应用有所帮助。(本文来源于《电子技术与软件工程》期刊2018年06期)
张娟[9](2018)在《基于异常值检测的稀疏AP聚类算法研究》一文中研究指出假设在高维数据分析处理过程中,大多数的变量是噪音或者冗余变量且只有一小部分变量对数据挖掘有用,那么进行变量选择就是很有必要的。文章先对高维或超高维数据进行异常值检测,应用加权主成分分析(WPCA)对数据进行降维分析后,在变换空间中利用低维表现较优的LOF算法来检测出异常值。在删除异常值之后,我们利用聚类使得类内平均距达到最小这一原则,将传统的AP聚类算法与稀疏化思想结合起来,提出稀疏化的AP聚类算法(Sparse AP)。最后我们把Sparse AP聚类算法应用到模拟数据与基因数据等真实数据集上,结果表明利用Sparse AP聚类算法聚类效果良好并且可以有效的选择出模拟以及真实数据中的信息变量。(本文来源于《兰州大学》期刊2018-03-01)
任维武,张波辰,底晓强,卢奕南[10](2018)在《基于人工蜂群优化的密度聚类异常入侵检测算法》一文中研究指出采用改进的人工蜂群优化算法解决密度聚类异常入侵检测中的参数和特征组合优化问题.首先,在初始化蜜源阶段采用不同的编码方法分别对参数和特征值进行编码;然后,在邻域搜索阶段利用两种搜索策略分别对参数和特征值进行搜索;最后,为满足异常入侵检测对低误报率的需求,在新的适应值函数中加入误报率影响因子.实验结果表明,基于人工蜂群优化的密度聚类异常入侵检测算法不仅提高了正常行为轮廓的精度,而且降低了计算开销和存储空间,并在一定程度上消除噪声特征的干扰,实现了检测性能的提升.(本文来源于《吉林大学学报(理学版)》期刊2018年01期)
基于聚类的异常值检测论文开题报告
(1)论文研究背景及目的
此处内容要求:
首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。
写法范例:
近年来,随着智能设备与互联网的快速发展,互联网愈加的深入到人们的生活的各个方面,这使得各个软件应用的用户规模逐渐庞大,如今用户规模上亿的产品也屡见不鲜。与此同时,用户的价值也逐渐被重视,活跃用户的规模也成为了衡量互联网产品价值的重要指标之一。然而,庞大的用户规模也吸引了随利益而来的异常用户,异常用户的大量存在不但损害了正常用户的信息安全,更是严重危害了软件应用的信誉评价。因此异常用户检测也越来越受到人们的关注。常见的异常检测方法主要分为叁种:有监督的方法、无监督的方法和半监督的方法。异常用户因为其数据稀少,导致标记足量的数据集更加困难,因此虽然有监督的方法能达到较好的异常检测效果,但是却需要大量人力。无监督的方法虽然避免了这一问题,然而目前的无监督方法却没能达到预期的异常检测效果。因此作为结合有监督和无监督的半监督方法正逐渐应用于异常用户检测。本论文提出了一个基于半监督聚类的异常用户检测方案。该检测方案结合孤立森林算法和半监督的模糊c均值聚类算法,首先将已标注的数据进行聚类得到聚类中心,接着将未标注数据中的孤立数据分离出来,并且根据之前的聚类中心得到孤立数据归属于异常用户的可能性,最后利用得到的信息作为先验信息,进行半监督聚类检测出异常用户。经过实验可知,在少量标记数据的情况,该检测方案也能达到良好的检测效果。同时本文也依照该方案设计并实现了基于异常用户检测的安全示警系统,该系统包括数据获取、异常用户检测、系统管理和统计分析等模块,经过系统测试证明该系统能有效的检测异常用户并且稳定运行。
(2)本文研究方法
调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。
观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。
实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。
文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。
实证研究法:依据现有的科学理论和实践的需要提出设计。
定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。
定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。
跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。
功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。
模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。
基于聚类的异常值检测论文参考文献
[1].吕宗平,时熙然,顾兆军.基于模糊核聚类和主动学习的异常检测方法[J].现代电子技术.2019
[2].段磊.基于半监督聚类的异常用户检测[D].北京邮电大学.2019
[3].曾霄笑.基于改进RNN及密度聚类的异常流量检测方法[D].北京邮电大学.2019
[4].李航.基于LOF的快速密度峰值聚类的电力数据异常值检测方法研究[D].兰州理工大学.2019
[5].杨德贺,刘大鹏.利用聚类方法快速检测前兆观测数据中的异常数据——以水管倾斜仪观测数据为例[J].地壳构造与地壳应力文集.2018
[6].樊蓉,李娜.基于特征选择的K-means聚类异常检测方法[J].网络安全技术与应用.2018
[7].胡开喜.移动轨迹的异常检测及其聚类研究[D].重庆大学.2018
[8].王晨曦.基于聚类算法k-means的异常检测系统[J].电子技术与软件工程.2018
[9].张娟.基于异常值检测的稀疏AP聚类算法研究[D].兰州大学.2018
[10].任维武,张波辰,底晓强,卢奕南.基于人工蜂群优化的密度聚类异常入侵检测算法[J].吉林大学学报(理学版).2018