日志数据挖掘论文-杨秋翔,王冠男,王婷

日志数据挖掘论文-杨秋翔,王冠男,王婷

导读:本文包含了日志数据挖掘论文开题报告文献综述及选题提纲参考文献,主要关键词:时间序列,多源日志,数据挖掘,分类

日志数据挖掘论文文献综述

杨秋翔,王冠男,王婷[1](2019)在《基于时间序列的多源日志安全数据挖掘仿真》一文中研究指出采用当前数据挖掘方法挖掘多源日志中存在的安全数据时,数据挖掘所用的时间较长,挖掘得到的数据不完整,存在挖掘效率低和数据完整度低的问题。提出基于时间序列的多源日志安全数据挖掘方法,标记时刻不同的信号在多源日志中的强度,根据信号强度计算标签数据在多源日志中的过程时间和移动速度,根据计算结果去除多源日志中存在的脏数据和冗余数据。对多源日志中的时间序列数据做分块处理,结合二维奇异值分解方法和主成分分析方法提取子矩阵中的特征,根据提取得到的特征通过最小距离方法建立数据分类器,利用数据分类器对多源日志中存在的安全数据做分类处理,完成多源日志安全数据的挖掘。仿真结果表明,所提方法的挖掘效率高、数据完整度高。(本文来源于《计算机仿真》期刊2019年02期)

王陈[2](2018)在《基于时间序列数据挖掘的日志分析技术的研究》一文中研究指出各种操作系统、应用程序、设备等产生的日志数据蕴藏着丰富的信息,对日志数据的挖掘和分析不仅能够帮助管理人员提前发现、避开潜在的隐患,找到安全事件的根本原因,还能够挖掘出日志数据背后潜在的更多的信息。随着日志数据的重视程度越来越高,如何有效的挖掘和分析日志数据已成为当前的研究热点。日志数据具有时间序列的性质,使用时间序列数据挖掘技术能够对其进行更有效的挖掘和分析。序列模式挖掘作为时间序列数据挖掘技术的重要研究内容之一,能够挖掘日志数据中频繁出现的序列模式,这些频繁出现的序列模式往往反映了日志记录的事件之间的相互关系,具有重要的研究意义和价值。本文对序列模式挖掘的两个应用广泛的GSP算法和PrefixSpan算法进行了改进,主要的研究工作如下:(1)针对GSP算法需要遍历整个序列集、需要多次遍历k频繁序列以及遍历k频繁序列速度慢的缺陷,提出了一种基于序列集优化及索引前缀树的GSP改进算法。该算法基于本文所提的序列集优化方法以及本文设计的索引前缀树数据结构,有效减少了算法的运行时间。对比实验结果表明,基于序列集优化及索引前缀树的GSP改进算法的运行时间明显低于未改进的GSP算法,但会花费了更多的空间代价。(2)针对PrefixSpan算法占据了大量内存的缺陷,提出了一种基于后缀索引的PrefixSpan改进算法。对比实验结果表明,基于后缀索引的PrefixSpan改进算法在运行时的内存使用情况明显低于未改进的PrefixSpan算法,并且其运行时间与未改进的PrefixSpan算法的运行时间相接近。(3)为了验证PrefixSpan算法记录的后缀中含有非频繁项对算法的时间性能是否会产生影响,提出了一种基于投影数据库优化的PrefixSpan算法。对比实验结果表明,后缀中含有非频繁项不会降低PrefixSpan算法的时间性能,删除后缀中非频繁项的操作反而会花费大量时间。本研究同时证明了基于后缀索引的PrefixSpan算法不会因为使用了后缀索引导致其时间性能的降低。(4)对改进前后的GSP算法和改进前后的PrefixSpan算法进行了对比,深入论述的两类算法的特点,并说明了各算法的使用范围。(本文来源于《北京交通大学》期刊2018-03-01)

郭沛松[3](2017)在《基于Web日志的分布式并行数据挖掘算法研究》一文中研究指出在21世纪的今天,飞速发展的互联网给人们日常生活带来了巨大的便利,各行各业都在向互联网化靠拢。同时,用户在网络上的行为足迹大多被记录在Web日志文件中,通过对这些文件进行有效的算法分析,将得到很多有价值的信息。和普通的文本挖掘文件源不同的是,由于人们经常进行网络操作,Web日志文件的数据量十分巨大,因此普通的串行化算法不再适用,而并行化算法开始在Web数据挖掘领域快速流行起来。Apache Hadoop作为目前最为成熟的并行化框架,被开发人员在Web数据挖掘中广泛的使用。在算法方面,使用并行化的聚类算法对Web日志文件进行运算,可以为日志文件所在站点在内容结构优化、用户内容推荐等方面提供依据。本文在Hadoop平台下利用Web日志文件作为数据源对象进行聚类分析,同时研究分析聚类算法。主要完成几个方面的工作:1.研究Hadoop和Web数据挖据的相关知识;2.进行Hadoop分布式平台的整体搭建,除了基本的Hadoop平台,还有Mahout的安装、Eclipse上Hadoop插件的安装、模块的配置和资源的分配、设计并行化预处理模型;3.研究Canopy算法和K-means算法的优缺点,结合两个聚类算法的基本思想,提出一种改进算法。4.研究Canopy和K-means算法并行化,利用MapReduce分布式计算模型进行算法并行化设计;5.设计算法对比实验,论证改进算法和并行化算法的优势,以及在实际应用上的价值。(本文来源于《电子科技大学》期刊2017-05-05)

李春雅[4](2016)在《基于数据挖掘的Web日志分析研究》一文中研究指出随着互联网的高速发展,互联网已经深入的社会生活的各个方面,现代生活已经离不开网络的存在,它已经成为人们获取、传播信息的重要手段。用户对网络的依赖也越来越高,在网站遗留的记录也越来越多,因此在网络服务器端存储了海量的用户数据。面对如此宝贵的资源,如何发现用户的意图与偏好,分析蕴藏在其中的信息和知识,挖掘用户行为并加以有效利用,是当前互联网企业的面临的最主要的需求之一,而Web日志挖掘旨在利用数据挖掘技术对Web日志深入而详细的分析,挖掘出隐藏在其之后的用户访问意图与规律,从而解决上述问题。本文通过对Web日志的分析,利用数据挖掘技术,以YF网用户查询日志为基础,使用统计分析、文本挖掘、关联分析、回归和聚类等数据挖掘技术,获得蕴含在用户日志中的有价值的知识,为有效提高网站的性能,改善网站的结构,完善用户体验等给出了相应的建议。首先,本文在引言部分阐述了课题的相关研究背景以及研究现状,同时对本文的研究内容,创新点以及组织结构进行详细论述。随后,是作者对相关理论的综述,包括Web挖掘、Web日志挖掘、房地产网站的日志挖掘,详细阐述了日志挖掘的起源,分类,过程和应用;同时,对文中涉及的研究方法进行了详细的阐述,包括统计分析,路径分析,关联分析,序列分析,相关分析和偏相关分析,回归分析以及聚类分析。其次,本文研究的主要内容包括以下四个部分:一、对用户检索内容的研究。首先对Web日志中的[Query]字段进行拆分与整理,共计得到18个字段,随后利用统计分析方法,对Web日志中用户查询热点时间段、访问量,用户对居住区域的选择(包括:区域、片区、关键字、标签、小区编号),对房屋的选择(包括:房型、客厅、最小/最大价格,最小/最大均价,最大/最小面积),以及用户的浏览行为(包括:时段,访问日,有效期,房源)进行了分析并得到相应的热点访问数据,从而分析出用户的热点需求,为网站改善用户体验提供相关依据,而且从长远看也有助于房地产企业细分市场;通过对用户的首次搜索行为至第12次搜索行为进行了分析,发现在用户的持续搜索行为过程中,随着搜索次数的增加,搜索的精确度在增加,对搜索目标也进一步的明确;通过用户访问热点趋势数据与现实生活中的房屋成交数据进行对比分析,发现两者之间存在的差异,为网站的设计与开发提供可靠有效的依据。二、对用户搜索的各变量之间相关性研究与网页序列关联规则的研究。利用YF网日志中的[Query]字段用户搜索时所使用的11个变量进行两两(共计55组)相关性检验,在汇总结果后对其中存在高度相关关系的变量进行具体分析,发现高度相关关系存在于变量:房型、面积两者之间,显着相关关系存在于:价格、面积、房型、客厅这四个变量之间,随后利用数据挖掘中的简单关联规则(Apriori算法),对各个变量之间的关联关系进行计算,给出了可视化的结果和相应的关联规则(共计5条);然后通过序列关联规则的方法(Sequence算法),进一步对用户浏览网页的顺序进行了分析,得出相应的用户浏览规则,并对浏览序列规则进行了详细分析,发现用户的浏览行为偏好。叁、房屋成交量影响因素的研究。重点分析了现实中房屋的成交量与网站用户访问量之间的关系,先是通过相关分析方法,对影响二手房成交量的各个因素(包括:二手房访问量、金融机构公积金贷款利率、消费者价格指数(CPI)、新房成交量、新房价格、商品房住房新增面积、二手房挂牌均价)之间的相关性进行验证,去除了不相关因素(包括金融机构公积金贷款利率、商品房住房新增面积),随后,利用多元线性回归模型对影响房屋成交量的相关因素给出了相应的回归系数,揭示了各个因素对成交量的影响程度。访问量与成交量之间存在相关性这一结论在一定程度上也验证了网络搜索行为会对社会经济行为产生实际影响。四、对访问用户类型的聚类研究。利用Kohonen神经网络建模,以用户访问的页面停留时间[M]、点击次数[0]、访问深度[G]这叁个维度,对用户类型进行科学研究。为了更好的进行聚类,需要对数据审核,以异常指标(Anomaly Index)为判断标准探索数据中的离群点,在剔除离群点后,按照[M]、[0]、[G]这叁个维度进行聚类,结果得到五种不同类型的用户集,以购房或租房意愿为标准分别命名为:观望者、普通的潜在消费者、有价值的潜在消费者、重点关注的消费者以及有价值的消费者;然后结合不同网页自身的特点对每个用户类别进行了特征分析。最后,是结论与展望,总结本文取得的成效,同时也给出了研究过程中的不足之处并提出进一步的改进方案。(本文来源于《武汉大学》期刊2016-11-01)

龚垒,黄永毅[5](2016)在《Frame页面网络日志数据挖掘预处理方法》一文中研究指出本文结合网络日志数据挖掘技术,通过对Frame页面和Sub Frame页面进行分析,提出基于改进的Frame页面数据挖掘预处理方法。该方法从Sub Frame页面信息着手,从而提高预处理过程中的信息识别能力。实验表明,该方法在网络日志的数据挖掘预处理过程中,有效提高了信息的精准度。(本文来源于《电子技术与软件工程》期刊2016年11期)

程斐斐[6](2016)在《基于用户上网日志的数据挖掘技术研究》一文中研究指出伴随着数据挖掘的技术的成熟发展,运用数据挖掘技术来对校园网进行研究具有很大的应用价值,对用户的上网日志分析是网络研究和管理的主要方向。本文研究的主要内容是利用校园网学生的上网行为数据进行分析,挖掘出用户的上网时段、用户访问网站类型等上网行为特征。旨在通过分析学生的行为日志记录的规律,掌握和预测校园网的运行状况,为校园网络建设和管理给出科学的依据。论文所做的工作具体如下:首先对系统分析工作进行概述,进行校园网中用户的上网日志数据的采集,通过数据预处理、数据转换等得到适合分析的数据属性集合,将这些数据存放在数据库中以供挖掘使用。然后对本文所采用的关联规则Apriori算法做分析与研究,分析算法的不足之处。引用负关联规则,将两种算法结合在一起,分析其可行性,并且提出自己的改进思想,改进算法只需要扫描一次数据库,大大提高了算法的运行速度,并通过实验对比验证了改进算法的有效性。最后对校园网的学生上网行为从多方面进行研究,包括分时段在线人数分析、用户访问网站分析、不同类别用户上网行为分析等。其中,在对用户访问网站分析和不同类别用户上网分析时,利用Weka数据挖掘平台进行分析,得到相关用户的上网特点。通过对学生的上网行为分析,可以对校园网的优化给出合理的建议。此研究也可以应用在商业领域上,为顾客提供个性化服务,增强企业的竞争力。(本文来源于《贵州大学》期刊2016-06-01)

宋园,刘乾,王灿,程泽凯[7](2015)在《RoboCup2D日志文件数据挖掘研究及应用》一文中研究指出机器人世界杯足球赛Robo Cup是近年发展迅速的一种国际学术竞赛项目,Robo Cup仿真2D项目是影响面最大的项目之一,通常情况下,开发者多使用基于工程化的思想开发球队代码,基于数据挖掘技术可以快速开发出质量更高的球队代码。文中将数据挖掘技术应用到仿真2D球队的开发中,选取比赛中产生的日志文件作为数据源。通过对日志文件进行数据挖掘分析,将得到的隐含的有趣模式应用于球队的进攻跑位策略设计中。仿真比赛证明使用日志文件数据挖掘的方法能够有效提高仿真2D球队的开发效率。(本文来源于《大庆师范学院学报》期刊2015年06期)

张如云[8](2015)在《基于日志文件的数据挖掘机理分析与研究》一文中研究指出介绍了数据挖掘的定义,分析了日志数据面临的挑战及对其进行挖掘的原因。讨论了日志数据挖掘的需求,归纳了对日志数据挖掘的具体内容,总结了日志数据挖掘的具体应用。该研究对加强企事业单位计算机信息系统安全具有较强的指导意义。(本文来源于《微型机与应用》期刊2015年18期)

姚俊杰[9](2015)在《WEB日志数据挖掘在MOODLE中的研究与应用》一文中研究指出本文通过研究常用数据挖掘算法,结合R工具以及SQL进行了一些基于Moodle日志的分析工作,得出了一些应用的理论思路和设计步骤,主要涉及4个论点:学习路径分析、学习进度分析、学习效果预测和课程资源推荐。具体来说,本文主要做了以下工作:1.本文对2012年开始建设的基于Moodle的学习系统,在系统搭建、系统运行以及历年数据做了一系列总结和梳理。通过历年运行实践,收集和汇总了目前系统在内容设计和数据分析支持方面的需求。并且在数据分析理论和工具方面做了一些研究和积累。2.本文通过汇总学生日志,通过SQL查询分析,进行了两项工作。首先,通过分析学生访问课程资源的路径,总结了目前存在的问题,以及提出了“内容结构层次化,学习路径线性化”的设计理念。然后,在Moodle现有数据库结构上设计了清晰的学习路径方案,并在此基础上分析学习进度数据,并设计学习进度量化和可视化方案。3.本文运用R语言工具,结合线性回归分析、逻辑回归分析、CART以及聚类分析等方法,综合运用,进行了两方面的工作。首先,在分析学习效果过程中,本文利用已有数据,包括课程成绩、日志数据等,通过汇总和预处理,然后利用R工具进行建模。在学习督促方面,利用CART模型给出了具体模型和实现方法。在课程推荐任务中,本文结合几门课程的资源,通过访问日志聚合的方法,尝试找出重要资源。本文通过分模块按时间进行k-means聚类,结合SQL汇总得到推荐数据,并且简要设计了课程资源推荐任务的算法实现步骤和数据更新优化步骤。(本文来源于《上海交通大学》期刊2015-07-01)

臧亮[10](2015)在《基于数据挖掘的系统日志分析》一文中研究指出随着网络应用的日益普及和更为复杂,网络上的安全事件日渐升级,各种新型电脑病毒呈网络化不断爆发,垃圾邮件泛滥使网络不堪重负,黑客攻击呈指数增长,通过互联网散布有害信息的手段日益翻新,网络在带来各种便利生活的同时也造成了各种问题。系统日志分析同入侵检测、防火墙、防病毒等技术一样成为构建网络安全的重要组成部分。基于目前网络安全现状和存在的相关问题,本文进行了以下四个方面的分析和研究:1、对当前国内外网络安全形势进行分析,通过分析指出,现如今必须提升网络系统安全性能。现如今网络发展越来越快,而计算机数据通过网络传输所遇到的威胁也是各种各样,其中包括对网络上各个设备的威胁,同时还包括网络所传输信息的威胁。如果安全监管力度不够,整个单位或者个人的合法权益都会受到影响。系统中存储的关于个人或者整个公司,甚至是国家的信息都有可能遭到破坏或者篡改,所以系统安全问题不容忽视。2、研究了常见的网络安全审计技术。数据挖掘(Data Mining, DM),有时候会被称为数据库中的知识发现,是当前网络安全研究领域、数据库研究领域和人工智能领域所研究的重点热点问题。其基本原理就是从数据库中海量的数据里面找到隐藏的、未知的并有用的规律或信息,应用于网络安全则可以从用户行为特征判断出网络行为的性质。同时,本文还介绍了模糊C均值算法(FCM算法)和Apriori算法,并提出了一种基于模糊C均值的量化关联算法。3、提出了一个完整的主机日志分析系统构架。基于之前介绍的几种算法,构造了一个完整的主机日志分析系统,该系统通过对主机中种类各异的日志数据进行挖掘,从中得到隐藏的关联规则,进而判别用户的异常行为并发出警告。4、对主机日志分析系统进行试验测试,对测试结果进行分析总结,并提出下一步工作方向。(本文来源于《西安电子科技大学》期刊2015-06-01)

日志数据挖掘论文开题报告

(1)论文研究背景及目的

此处内容要求:

首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。

写法范例:

各种操作系统、应用程序、设备等产生的日志数据蕴藏着丰富的信息,对日志数据的挖掘和分析不仅能够帮助管理人员提前发现、避开潜在的隐患,找到安全事件的根本原因,还能够挖掘出日志数据背后潜在的更多的信息。随着日志数据的重视程度越来越高,如何有效的挖掘和分析日志数据已成为当前的研究热点。日志数据具有时间序列的性质,使用时间序列数据挖掘技术能够对其进行更有效的挖掘和分析。序列模式挖掘作为时间序列数据挖掘技术的重要研究内容之一,能够挖掘日志数据中频繁出现的序列模式,这些频繁出现的序列模式往往反映了日志记录的事件之间的相互关系,具有重要的研究意义和价值。本文对序列模式挖掘的两个应用广泛的GSP算法和PrefixSpan算法进行了改进,主要的研究工作如下:(1)针对GSP算法需要遍历整个序列集、需要多次遍历k频繁序列以及遍历k频繁序列速度慢的缺陷,提出了一种基于序列集优化及索引前缀树的GSP改进算法。该算法基于本文所提的序列集优化方法以及本文设计的索引前缀树数据结构,有效减少了算法的运行时间。对比实验结果表明,基于序列集优化及索引前缀树的GSP改进算法的运行时间明显低于未改进的GSP算法,但会花费了更多的空间代价。(2)针对PrefixSpan算法占据了大量内存的缺陷,提出了一种基于后缀索引的PrefixSpan改进算法。对比实验结果表明,基于后缀索引的PrefixSpan改进算法在运行时的内存使用情况明显低于未改进的PrefixSpan算法,并且其运行时间与未改进的PrefixSpan算法的运行时间相接近。(3)为了验证PrefixSpan算法记录的后缀中含有非频繁项对算法的时间性能是否会产生影响,提出了一种基于投影数据库优化的PrefixSpan算法。对比实验结果表明,后缀中含有非频繁项不会降低PrefixSpan算法的时间性能,删除后缀中非频繁项的操作反而会花费大量时间。本研究同时证明了基于后缀索引的PrefixSpan算法不会因为使用了后缀索引导致其时间性能的降低。(4)对改进前后的GSP算法和改进前后的PrefixSpan算法进行了对比,深入论述的两类算法的特点,并说明了各算法的使用范围。

(2)本文研究方法

调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。

观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。

实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。

文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。

实证研究法:依据现有的科学理论和实践的需要提出设计。

定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。

定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。

跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。

功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。

模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。

日志数据挖掘论文参考文献

[1].杨秋翔,王冠男,王婷.基于时间序列的多源日志安全数据挖掘仿真[J].计算机仿真.2019

[2].王陈.基于时间序列数据挖掘的日志分析技术的研究[D].北京交通大学.2018

[3].郭沛松.基于Web日志的分布式并行数据挖掘算法研究[D].电子科技大学.2017

[4].李春雅.基于数据挖掘的Web日志分析研究[D].武汉大学.2016

[5].龚垒,黄永毅.Frame页面网络日志数据挖掘预处理方法[J].电子技术与软件工程.2016

[6].程斐斐.基于用户上网日志的数据挖掘技术研究[D].贵州大学.2016

[7].宋园,刘乾,王灿,程泽凯.RoboCup2D日志文件数据挖掘研究及应用[J].大庆师范学院学报.2015

[8].张如云.基于日志文件的数据挖掘机理分析与研究[J].微型机与应用.2015

[9].姚俊杰.WEB日志数据挖掘在MOODLE中的研究与应用[D].上海交通大学.2015

[10].臧亮.基于数据挖掘的系统日志分析[D].西安电子科技大学.2015

标签:;  ;  ;  ;  

日志数据挖掘论文-杨秋翔,王冠男,王婷
下载Doc文档

猜你喜欢