导读:本文包含了网站日志论文开题报告文献综述及选题提纲参考文献,主要关键词:AWStats,日志分割,日志分析,林业网站
网站日志论文文献综述
魏娟[1](2019)在《日志分析工具AWStats的部署与林业网站分析研究》一文中研究指出在Windows服务器环境下用日志分析软件AWStats实现对网站的网络服务日志进行分析,以林业网站为例进行实现对日志分割、分析,为政府网站管理提供决策参考。(本文来源于《山东林业科技》期刊2019年04期)
蒙华,苏静,李立峰,翟玉兰[2](2019)在《医院网站日志挖掘数据预处理的研究》一文中研究指出数据预处理是数据挖掘工作的基础。以医院网站服务器用户访问日志为例,对日志挖掘的概念以及数据预处理过程进行研究。采用数据库技术和Matlab工具消除初始数据集的冗余度、复杂度,以网站页面和用户关联性为度量,得出可直接作为挖掘算法输入的相似度矩阵。重点研究了医院网站日志的用户识别以及相似度矩阵的页面聚类标准化方法。实验结果表明:该方法极大降低了初始日志数据冗余度和维度,提高了预处理结果准确性,增强了数据挖掘算法输入的信息含量。(本文来源于《重庆理工大学学报(自然科学)》期刊2019年08期)
尹鑫,种兰祥,杨建锋[3](2019)在《高校网站日志分析系统的研究与应用》一文中研究指出针对高校网站管理者对网站访问情况及时、直观了解的需求,本文提出了一种以SparkStreaming为核心的分布式网站访问日志分析系统。本系统使用Flume实时收集网站被访问时产生的日志,使用Kafka对收集到的日志进行缓存,使用Spark中的Streaming流处理框架按批次提取缓存的数据,并通过其中的Translation和Action算子对流量、站点、地区、终端信息进行分析,使用My SQL数据库对分析结果进行存储。使用Echarts设计界面并结合Ajax等前端技术对分析结果进行实时可视化处理。在分布式平台下实现了一个实时可扩展的日志数据分析系统。有效地支持了高校网站的管理工作。(本文来源于《中国教育信息化》期刊2019年13期)
尹鑫[4](2019)在《高校网站日志分析系统的研究与实现》一文中研究指出在“互联网+教育”的时代背景下,高校在校园信息化建设的过程中积累了大量的数据,做好数据的治理和服务从而优化信息化服务环境,是新时代高校信息化建设面临的新课题。同时,高校网站作为信息化服务环境的重要组成部分,功能日益丰富多样。其作用不仅是进行信息发布,更是开展交流,提供服务的重要途径和有效手段。因此,通过分析高校的网站日志,获取网站的受访信息,从而了解用户的访问态势,对网站建设者和管理者具有重要的意义。然而目前通过分析网站日志数据来获取网站建设情况的高校还相对较少。部分院校采用传统的通过网页收集信息的方法效率低下,信息量少,实时性较差。运用大数据相关技术研发针对高校的网站日志分析系统,能够直观、准确、全方位的反应网站的受访情况,对提升高校信息化的智能程度具有重要的意义。本文以高校网站日志分析系统的研究与实现为研究内容,在对Spark现有功能研究的基础上,结合多种分布式技术,提出了一种对网站日志数据进行动态并行分析的流式批处理方法。探讨了网站日志分析过程中所用到的关键技术,分析了高校网站日志分析系统的功能需求。并在此基础上梳理了网站日志分析系统的设计流程,从日志的采集、日志的缓存、日志的分析、分析结果的存储、动态可视化几方面进行了系统设计。最后研发出了网站日志分析系统。包含了对网站流量、访客地区、热门站点、访客终端信息的实时动态分析。分析结果以态势感知图的形式呈现,可以直接应用到高校的信息化部门,为网站管理者深入了解网站受访情况提供了依据,同时为基于网站数据的进一步分析奠定了基础。(本文来源于《西北大学》期刊2019-05-01)
文奕,陈文杰,张鑫,杨宁,赵爽[5](2018)在《利用词嵌入模型实现基于网站访问日志的专利聚类研究》一文中研究指出[目的/意义]专利信息是人类科学技术进步的结晶,随着社会的发展,专利信息将为促进科技创新发挥日益重要的作用。利用聚类技术可以将海量专利信息进行自动分类,在实现信息有序归并管理的同时,有助于用户高效而全面的获取相关技术领域中的集成专利信息,具有重要的现实意义,传统聚类研究方法效率与准确度存在不足。[方法/过程]本文通过对专利信息服务网站(中国科学院知识产权网)访问日志数据的清洗与分析,生成专利信息点击序列,基于深度学习词嵌入模型,设计了Patent Freq2Vec模型,计算得出专利关联信息。[结果/结论]利用Patent Freq2Vec模型分析计算访问日志数据,能够得到关联专利信息,实现专利聚类,且聚类准确度高于传统方法。(本文来源于《现代情报》期刊2018年04期)
宋桥白[6](2018)在《基于Hadoop大数据平台的网站日志解析系统的设计和实现》一文中研究指出随着信息智能化技术的普及,企业网站由传统的企业宣传逐渐集成了电子商务、企业管理等功能,已成为重要的生产工具。企业网站在内容管理方面,采用大数据技术发现新的商业模式和用户画像,为企业带来了丰厚的利润;相对于网站内容管理,日志管理相对滞后,当前通常借助全文检索工具或者人工检索的方式进行管理,存在以下缺点:一是解析不全面无法及时反馈动态信息;二是日志解析偏向于网站故障定位,网站优化和信息安全数据解析薄弱;叁是无法应对海量日志及时解析和结果实时查询;四是可视化模块个性化和二次开发困难。针对当前日志管理存在的问题,本文设计和开发基于Hadoop平台的网站日志解析系统,其中Hadoop平台提供了 PB数量级日志数据的离线计算和实时查询能力;应用系统采用主流JavaEE平台进行设计开发,扩展和维护更加容易;同时提供了基于HTML5的Web应用功能,方便解析日志和对结果进行分析计算;在数据呈现方面,采用HTML5的Canvas绘图技术,为解析结果提供了灵活的个性化定制和二次开发解决方案。该系统能够全面解析网站日志,提供更多维度的参考信息,为企业网站的优化、信息安全以及网站维护提供完整的参考数据。本文主要工作分为两部分,一部分基于Hadoop架构的网站日志解析系统的设计,另一部分是基于Hadoop架构的网站日志解析系统的实现。在设计部分,阐述日志解析系统的需求和业务流程,提出系统架构,在此基础上对系统进行详细设计,包括对MapReduce计算模型和HBase存储模型进行详细设计。在实现部分,详细阐述虚拟化软件的应用、Hadoop集群和HBase集群的配置和开发,同时详细说明了 Hadoop和HBase的集成,并在此基础上对日志解析应用系统进行编码实现,并测试和部署运行。基于Hadoop平台的网站日志解析系统为企业网站日志管理提供了可参考的大数据处理解决方案,对企业网站具有重要的应用价值和使用前景。(本文来源于《厦门大学》期刊2018-04-01)
郑小坤,蔡杰,李书豪,杨盆,谯亚军[7](2017)在《基于用户行为日志的网站推荐》一文中研究指出随着信息技术和Internet技术的蓬勃发展,网络用户接受信息的模式逐渐从信息匮乏到信息过载,对于网络信息的日新月异,无论是信息消费者还是信息生产者都遇到了很大的挑战。为此,本文介绍了推荐系统的发展现状,简单分析了热门的推荐算法(协同过滤算法),结合网络用户对有价值信息获取的需求,设计了网站推荐系统,完成了机器学习算法框架Mahout在推荐系统上的实现。(本文来源于《数字技术与应用》期刊2017年06期)
张崇,熊烨明[8](2017)在《基于海量网站日志数据的房地产需求指数研究》一文中研究指出网络日志数据作为亿万消费者的意图数据库,为研究消费者需求波动提供了有效的量化指标,研究以北京市二手房为例,首先构建网站浏览日志数据与房地产成交量的关联模型,根据用户购房意图对网站进行分类,以不同类型房产网站的浏览次数(PV)、用户数(UV)等数据衡量购房者的关注及需求波动,构建房产成交量的先行、一致和滞后指数并对其关系进行检验,构建的房产指数是对现有指标体系的补充,为房地产开发商、普通购房者、政府相关管理部门提供决策指导和参考依据.(本文来源于《数学的实践与认识》期刊2017年05期)
张静[9](2017)在《某电子商务网站搜索日志分析系统设计与实现》一文中研究指出随着互联网的飞速发展以及网站数量的急剧增加,各网站对用户的争夺变得越来越激烈。为了更好的吸引和留住用户,需要更好地了解网站用户的使用行为,研究并分析搜索引擎的日志已成为在海量数据中获取用户行为有效数据的主要方法。基于此,为了更好地捕捉网站用户现实需求,了解用户意愿,本文设计和实现了一个网站搜索日志分析系统,从而帮助网站能更好的服务客户,并实现网站的快速发展。不同网站的搜索引擎针对的目标群体不同,本文的研究对象是某电子商务行业网站的搜索日志,通过建立日志分析系统来了解网站的用户行为模式,并挖掘其潜在需求。本系统设计中存在的最大困难之处在于如何搜索海量的日志数据,并实现搜索的高速性和准确性。主要研究内容如下:1,搜索日志的收集格式使用NCSA扩展日志格式,网站页面各分析项使用标签记录,使用开源Apache和Flume海量日志采集系统进行日志收集,使网站日志收集具有高效,准确,及时等特点,减轻了开发和测试的压力和负担,同时降低了风险。页面各统计项通过添加标签使分析日志具备了简单,准确的特点,降低了日志分析的负担。2,使用分布式处理平台Hadoop对日志进行分析,论文中主要分析基于HDFS文件存储和Map/Reduce的分布式处理的关键技术,对日志分析的实现过程进行了详细的描述和分析,通过使用Hadoop解决了海量日志分析处理的时效性和准确性的问题,并且代码开发非常简单,难度大幅度降低,项目推进的效率提升明显。3,设计并实现了用户行为的分析模型和用户信息质量的评分模型,通过这两个模型我们可以获知用户的网站浏览偏好以及用户信息的质量信息,以及关键词相关性的信息,建立了用户的偏好浏览模型和信息聚类模型,为信息聚合和个性化的搜索提供了数据支撑。最后,通过对上线系统运行两周后的结果分析,并且按照分析结果搜索重新进行排序设置以及聚类展示,很好地提升了使用效果,系统也达到了预期的目标。(本文来源于《中国科学院大学(中国科学院工程管理与信息技术学院)》期刊2017-03-01)
邵明路[10](2016)在《大规模网站日志的并行分析技术研究》一文中研究指出通过Web日志分析挖掘用户的行为模式和访问意图,广泛应用于网站的页面推荐和链接结构优化。随着日志数据规模的增长,日志分析的可扩展性技术研究成为日志分析的研究方向。频繁模式挖掘是日志分析的基础应用,本文侧重研究集合频繁模式和序列频繁模式挖掘的可扩展性技术方法,分别通过基于磁盘的MapReduce平台和基于内存的Spark平台实现海量日志频繁模式的并行挖据,解决日志数据的分割和并行挖掘的负载均衡,以及分布式环境下大规模候选数据的支持度计数等问题,具体研究内容包括:(1)针对Web日志数据预处理的关键阶段—事务识别,提出一种基于候选路径的事务识别算法,主要思想是用空间换时间,与基于用户访问树的算法相比,将对日志数据的两次遍历降为一次,节省了遍历用户访问树的时间开销。(2)研究基于压缩结构FP-Tree的日志集合频繁模式并行挖掘,提出一种近似负载均衡的并行FP-Growth算法,利用item的最大前缀路径长度的上界来衡量挖掘item的条件模式树的工作量,工作量的近似值用于负载分组,所有计算节点根据分组结果并行地进行数据库的划分。与完全负载均衡的并行FP-Growth算法相比,无需构建全局FP-Tree,消除了数据划分过程中的单点局限,兼顾了负载的计算分配和整个计算过程的负载均衡。(3)研究日志序列频繁模式的并行挖掘,提出一种基于Spark的并行AprioriAll算法。首先,迭代过程中的数据扫描可以直接在内存中的RDD上进行,不用去扫描硬盘。其次,计算过程中的中间结果也可以直接持久化到RDD,下一步的计算可以直接从内存中读取数据。最后,对于分布式环境下大规模候选数据的支持度计数问题,提出了基于reduce端join的数据划分方案。与基于MapReduce的并行AprioriAll算法相比,整个计算过程节省了大量的磁盘IO和数据Shuffle。(4)最后,通过实验验证,基于候选的事务识别方法可以有效应对大规模日志的事务识别,近似负载均衡的并行FP-Growth算法拥有比较好的性能优势,且稳定性更好,基于Spark的并行AprioriAll算法拥有更好的性能和扩展性。(本文来源于《东南大学》期刊2016-06-01)
网站日志论文开题报告
(1)论文研究背景及目的
此处内容要求:
首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。
写法范例:
数据预处理是数据挖掘工作的基础。以医院网站服务器用户访问日志为例,对日志挖掘的概念以及数据预处理过程进行研究。采用数据库技术和Matlab工具消除初始数据集的冗余度、复杂度,以网站页面和用户关联性为度量,得出可直接作为挖掘算法输入的相似度矩阵。重点研究了医院网站日志的用户识别以及相似度矩阵的页面聚类标准化方法。实验结果表明:该方法极大降低了初始日志数据冗余度和维度,提高了预处理结果准确性,增强了数据挖掘算法输入的信息含量。
(2)本文研究方法
调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。
观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。
实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。
文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。
实证研究法:依据现有的科学理论和实践的需要提出设计。
定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。
定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。
跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。
功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。
模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。
网站日志论文参考文献
[1].魏娟.日志分析工具AWStats的部署与林业网站分析研究[J].山东林业科技.2019
[2].蒙华,苏静,李立峰,翟玉兰.医院网站日志挖掘数据预处理的研究[J].重庆理工大学学报(自然科学).2019
[3].尹鑫,种兰祥,杨建锋.高校网站日志分析系统的研究与应用[J].中国教育信息化.2019
[4].尹鑫.高校网站日志分析系统的研究与实现[D].西北大学.2019
[5].文奕,陈文杰,张鑫,杨宁,赵爽.利用词嵌入模型实现基于网站访问日志的专利聚类研究[J].现代情报.2018
[6].宋桥白.基于Hadoop大数据平台的网站日志解析系统的设计和实现[D].厦门大学.2018
[7].郑小坤,蔡杰,李书豪,杨盆,谯亚军.基于用户行为日志的网站推荐[J].数字技术与应用.2017
[8].张崇,熊烨明.基于海量网站日志数据的房地产需求指数研究[J].数学的实践与认识.2017
[9].张静.某电子商务网站搜索日志分析系统设计与实现[D].中国科学院大学(中国科学院工程管理与信息技术学院).2017
[10].邵明路.大规模网站日志的并行分析技术研究[D].东南大学.2016