用户访问序列模式论文-王子卿,樊楠

用户访问序列模式论文-王子卿,樊楠

导读:本文包含了用户访问序列模式论文开题报告文献综述及选题提纲参考文献,主要关键词:Web日志,序列模式挖掘,GSP算法

用户访问序列模式论文文献综述

王子卿,樊楠[1](2015)在《基于GSP算法的Web用户访问序列模式挖掘》一文中研究指出该文以某电子商务网站的Web访问日志为研究对象,利用SQL Server提供的SSIS服务和T-SQL语句进行数据预处理,得到序列数据库,然后用java语言编程实现GSP算法对其进行序列模式的挖掘测试分析,通过对结果分析可以做出对该网站布局和内容(或产品)调整提供参考,使其更好为其用户提供针对性的服务。(本文来源于《电脑知识与技术》期刊2015年30期)

王磊[2](2014)在《基于Web日志的用户访问序列模式挖掘研究》一文中研究指出在Web挖掘领域中,Web日志挖掘占有了举足轻重的地位,也是目前研究热点之一。Web日志挖掘的目的是通过对用户访问Web站点时留下的Web日志的分析和研究找到隐含的规律性知识,获取用户的访问模式,可以增强Web服务器的性能,提高Web站点的网页链接结构,同时为用户提供基于兴趣的智能化服务。本文系统阐述了Web日志挖掘的基本理论基础和大致流程,分析了当前的研究现状,并对Web日志挖掘中的几个关键步骤进行了细致研究,提出了相应的改进和创新。Web日志挖掘主要包括3个过程:数据清理、模式发现和模式分析及应用。首先,数据清理包含数据采集和数据预处理,而数据预处理可以说是整个Web日志挖掘过程的基础,直接影响挖掘结果和质量。在本文中,对目前在数据预处理过程进行详细的分析和研究,并分析了实际的例子,发现在当前会话识别的预处理过程中的问题,并在此基础上,从用户的对Web站点浏览习惯出发,提出改进的会话识别方法,新会话开始划分是以Web站点首页和各导航页为参考标识的,可以在一定程度上减少原有会话方法的不足。同时,在原有预处理基础上加入了框架页面过滤,降低了日志预处理阶段的会话识别的空间消耗,能够更为准确的识别用户的访问行为。其次,模式发现是Web日志挖掘的核心,其目的是通过序列模式挖掘算法挖掘出有兴趣性的知识。本文将经典的序列模式算法进行了比较,选择PrefixSpan算法进行深入研究,针对其采用的频繁模式搜索策略导致构造大量中间数据的弊端,提出了自己的改进思路,优化了投影数据库的构建过程,减少了对序列数据库的重复扫描,提高了算法效率。最后,通过实验结果对上述关键问题进行了分析和对比,并达到了预期效果。(本文来源于《中国石油大学(华东)》期刊2014-05-01)

殷西洋[3](2011)在《基于兴趣度的Web日志用户访问序列模式挖掘》一文中研究指出随着网络技术和因特网的迅速发展,网络已经成为人们进行交流和相互联系的有效平台,它存储了大量的信息、数据。由于信息量的庞大,对于网络用户来说,如何能够及时地发现和利用有用的信息,则变得越来越困难。对于网站管理者来说,怎样合理地组织网站的布局,提高网站的点击率,也显得相当有难度。为了更好地解决上述相关问题,势必将数据挖掘技术应用于互联网,因此,形成了一个新的研究领域——Web挖掘(Web Mining). Web挖掘通常分为叁类,包括Web内容挖掘,Web结构挖掘和Web使用挖掘。Web使用挖掘是其中重要的应用研究方向之一,其目的是找出网站用户的访问模式,找出用户感兴趣的浏览方式,对优化站点结构和为用户提供个性化服务具有重要的意义。本文主要研究的是基于兴趣度的Web日志用户访问序列模式挖掘,针对当前挖掘用户访问序列模式算法仅仅将频繁访问路径作为用户浏览兴趣路径的问题,改进了WAP-mine算法,命名为基于兴趣度的Web日志用户访问序列模式挖掘算法BIWAP-mine (Web Access Pattern mining based on User Traversal Interest)。本文提出了访问序列上用户浏览兴趣度的定义,综合考虑了页面访问次数、浏览时间、页而信息量大小和带宽来定义用户兴趣度,并将此兴趣度用于改进WAP-mine算法。最后结合具体的实例,对算法进行了验证。结果表明该算法是有效的,在挖掘用户浏览兴趣路径方面比当前流行的WAP-mine挖掘算法更准确,并具有较好的执行效率。(本文来源于《东北师范大学》期刊2011-05-01)

左丹[4](2009)在《基于Web日志的用户访问序列模式研究》一文中研究指出随着Internet的迅速发展,网络已经成为人们进行信息交流和信息处理的有效平台,它存储着海量的数据。由于庞大的信息量,对于每个用户来说,如何能够及时地发现有用的信息则变得越来越困难。为了解决上述问题,将数据挖掘技术应用于互联网,构成了一个新研究领域——Web挖掘(Web Mining)。Web挖掘通常分为叁类,Web使用挖掘是重要的应用研究方向之一,其目的是找出网站用户的访问模式,对优化站点结构和为用户提供个性化服务具有重要的意义。本文主要研究了基于Web日志的用户访问序列模式挖掘,为了避免用户访问序列挖掘过程中产生巨大的候选模式,提出了一种新的用户访问序列模式挖掘算法UAP-miner(User Access Pattern mining)。该算法简化了挖掘过程中支持度的计算和候选模式的生成操作。首先使用UAP-tree(user access pattern tree)来记录用户访问序列和它的计数,避免冗长的支持度计算。构造出UAP-tree后,所有剩下的挖掘工作都在UAP-tree上进行,只需要扫描UAP-tree相关的子树,不再需要访问原始的用户访问序列数据库。然后提出一个高效的算法,根据用户当前的访问序列从UAP-tree中发现频繁用户访问模式,该算法在挖掘过程中不会产生任何候选模式,所以具有较好的执行效率。最后结合具体的实例,对算法进行了验证。(本文来源于《东北师范大学》期刊2009-05-01)

朱莉[5](2007)在《序列模式挖掘在Web用户访问序列挖掘中的应用研究》一文中研究指出数据挖掘致力于数据分析和理解、揭示数据内部蕴藏知识,因而在数据存储爆炸性增长的今天,大量潜在的有用信息才得以被提取和发现。近年来,Web应用活跃在社会生活的方方面面,WWW成为了全球最大的信息集散地,然而大量有用信息正被海量数据所吞没。因此将数据挖掘技术应用于Web数据分析的Web挖掘应运而生,且已成为数据挖掘的重要应用之一。根据对Web数据的兴趣度不同,Web挖掘一般分为叁大类:一个是Web内容的挖掘;另一个是Web结构的挖掘;还有一个是Web访问模式的挖掘,包括关联规则、序列模式等,其中序列模式,是相对时间或其他模式出现频率高的模式。本文主要是对Web访问模式的一种,Web日志进行序列模式的挖掘进行研究。对于从Web日志中挖掘出用户的访问序列模式,虽然可以采用常规的序列模式挖掘算法,但是对Web日志进行预处理后,得到的Web日志访问序列模式数据库,在序列的构成和序列的长度上均区别于一般的序列模式数据库。因此为了适应特殊性,提高数据挖掘的效率,Web日志访问序列模式挖掘的算法,需要在通用算法上做出作裁剪和增强。目前,Web日志访问序列模式挖掘遇到的挑战是对海量数据挖掘时系统资源的巨大开销。结合两个效率比较高的算法SPAM和PrefixSpan的思想,本文提出了一个新的算法SPAM-FPT,从叁个方面着手,简化挖掘过程中支持度的计算和候选模式的生成操作:(1)改进SPAM算法中位图的结构,设计出新的存储结构FPT表示压缩记录每个序列。对序列的用户支持度的计算只需要统计出序列的FPT表示中非零的项的个数即可得出。(2)序列扩展通过两个序列的FPT表示的扩展实现,避免了大量候选序列的产生。(3)吸取PrefixSpan算法中的前缀思想,通过跟踪前缀,不断缩小序列数据库的扫描范围,但不需要真正建立投影数据库,而是通过修改确定前缀下的长度为1的频繁序列的FPT表示来实现。最后给出了算法SPAM-FPT的实现系统FPT-Miner以及性能评测。(本文来源于《华东师范大学》期刊2007-03-01)

祝效普[6](2005)在《WEB用户访问序列模式挖掘》一文中研究指出随着Web应用的快速发展,Web数据挖掘正成为数据挖掘的热点之一,根据Web挖掘的目的和数据对象的不同,Web数据挖掘可以分为Web内容挖掘、Web结构挖掘、Web用户访问信息挖掘。web用户访问日志数据挖掘就是利用数据挖掘的技术挖掘分析用户访问留下的日志文件,挖掘用户访问模式,为网站经营管理和结构调整提供决策支持;为企业发现新市场机会,进行市场决策;提高通过网站施行的营销效果,以及为企业进行战略决策提供有价值的潜在的信息。数据仓库是一个面向主题的、集成的、相对稳定的、反映历史变化的数据集合,用于支持管理决策。数据仓库系统主要包括数据源、数据仓库、OLAP服务、前端工具等组成部分。数据仓库的设计模式有星型模式和雪花模式,设计步骤有概念模型设计、逻辑模型设计、物理模型设计、数据仓库生成、数据仓库运行和维护等。数据挖掘中的序列模式挖掘是数据挖掘的一个重要方向,本文给出了序列模式挖掘的主要算法,并在PrefixSpan算法的基础上提出改进,,实现中通过减少投影数据库的数量对该算法进行了优化,通过M矩阵的构造,用频繁2-序列的投影代替频繁1-序列的投影,减少了投影数据库的数量,同时利用了Aprior性质对投影数据库剪枝,进一步减小了投影数据库的大小,对算法进行了优化。最后对该算法进行了分析并给出实验数据。对Web Log进行数据预处理,得到序列模式挖掘所需的序列模式数据库,建立星型的数据仓库并进行了OLAP分析。最后对序列数据库进行了序列模式挖掘,并对挖掘的结果进行了分析。(本文来源于《天津大学》期刊2005-01-01)

用户访问序列模式论文开题报告

(1)论文研究背景及目的

此处内容要求:

首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。

写法范例:

在Web挖掘领域中,Web日志挖掘占有了举足轻重的地位,也是目前研究热点之一。Web日志挖掘的目的是通过对用户访问Web站点时留下的Web日志的分析和研究找到隐含的规律性知识,获取用户的访问模式,可以增强Web服务器的性能,提高Web站点的网页链接结构,同时为用户提供基于兴趣的智能化服务。本文系统阐述了Web日志挖掘的基本理论基础和大致流程,分析了当前的研究现状,并对Web日志挖掘中的几个关键步骤进行了细致研究,提出了相应的改进和创新。Web日志挖掘主要包括3个过程:数据清理、模式发现和模式分析及应用。首先,数据清理包含数据采集和数据预处理,而数据预处理可以说是整个Web日志挖掘过程的基础,直接影响挖掘结果和质量。在本文中,对目前在数据预处理过程进行详细的分析和研究,并分析了实际的例子,发现在当前会话识别的预处理过程中的问题,并在此基础上,从用户的对Web站点浏览习惯出发,提出改进的会话识别方法,新会话开始划分是以Web站点首页和各导航页为参考标识的,可以在一定程度上减少原有会话方法的不足。同时,在原有预处理基础上加入了框架页面过滤,降低了日志预处理阶段的会话识别的空间消耗,能够更为准确的识别用户的访问行为。其次,模式发现是Web日志挖掘的核心,其目的是通过序列模式挖掘算法挖掘出有兴趣性的知识。本文将经典的序列模式算法进行了比较,选择PrefixSpan算法进行深入研究,针对其采用的频繁模式搜索策略导致构造大量中间数据的弊端,提出了自己的改进思路,优化了投影数据库的构建过程,减少了对序列数据库的重复扫描,提高了算法效率。最后,通过实验结果对上述关键问题进行了分析和对比,并达到了预期效果。

(2)本文研究方法

调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。

观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。

实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。

文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。

实证研究法:依据现有的科学理论和实践的需要提出设计。

定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。

定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。

跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。

功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。

模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。

用户访问序列模式论文参考文献

[1].王子卿,樊楠.基于GSP算法的Web用户访问序列模式挖掘[J].电脑知识与技术.2015

[2].王磊.基于Web日志的用户访问序列模式挖掘研究[D].中国石油大学(华东).2014

[3].殷西洋.基于兴趣度的Web日志用户访问序列模式挖掘[D].东北师范大学.2011

[4].左丹.基于Web日志的用户访问序列模式研究[D].东北师范大学.2009

[5].朱莉.序列模式挖掘在Web用户访问序列挖掘中的应用研究[D].华东师范大学.2007

[6].祝效普.WEB用户访问序列模式挖掘[D].天津大学.2005

标签:;  ;  ;  

用户访问序列模式论文-王子卿,樊楠
下载Doc文档

猜你喜欢