用户会话识别论文-黄浩,李兵,姜丹

用户会话识别论文-黄浩,李兵,姜丹

导读:本文包含了用户会话识别论文开题报告文献综述及选题提纲参考文献,主要关键词:Web使用挖掘,Markov模型,会话重构

用户会话识别论文文献综述

黄浩,李兵,姜丹[1](2012)在《基于m-Markov模型的交叉用户会话识别》一文中研究指出Web访问日志数据是由单个用户点击形成的数据集,各点击是独立的,会话识别的任务就是将各个独立的点击划分成有意义的会话片段。一般的会话识别算法无法对包含交叉会话数据的Web访问日志数据成功地进行会话识别,利用自适应m-Markov模型能对Web访问日志数据进行交叉服务器会话识别和重构,并在m-Markov模型的基础上结合不同的会话结束判断准则进行会话识别准确率的比较。实验结果显示,将m-Markov模型与基于奖惩策略的会话结束算法结合能明显提高会话识别和重构的准确率。(本文来源于《计算机科学》期刊2012年S3期)

凌海峰,余笪[2](2012)在《基于聚类的Web用户会话识别优化方法》一文中研究指出会话识别是用户访问行为分析的基础和关键工作,其质量对于识别和发现用户的信息需求具有决定性的影响。目前常用的是基于时间阈值的切分方法,但是该方法存在的主要问题是针对不同用户时间阈值难以准确地确定。提出了一种新的基于聚类技术的会话识别优化方法,首先建立了基于聚类的会话识别优化模型,然后采用改进的K-means算法进行会话识别。实验结果表明该方法与传统方法相比具有较好的效果。(本文来源于《计算机应用研究》期刊2012年08期)

朱志国[3](2011)在《基于URL语义分析的Web用户会话识别方法》一文中研究指出由于现有基于时间和引用的经典会话识别方法在复杂Web使用模式挖掘中存在局限性,提出了一个基于URL语义分析的用户会话识别新方法.这个方法借助Web目录服务,将Web日志中的每一条URL记录赋予一定的语义信息,并给出一些测度指标对URL之间的语义相似度进行评价.对静态和流动两类Web日志情况进行分析,分别给出了语义奇异值鉴别方法SOAs和SOAd对用户会话进行切分识别.最后对提出的方法与现有经典方法进行了比较实验与分析,结果表明会话识别的精确率和召回率有所提高.(本文来源于《大连理工大学学报》期刊2011年03期)

高春贞,吴军华[4](2010)在《基于概率潜在语义分析的Web用户会话识别》一文中研究指出为提高Web用户会话识别的准确性,给出了一种基于概率潜在语义分析模型(PLSA)和竞争奖罚(CRP)算法的Web用户会话识别方法.其核心内容是利用PLSA模型计算出请求页面和每一个活动用户会话的概率,比较概率判定请求页面应该归属的用户会话,并采用竞争奖罚算法判别用户会话的结束.实验结果表明:基于PLSA模型和竞争奖罚算法的用户会话识别方法的识别成功率高于其他常用的会话识别方法.(本文来源于《微电子学与计算机》期刊2010年06期)

朱晋华[5](2008)在《WEB日志用户会话识别及聚类分析研究》一文中研究指出随着Internet在流量、规模和复杂度等方面的飞速增长,网络成为人们进行信息交流和信息处理的平台。面对网络上如此巨大的信息量,如何有效地发现个性化的信息,成为困扰用户的一大难题。为此,Web挖掘技术应运而生,其中Web日志挖掘是Web挖掘研究领域中一个重要的方面,它是将数据挖掘技术应用于Web服务器日志,通过分析日志文件发现用户访问站点的浏览模式。基于Web的日志挖掘一般分为叁个过程:数据预处理阶段、模式发现阶段及模式分析阶段。在Web日志挖掘过程中,首先要进行的是数据预处理,因为现实世界中的数据多半是不完整的、含噪声的和不一致的,而且这些数据的格式多种多样。对于数据挖掘算法而言,不正确的输入数据可能导致错误或者不准确的挖掘结果,同时数据挖掘算法通常处理的是具有固定格式的数据,现实中存在的数据各式各样,因此需要将这些数据加工处理成可以被挖掘算法使用的数据。如何修补现实世界的数据的不完整及不一致、如何剔除噪声数据、如何将现有的数据转化为挖掘算法可用的格式、如何抽取有用的数据、如何将多个数据源集成在一起,这些都是数据预处理中要完成的任务。数据预处理技术是整个数据挖掘过程的主要组成部分,数据预处理的结果是挖掘算法的输入,它直接影响挖掘的质量。因此,数据预处理技术也是Web日志挖掘中的重要研究方向。数据预处理是在将日志文件转换成数据库文件时进行的,它包括数据清洗、用户识别、会话识别、事务识别四个阶段。本文深入学习研究了数据预处理的主要任务,提出了一种新的Web日志预处理会话识别及根据用户浏览兴趣进行事务识别的方法。该方法根据用户的下载时间、用户对页面内容的兴趣度及页面的信息量及页面的链入、链出数等几个参数的综合得到每个用户对每个页面的访问时间阈值,然后根据该个性化阈值来识别用户会话。会话识别后,根据用户访问页面的时间、页面的兴趣度删除用户不感兴趣的页面和链接页面,重新定义用户的Web访问事务,成为最终有效的Web页面访问序列。实验证明,本文提出的方法可以识别出页面浏览时间较长的会话,也可以把小于固定阈值的页面划入下一会话,发现的真实会话比例大,贴近用户真实的访问目的,同时依据用户浏览页面的兴趣度来删除无关链接页面,形成新的Web访问事务,为下一步的聚类分析提供了良好的数据,提高了聚类的效率。数据经过预处理后,就可以根据具体的需求来选择聚类、分类等挖掘技术。本文研究分析了聚类技术及当前的Web聚类的内容和方法,通过聚类用户访问的Web事务,发现相似的用户群。(本文来源于《太原理工大学》期刊2008-05-01)

张辉,宋瀚涛,徐晓梅[6](2007)在《基于语义的Web用户会话识别算法》一文中研究指出研究一种基于语义进行Web用户会话识别的算法.通过建立的语义化预处理模型对使用日志进行扩展,利用基于本体语义度量的Markov链模型识别用户请求所应归属的会话,提出用竞争激励算法判别会话的结束状态.实验结果表明,基于语义的用户会话识别算法的平均识别率为69.8%,高于时间阈值、向前参考等算法.(本文来源于《北京理工大学学报》期刊2007年06期)

冯林,何明瑞,罗芬[7](2005)在《一种基于ExLF日志文件的用户会话识别启发式算法》一文中研究指出在详细介绍ExLF日志文件格式的基础上,定义了会话表;阐述了用户会话识别图的概念;给出了生成此会话识别图的一种启发式算法。最后,用一个例子验证了算法的有效性。(本文来源于《计算机应用》期刊2005年02期)

用户会话识别论文开题报告

(1)论文研究背景及目的

此处内容要求:

首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。

写法范例:

会话识别是用户访问行为分析的基础和关键工作,其质量对于识别和发现用户的信息需求具有决定性的影响。目前常用的是基于时间阈值的切分方法,但是该方法存在的主要问题是针对不同用户时间阈值难以准确地确定。提出了一种新的基于聚类技术的会话识别优化方法,首先建立了基于聚类的会话识别优化模型,然后采用改进的K-means算法进行会话识别。实验结果表明该方法与传统方法相比具有较好的效果。

(2)本文研究方法

调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。

观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。

实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。

文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。

实证研究法:依据现有的科学理论和实践的需要提出设计。

定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。

定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。

跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。

功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。

模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。

用户会话识别论文参考文献

[1].黄浩,李兵,姜丹.基于m-Markov模型的交叉用户会话识别[J].计算机科学.2012

[2].凌海峰,余笪.基于聚类的Web用户会话识别优化方法[J].计算机应用研究.2012

[3].朱志国.基于URL语义分析的Web用户会话识别方法[J].大连理工大学学报.2011

[4].高春贞,吴军华.基于概率潜在语义分析的Web用户会话识别[J].微电子学与计算机.2010

[5].朱晋华.WEB日志用户会话识别及聚类分析研究[D].太原理工大学.2008

[6].张辉,宋瀚涛,徐晓梅.基于语义的Web用户会话识别算法[J].北京理工大学学报.2007

[7].冯林,何明瑞,罗芬.一种基于ExLF日志文件的用户会话识别启发式算法[J].计算机应用.2005

标签:;  ;  ;  

用户会话识别论文-黄浩,李兵,姜丹
下载Doc文档

猜你喜欢