导读:本文包含了搜索日志论文开题报告文献综述及选题提纲参考文献,主要关键词:科研用户,学术搜索日志,小数据,个体用户识别
搜索日志论文文献综述
郑婷婷,陈翀,白海燕,梁冰[1](2019)在《学术搜索日志中的个体用户识别研究》一文中研究指出[目的/意义]文献检索中,特定账号可能以独享和共享的方式被使用。在理解用户信息需求确保个性化服务的精准性的问题上,首先要排除共享账号的群体所产生的各异行为对理解用户需求造成的干扰。因此,需要识别用户的行为边界,即某个账号的访问者是个体还是群体。[方法/过程]从科研用户的日志数据中提取行为习惯和主题偏好两方面特征,构建基于科研用户小数据和随机森林分类的个体用户识别模型,并以国家科技数字图书馆网站为例进行实证研究。[结果/结论]实验表明,提出的方法能够有效识别学术搜索日志中的个体用户,准确率约为92.9%,其中主题一致性是区别个体与群体科研用户的最重要特征。本研究不仅可以帮助识别个体用户和机构用户,优化用户管理,而且为跨设备的同一用户判定提供思路。(本文来源于《情报杂志》期刊2019年11期)
范阿琳[2](2019)在《基于搜索引擎日志挖掘的搜索满意度评估方法研究》一文中研究指出搜索引擎是用户从互联网海量数据中获取所需资源信息的主要途径之一。随着互联网数据规模急速膨胀,用户对于高效便捷获取资源信息的要求越来越高,搜索引擎需要不断地进行系统优化从而为用户提供更优质的搜索服务,因此,如何有效评估搜索引擎的质量成为了研究界与产业界关注的焦点。搜索满意度是一种以用户为核心、强调用户搜索体验的搜索引擎质量评估指标。搜索引擎日志记录了用户与搜索引擎交互过程中发生的一系列行为信息(如提交查询词、移动鼠标、点击结果等),并且搜索满意度与用户的搜索行为有很强的关联。因此,研究人员提出利用搜索行为来评估用户的搜索满意度。本文针对如何有效利用搜索行为序列中的时间间隔信息、如何有效利用鼠标光标移动的轨迹、如何在少量有标注数据的情况下训练出有效的搜索满意度评估模型叁个挑战对基于搜索引擎日志挖掘的搜索满意度评估方法进行深入研究,主要内容有:1)提出了一种基于长短时记忆循环神经网络的搜索满意度评估方法。利用长短时记忆循环神经网络对搜索行为序列进行建模,实现端对端的学习,并引入虚拟停留行为来表示搜索行为序列中的变长时间;引入一种基于停留时间扰动的数据增强策略来增加搜索行为序列的模式变化,从而提高搜索满意度评估模型的泛化能力。实验结果表明与一些优秀的搜索满意度评估方法相比,基于长短时记忆循环神经网络的搜索满意度评估方法有显着的性能提升;2)提出了一种用于搜索满意度评估的区域行为长短时记忆循环神经网络。首先利用区域和行为从搜索引擎日志中提取鼠标交互序列;引入区域门和行为门分别对鼠标交互序列中的区域信息和行为信息建模,使得网络在捕获区域和行为之间交互关系的同时不会遭受更高训练复杂度的影响;引入一种多因子扰动的数据增强策略来增加鼠标交互序列的模式变化。实验结果表明用于搜索满意度评估的区域行为长短时记忆循环神经网络在不同的搜索环境中都实现了比最先进的搜索满意度评估方法更好的性能;3)提出了一种基于多视图半监督学习的搜索满意度评估方法。通过半监督学习的方法利用少量有标注数据和大量无标注数据来提高搜索满意度评估方法的性能,在此基础上,结合多视图学习的思想来克服传统的基于单视图的半监督学习方法容易陷入局部最优的问题,并利用不同参数配置的策略让基分类器之间有足够的分歧,从而缓解多视图半监督学习方法对于视图充分冗余的要求。实验结果展示了基于多视图半监督学习的搜索满意度评估方法相对最先进的基于半监督学习的搜索满意度评估方法的优势;4)提出了一种融合多视图半监督学习和多视图主动学习的搜索满意度评估方法。半监督学习部分利用无标注数据提高了主动学习部分中所使用的分类器的准确率;主动学习部分阶段性地使用给定的人工标注成本,在利用一种局部密度度量来衡量每个候选标注数据的代表性的同时,结合多视图的思想来衡量每个候选标注数据的信息量,从而挑选出最具代表性和最富信息量的数据给标注人员标注,为半监督学习部分提供更高质量的有标注数据集。实验结果表明在用户满意度评估的问题上,半监督学习与主动学习相结合能够实现比单独使用更好的性能。(本文来源于《浙江大学》期刊2019-06-01)
杨杰,徐越,余建桥,蒋建华[3](2019)在《基于搜索引擎日志的用户查询意图分类》一文中研究指出为了搜索引擎能提供高质量检索,提出了一种查询意图自动分类模型。该模型将用户查询分为咨询、学术、资源、服务、导航和热点6类,建立了一套查询意图分类体系;在传统搜索引擎系统中加入查询意图处理模块,通过对用户查询意图的查询词信息(Qi)、点击URL信息(Cu)和基于某分类的URL点击排序(Cr)3个分类特征进行统计分析,提取其特征向量,进而推断出用户查询意图。通过在Sogou数据集上的试验表明,各类信息的查询分类效果F值均大于0.8,取得了较好的分类效果。(本文来源于《指挥信息系统与技术》期刊2019年02期)
王淼[4](2018)在《搜索日志分析研究述评》一文中研究指出本文首先对搜索日志的基本概念和发展起源进行简单的介绍。第二部分介绍了网页标签和日志文件的优缺点,以及Jansen搜索日志分析方法的步骤和衡量指标。第叁部分对国内外目前利用搜索日志分析方法研究用户行为的现状进行总结。然后讨论用户在搜索话题,查询词长度,浏览页面叁方面的变化过程和搜索日志分析方法的优缺点。最后对文章内容进行总结,并给出了以后的几个研究方向。(本文来源于《电脑知识与技术》期刊2018年32期)
王淼,宋子豪[5](2018)在《基于日志的用户搜索行为分析——以Sogou为例》一文中研究指出该文以Sogou搜索引擎为例,对其查询日志数据库内约一个月内的两千万条查询日志进行分析,以期揭示其用户搜索行为。研究采用Jansen提出的包含数据采集、数据处理和数据分析叁阶段的分析框架,在数据分析阶段又对关键词、查询式和搜索会话这叁个方面进行了分析。研究结果显示:用户输入查询式的长度度比较短,接近1.45,高频查询词中和图片相关的居多。(本文来源于《电脑知识与技术》期刊2018年31期)
刘佳薇[6](2018)在《元搜索中基于日志和语料的查询推荐模型的研究与实现》一文中研究指出自人类进入二十一世纪以来,互联网产生了规模巨大的各类数据,且数据量仍在不断激增。搜索引擎可以帮助人们高效地从错综复杂的海量数据中获取到需要的信息。但是,单个搜索引擎往往查全率不高,不能完全满足用户的检索需求,而元搜索引擎通过整合各个成员搜索引擎返回的搜索结果,从而为用户提供覆盖率更高的检索结果。然而,在元搜索引擎中,用户输入的初始查询有时并不能准确表达其查询意图,从而影响检索结果的准确率。因此亟需研究面向元搜索引擎的查询推荐技术,以提高元搜索引擎的用户体验。查询推荐技术通过将相关的查询词推荐给用户,以帮助用户构造更有效的查询。传统的查询推荐模型可以分为两大类,分别是基于日志的查询推荐模型和基于语料的查询推荐模型。本文对比分析了这两类模型的优缺点,在“智搜”元搜索引擎系统的基础上,提出并实现了一个基于日志和语料的查询推荐模型。本文的工作内容及结论如下:(1)本文首先使用查询日志数据构建查询-链接二部图,在该图上使用两步随机游走策略来找到候选查询推荐词集。为了进一步扩充候选词集的范围,发挥元搜索引擎的优势,利用多个搜索引擎的查询推荐结果来丰富候选查询推荐词集。接下来,使用主题概念提取的方法,从元搜索引擎检索结果中提取查询词相关的主题概念,筛选出与主题概念相关的候选查询推荐词集。(2)为了进一步提高候选查询词的准确性,本文使用基于语料数据的查询项图相似性计算方法筛选得到最终的候选查询推荐词集。除此以外,本文还提出了一个查询词合理性的计算方法,对候选查询词集进行最终的排序。(3)本文提出的基于日志和语料的查询推荐模型已在“智搜”元搜索引擎中实现并应用,实验结果表明该推荐模型可以更加准确的为用户提供查询推荐词,且该模型的各个步骤均可以有效提高查询推荐的性能。(本文来源于《西安电子科技大学》期刊2018-06-01)
张森[7](2018)在《基于网络查询日志的个人搜索主题分析与探索》一文中研究指出随着互联网的不断发展,搜索引擎使用率越来越高,由此产生的网络查询日志也呈现出爆炸性增长的趋势。网络查询日志蕴含着很多有价值的信息,其中搜索主题就是一种非常有价值的信息。搜索主题在优化搜索引擎和分析用户行为等方面有着重要作用。目前关于搜索主题方面的研究主要是基于整个网络查询日志对所有的用户做主题分析,没有对个人搜索主题情况进行研究。另外,通过现有的网络查询日志session划分的方法得到的划分结果不够精确,无法满足像搜索主题模型这样对session的划分精度要求很高的模型。针对以上问题,本文在前人研究的基础上进行了进一步研究与探索。针对session划分结果不精确问题,本文抽取查询时间间隔、查询项语义相似度和查询项之间的加减词作为特征属性,并采用朴素贝叶斯法对网络查询日志进行高精度session划分。为了对个人搜索主题进行分析,本文结合网络查询日志的特点和词突发现象,构建了两个模型:查询词与URL主题无关的搜索主题模型(TIM)和查询词与URL主题相关的搜索主题模型(TDM),并通过Beta分布描述主题的时间变化趋势。本文工作的创新点如下:第一,本文提出了的可以高精确度划分网络查询日志session的方法——朴素贝叶斯法。该方法通过将session划分问题转化为判断查询项是否为session边界的问题,然后采用朴素贝叶斯算法进行分类。查询项的特征属性有以下叁个:session划分的时间间隔、查询项的语义相似度和查询项之间的加减词。为了提高查询项特征属性的可靠性,在计算查询项语义相似度的时候,采用了深度学习中词向量的表示方法,提出了Query2Vector模型,将查询项用向量表示,然后计算余弦相似度。并通过实验证明,本文中提出的session划分方法与目前常用的方法相比更有优势。第二,本文通过研究自然语言处理中的词突发现象,并结合搜索主题模型方面的研究成果,创造了利用网络查询日志中查询词和URL的突发现象获取个人搜索主题的差异的新方法。本文中将网络查询数据按用户id分为不同的文档,这样不同文档中词的突发性就会在主题中显现出来,从而体现不同用户的主题差异性。本文结合网络查询日志的结构特点构建了两个搜索主题模型,查询词与URL主题无关的搜索主题模型(TIM)和查询词与URL主题相关的搜索主题模型(TDM),并通过Beta分布描述主题的时间变化趋势。然后给出了模型的生成过程、推导方法和模型的参数估计方法。最后的实验结果也表明,本文提出的搜索主题模型能够有效地发现个人用户搜索主题的差异,并且与其他搜索主题模型相比具有明显的泛化性能优势。(本文来源于《山东财经大学》期刊2018-05-01)
梁烜彰[8](2018)在《基于大数据平台的用户搜索日志分析和研究》一文中研究指出随着科学技术的不断发展,互联网在生活中的应用越来越广泛,在互联网中的搜索引擎也成为了人们最常使用的工具,用户搜索所产生的用户搜索日志也呈指数增长。在当今社会中,这些用户搜索日志就相当于财富,而如何去处理这些海量的“财富”就成为了一个众多学者关注的焦点。日益兴起的大数据存储和处理技术为解决这些问题提供了方案。以Hadoop平台优良的集群特性为例,其不仅能提供强大稳定的计算能力还拥有高性能的分布式文件存储系统,完全可以应付任何海量数据处理的需求。除此之外,Storm集群和Spark集群也为用户搜索日志的处理提供了新的方案。本文分析了现有的大数据平台框架技术。针对大数据离线数据处理和实时数据处理的需求,结合Hadoop、Storm和Spark的技术特点,提出了多个大数据处理方案,并分析每个方案之间的性能优点缺点。最后将离线处理方案和实时处理方案结合起来分别提出的以Hadoop为主和以Spark为主的综合方案,并分析得出了以Hadoop为主Storm和Spark为辅的最终大数据处理综合方案。本文通过搭建Hadoop平台对搜狗实验室提供用户搜索日志数据进行处理分析,并通过测试不同数据量大小的日志数据分析Hadoop集群的加速比以及Hadoop集群不同节点数量的性能。实验得到搜狗用户的热搜关键词排行和搜狗一天时间段搜索量分布,分析得出搜狗最热搜关键词排行、人名搜索排行、搜索方式分布、搜索类型分布、URL返回排名,用户点击顺序排名。实验结果验证了Hadoop平台实现大数据处理分析的能力,以及良好的集群性能。运用Kmeans聚类算法计算URL返回排名和用户点击顺序,并对比二分Kmeans聚类算法与原始聚类算法的效率。以及通过对比Hadoop和Spark以及Storm和Spark Streaming的实验结果,分析了它们之间的性能比较。(本文来源于《华南理工大学》期刊2018-04-10)
赵唯玮,李强,张爱新,李建华[9](2018)在《云存储系统中可搜索加密审计日志的设计》一文中研究指出随着大数据时代的来临,云存储技术成为众多企业和个人存储数据的新选择。可搜索加密审计日志可以有效对云存储系统中多用户数据分享行为进行监控。为解决云存储系统中审计日志的生成、加密、搜索、验证,针对多云服务提供商的云存储系统,提出了基于隐私保护的不可伪造可搜索加密审计日志方案。方案采用基于身份密码体制的思想,在保护用户隐私的同时,允许云服务提供商先行对用户的可搜索加密日志进行验证。此外,用户和云服务提供商被证明,无法伪造任意用户合法的可搜索加密审计日志。(本文来源于《通信技术》期刊2018年02期)
侯丽敏[10](2018)在《大数据时代,日志搜索唯快不破 专访日志易创始人陈军》一文中研究指出陈军,1970年出生于广东,日志易创始人&CEO,美国南加州大学计算机硕士,前高德地图技术副总裁,曾任职Cisco、Google、腾讯等国际知名公司,拥有20年IT及互联网研发管理经验,在数据中心、云计算、大数据、搜索和日志分析领域有丰富经验,发明了4项网络及分布式系统美国专利。(本文来源于《信息化建设》期刊2018年01期)
搜索日志论文开题报告
(1)论文研究背景及目的
此处内容要求:
首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。
写法范例:
搜索引擎是用户从互联网海量数据中获取所需资源信息的主要途径之一。随着互联网数据规模急速膨胀,用户对于高效便捷获取资源信息的要求越来越高,搜索引擎需要不断地进行系统优化从而为用户提供更优质的搜索服务,因此,如何有效评估搜索引擎的质量成为了研究界与产业界关注的焦点。搜索满意度是一种以用户为核心、强调用户搜索体验的搜索引擎质量评估指标。搜索引擎日志记录了用户与搜索引擎交互过程中发生的一系列行为信息(如提交查询词、移动鼠标、点击结果等),并且搜索满意度与用户的搜索行为有很强的关联。因此,研究人员提出利用搜索行为来评估用户的搜索满意度。本文针对如何有效利用搜索行为序列中的时间间隔信息、如何有效利用鼠标光标移动的轨迹、如何在少量有标注数据的情况下训练出有效的搜索满意度评估模型叁个挑战对基于搜索引擎日志挖掘的搜索满意度评估方法进行深入研究,主要内容有:1)提出了一种基于长短时记忆循环神经网络的搜索满意度评估方法。利用长短时记忆循环神经网络对搜索行为序列进行建模,实现端对端的学习,并引入虚拟停留行为来表示搜索行为序列中的变长时间;引入一种基于停留时间扰动的数据增强策略来增加搜索行为序列的模式变化,从而提高搜索满意度评估模型的泛化能力。实验结果表明与一些优秀的搜索满意度评估方法相比,基于长短时记忆循环神经网络的搜索满意度评估方法有显着的性能提升;2)提出了一种用于搜索满意度评估的区域行为长短时记忆循环神经网络。首先利用区域和行为从搜索引擎日志中提取鼠标交互序列;引入区域门和行为门分别对鼠标交互序列中的区域信息和行为信息建模,使得网络在捕获区域和行为之间交互关系的同时不会遭受更高训练复杂度的影响;引入一种多因子扰动的数据增强策略来增加鼠标交互序列的模式变化。实验结果表明用于搜索满意度评估的区域行为长短时记忆循环神经网络在不同的搜索环境中都实现了比最先进的搜索满意度评估方法更好的性能;3)提出了一种基于多视图半监督学习的搜索满意度评估方法。通过半监督学习的方法利用少量有标注数据和大量无标注数据来提高搜索满意度评估方法的性能,在此基础上,结合多视图学习的思想来克服传统的基于单视图的半监督学习方法容易陷入局部最优的问题,并利用不同参数配置的策略让基分类器之间有足够的分歧,从而缓解多视图半监督学习方法对于视图充分冗余的要求。实验结果展示了基于多视图半监督学习的搜索满意度评估方法相对最先进的基于半监督学习的搜索满意度评估方法的优势;4)提出了一种融合多视图半监督学习和多视图主动学习的搜索满意度评估方法。半监督学习部分利用无标注数据提高了主动学习部分中所使用的分类器的准确率;主动学习部分阶段性地使用给定的人工标注成本,在利用一种局部密度度量来衡量每个候选标注数据的代表性的同时,结合多视图的思想来衡量每个候选标注数据的信息量,从而挑选出最具代表性和最富信息量的数据给标注人员标注,为半监督学习部分提供更高质量的有标注数据集。实验结果表明在用户满意度评估的问题上,半监督学习与主动学习相结合能够实现比单独使用更好的性能。
(2)本文研究方法
调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。
观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。
实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。
文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。
实证研究法:依据现有的科学理论和实践的需要提出设计。
定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。
定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。
跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。
功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。
模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。
搜索日志论文参考文献
[1].郑婷婷,陈翀,白海燕,梁冰.学术搜索日志中的个体用户识别研究[J].情报杂志.2019
[2].范阿琳.基于搜索引擎日志挖掘的搜索满意度评估方法研究[D].浙江大学.2019
[3].杨杰,徐越,余建桥,蒋建华.基于搜索引擎日志的用户查询意图分类[J].指挥信息系统与技术.2019
[4].王淼.搜索日志分析研究述评[J].电脑知识与技术.2018
[5].王淼,宋子豪.基于日志的用户搜索行为分析——以Sogou为例[J].电脑知识与技术.2018
[6].刘佳薇.元搜索中基于日志和语料的查询推荐模型的研究与实现[D].西安电子科技大学.2018
[7].张森.基于网络查询日志的个人搜索主题分析与探索[D].山东财经大学.2018
[8].梁烜彰.基于大数据平台的用户搜索日志分析和研究[D].华南理工大学.2018
[9].赵唯玮,李强,张爱新,李建华.云存储系统中可搜索加密审计日志的设计[J].通信技术.2018
[10].侯丽敏.大数据时代,日志搜索唯快不破专访日志易创始人陈军[J].信息化建设.2018