聚类搜索引擎论文-韦美峰,王亚民

聚类搜索引擎论文-韦美峰,王亚民

导读:本文包含了聚类搜索引擎论文开题报告文献综述及选题提纲参考文献,主要关键词:主题过滤,后缀树聚类,搜索引擎

聚类搜索引擎论文文献综述

韦美峰,王亚民[1](2017)在《基于后缀树聚类的主题搜索引擎研究》一文中研究指出[目的/意义]一个好的主题搜索引擎能够更好地满足专业领域用户的信息需求。[方法/过程]在爬取阶段采用锚文本正则表达式匹配进行主题过滤、加入IKAnalyzer中文分词器,结合TF-IDF、OPIC和Topic-PageRank算法对检索结果排序进行改进并通过STC算法对检索结果实时聚类。[结果/结论]以"图书情报"为主题进行实验测试,每增加一个分布式计算节点爬取速率提高20%,查准率优于未排序优化23%,检索结果可以实时聚类并以可视化展示,且检索结果项多为相关论文。[局限]系统对网页中繁多的数据格式解析度不够,未解析的部分可能包含主题内容。(本文来源于《情报理论与实践》期刊2017年12期)

陈建华[2](2017)在《基于后缀树聚类算法的元搜索引擎的设计与实现》一文中研究指出日新月异的Internet革命给人们带来了极大便利。随着大数据时代的到来,如何更高效的获取信息越来越成为人们关注的焦点,而搜索引擎正是解决此类问题的有效工具之一。但从目前来看,搜索引擎技术仍有很多不足,虽然有众多的商业搜索引擎供用户选择,很多时候用户还是难以在第一时间找到感兴趣的内容。由于全文搜索引擎之间数据库内容和排序算法上都有很大不同,导致用户得到的结果集也千差万别,为了提高搜索引擎的覆盖率和查全率,元搜索引擎技术孕育而生。传统搜索引擎还存在着另一个不足之处,用户提交关键字进行搜索时,得到的结果集往往十分庞杂,需要用户一一筛选,而在关键字具有多种含义时这种不足尤为明显,在大量具有不同类别含义的结果集面前用户常常会花费很多时间查找有用信息。一种解决方案是对结果集进行聚类处理,当用户提交关键字查询时,返回结果以聚类的形式呈现给用户,从而提高搜索效率。目前,越来越多的元搜索引擎开始引入聚类功能,如开源搜索引擎Carrot2和Vivisimo等。但聚类搜索引擎的技术还没有进入完全成熟的阶段,分类水平、类标签的可读性、对中文语言的支持等方面都存在着一定不足,有待于进一步研究。本文针对元搜索引擎和聚类算法进行了一定的分析和研究,并在此基础之上使用java语言和myEclipse10工具设计实现了一个基于后缀树聚类算法的元搜索引擎,主要工作如下:1.对元搜索引擎的工作原理进行了介绍,阐述了元搜索引擎各个模块的工作方式和实现。2.针对短文本聚类算法的研究,介绍了几种常用的聚类算法,深入比较了这些聚类算法的优缺点,对后缀树聚类算法的原理进行了细致分析。3.针对聚类算法产生的类标签描述性不强的问题,首先对类标签的选取方法进行了研究和改进,使得评分较高的类标签更符合汉语的语言习惯;其次,在后缀树聚类和类融合之后,对具有相同类标签的簇再一次融合,保证标签不具有重复性;最后引入语义规则对所有类的标签进行再一次的筛选,通过筛选的类簇才作为结果进行返回,保证标签的可读性。在实现该搜索引擎的同时,本文对该系统的性能进行了分析,实验结果表明该系统对中文的支持较好,聚类算法所花费的时间和分类能力比较令人满意,类标签的质量有了一定的提升,无意义类标签数量明显减少。下面给出该系统存在的一些问题和应该改进的方向:1.本系统仅对检索信息的标题和摘要进行聚类,并未赋予其权值,在以后的信息采集过程中,除了可以为标题和摘要赋予权值比重外,还可以引入如段首段尾这些信息量强的内容,这样可以进一步增强文本特征,提高聚类效果。2.本系统实现的后缀树聚类算法是完全基于内存处理的,这对于处理结果的总量产生了制约,可以考虑将该聚类算法改进成一种外归并聚类算法,当处理结果超过一定数量级后,按用户需求提供二次聚类或多次聚类。3.目前中文同义词词库较少,未来可以加入中文同义词词典,在聚类中引入语义相似度计算方法,从而对语义上相近的类簇进行合并。(本文来源于《吉林大学》期刊2017-05-01)

白亮,于天元,刘湜,老松杨,杨征[3](2016)在《基于改进谱聚类方法的搜索引擎排序算法》一文中研究指出搜索引擎的性能优劣主要由排序结果决定。针对网页文本特性改进了谱聚类方法,提出了一种融合网页内容和链接质量的排序算法。利用改进的谱聚类方法对网页内容进行分类,并与评价链接质量的PageRank值进行加权融合,计算得到排序结果。实验结果表明,相对于传统的PageRank,HITS,TF-IDF等排序算法,所提算法返回的排序结果具有更高的相关性。(本文来源于《计算机科学》期刊2016年10期)

于童[4](2016)在《文本聚类在搜索引擎中的应用研究》一文中研究指出本文在对搜索引擎的相关原理和使用技术进行分析的基础上,进一步概括搜索引擎中的聚类方法。结合相关应用从而提出了一种新的聚类方法,其主要基于文本,该聚类方法把词语的特征匹配和相关算法结合从而实现其功能。(本文来源于《科技经济市场》期刊2016年08期)

刘典型,刘完芳,钟钢[5](2015)在《基于概念聚类的Web数据挖掘搜索引擎的设计与实现》一文中研究指出针对Web数据挖掘的搜索过程,其准确度很大程度取决于用户输入的关键词的数量,以及搜索引擎对关键词的语义的解析与用户原意的吻合度,而搜索引擎对关键词的解析,包括基于链接的聚类方法和基于概念的聚类方法。本文克服基于链接的聚类方法的缺陷,采用基于概念聚类的方法,从二分图的概念和存储方法入手,设计和实现了个性化的Web数据挖掘搜索引擎,并验证了其优越性。(本文来源于《软件工程师》期刊2015年05期)

李力[6](2015)在《面向大数据的云搜索引擎设计及并行K均值聚类算法研究》一文中研究指出本文针对目前面向大数据搜索引擎本中存在的结构复杂、实施难度高、维护成本高等问题进行分析研究,提出一种基于YARN(Hadoop 2.0)云计算框架面向大数据的云搜索引擎设计方法。并针对面向大数据的搜索引擎中的并行化K均值聚类算法存在自适应性差的问题进行重点研究,提出了一种并行化自适应Canopy-K-means算法,在本文搭建的Spark on YARN云计算平台上进行了对比实验,验证了算法的有效性。本文在研究面向大数据的云搜索引擎设计方法及所需的数据挖掘算法方面所做的主要工作有:①通过对目前国内外的研究机构及科技公司在面向大数据的搜索引擎方面的相关进展与成果进行调研与分析,总结了目前该方向的发展现状与存在的难点。在此基础上对Hadoop云计算框架进行了详细的研究、对其核心的Map-Reduce计算模型进行了分析,在此基础上还对Spark云计算框架的相关理论进行了研究与分析,最后还实际完成了Spark on YARN云计算平台的搭建。②本文基于对YARN云计算框架的研究提出了一种面向云大数据的搜索引擎设计方法,该方法涉及两个阶段:数据组织阶段与对比检索阶段。该方法以设计一个面向大数据人脸的搜索引擎为应用实例,详细介绍了如何基于本文所提出的面向大数据的搜索引擎设计方法,设计实施一个基于YARN云计算框架的面向大数据人脸识别的搜索引擎。③本文对面向大数据的云搜索引擎数据组织阶段中数据挖掘算法进行深入的研究,提出了一种基于Map-Reduce计算模型同时运行于Spark云计算框架的并行化自适应Canopy-K-means聚类算法。该算法的特点是使用统计学的方法,对并行Canopy-K-means算法进行了自适应参数估计优化,解决了Canopy过程中参数依赖人工经验选择的问题,并使用Spark云计算框架进行实现。实验结果表明:并行化自适应Canopy-K-means算法较普通的Canopy-K-means算法在聚类效率的稳定性上有较大的提高,而且在基于Spark on YARN云计算平台的算法实现使得程序既能高效的运行,又不受数据规模的影响,保证了算法的高效与可靠性。(本文来源于《重庆大学》期刊2015-04-01)

袁峰[7](2014)在《基于模糊聚类算法及推荐技术的搜索引擎结果排序研究》一文中研究指出随着现代电子信息技术的普及应用,使得网络资源的日益丰富,给人们的工作和生活增添了许多色彩。但同时,也存在一定的问题,即人们要想从纷繁复杂的网络资源中快速探寻到自己所需要的信息成为了一个难题。在这种情况下,网络搜索引擎系统的出现能够解决这一问题。随着该系统的不断革新,其功能愈加智能化,尤其是搜索引擎技术周边相关技术的融合,使得搜索引擎结果排序更具个性化。文章就模糊聚类算法及推荐技术影响下的搜索引擎结果排序形态进行研究。(本文来源于《硅谷》期刊2014年13期)

王佳乐[8](2014)在《面向搜索引擎的文本聚类研究》一文中研究指出在网络普及下,人们进入了全面的电子商务时代。服装,书籍,电子产品,家用电器,甚至是食物都开始铺天盖地的出现在互联网上。面对网络上出现的琳琅满目的商品,如何使自己的产品脱颖而出,如何使用户挑选出最适合自己的商品,成为了各商家的必争之地。也就是说,在这样的大背景下,不仅仅是提升自己产品的质量,还要关注用户的个性化服务,研究用户的真实意图,获取针对用户更准确的搜索结果。伴随着互联网的普遍应用,搜索已经成为了人们生活中不可缺少的一项行为。搜索引擎也从传统的搜索引擎如Baidu、Google搜索到更广范围下,基于B2B、B2C、C2C坏境下的搜索应用。为了能更好实现用户的搜索,学者开始从文本聚类视角对搜索结果进行处理,本文不仅仅关注如何通过文本聚类获得好的用户体验,更将发展的前提置于当前信息的急速发展,电子商务已经普及到人们的视野中。本文在介绍了当前搜索引擎聚类的不足和文本聚类算法之后,为了更好的满足用户个性化服务,提出KM-BKW聚类算法,并构建原型系统模型,跟踪用户浏览行为,分析用户感兴趣信息,再通过聚类算法返回到搜索引擎界面,使用户获得了一次全新的体验。文章的主要研究内容如下:第一部分通过查阅大量文献,对搜索引擎聚类的起源、发展进行介绍,并对搜索引擎聚类进行分类,对目前搜索引擎聚类的不足之处进行归纳总结、说明。第二部分对文本聚类理论知识进行了详细的介绍。第叁部分介绍了搜索引擎信息处理方式。第四部分总结互联网下搜索引擎应用特点分析,创新性提出KM-BKW聚类算法技术。第五部分构建了一个基于KM-BKW聚类算法的原型模型系统,应用KM-BKW算法处理数据,关注用户的个性化服务,得到精确的实验结果。第六部分对全文回顾,发现不足及展望未来搜索引擎结果聚类的发展趋势。(本文来源于《武汉工程大学》期刊2014-05-10)

徐树振[9](2014)在《聚类反馈式电网资源分布搜索引擎研究与实现》一文中研究指出为应对当前企业信息规模的爆炸式膨胀和信息资源共享的普遍需求,企业级搜索引擎兴起了。同互联网搜索有很大不同,企业级搜索是为组织业务决策和运转而服务的,因而需要保证信息的查全率和查准率。企业级搜索要应对的难题有:第一:对于企业TB级的数据,现有的集中式搜索引擎服务器难以满足索引的存储管理,需要多台服务器分布式存储索引;在多索引和检索任务并发执行的情况下,搜索引擎的性能急剧下降,须采用多台服务器分担任务保证工作效率。第二:占企业信息资源总量80%以上的非结构化数据的数据量日趋增大,非结构化数据种类多且包含关系企业发展的重要信息,解决非结构化数据的检索对企业至关重要。第叁:搜索领域准确性的要求越来越高,多数搜索引擎返回记录众多且不按主题分类显示,用户很难在线性排列的结果集中快捷、准确地发现信息。搜索结果聚类可以从一定程度上帮助用户定位信息。电网公司的信息化建设水平不断提升,急需一个电网资源搜索引擎满足人员查找数据信息。根据以上分析,借助分布式计算技术的优势,结合搜索引擎相关技术,设计并实现了一个能够有效处理海量数据,支持高并发任务且快速响应的电网资源分布式搜索引擎。另外,通过文本信息抽取和文本聚类技术,对检索结果集聚类展示,聚类反馈模式便于用户快速、准确定位文档。本文主要工作内容有:(1)基于电网专业词库,借助IKAnalyzer实现搜索引擎中文分词,结合全文检索技术和分布式计算,对搜索引擎的索引和检索子系统分别建模分析。(2)对K-means文本聚类算法在初始簇心选择和K值确定方面进行了优化。基于最远距离选择初始簇心;根据K的可能取值进行聚类,评价聚类结果聚类均值的总方差并在可能取值集中确定K。测试后证明改进的算法在实现文本集自适应聚类的同时聚类效果良好。(3)从整体上架构电网资源库搜索引擎,并对搜索引擎中的重要模块给出设计方案。借助Solr基于ZooKeeper分布式部署SolrCloud,实现分布式搜索引擎的细节。负载均衡策略和每个分布式有效节点协同合作。搜索引擎服务器采用分布式索引及搜索的策略,实现了海量数据的并行索引,并且支持大数量用户并发执行搜索任务。(4)完成搜索引擎的分布式部署,对索引和检索性能进行测试,并通过搜索实例展示搜索引擎的检索功能和结果集聚类反馈功能。(本文来源于《昆明理工大学》期刊2014-04-01)

玉兆辉[10](2014)在《基于MapReduce的分布式聚类搜索引擎设计与实现》一文中研究指出近几年来,互联网技术飞速发展,社交格局发生新变化,人们更多的依赖网络来表达自己的观点看法。这使得网络中的信息数量海量的增长,人们也越来越多的依赖网络来获取资料,而当前的集中式搜索引擎集在处理海量数据时效率低下,并且由于网络数据量的不断增大,搜索结果数量众多又呈线状罗列,有很多与用户无关的信息充斥在其中,加上现有搜索引擎有在获取不动态网页信息时的不足,使得用户不能在很短时间内定位到所要查询的信息。因此,能够使用户快速、准确、全面地获取到所要检索的信息对用户来说已是十分迫切的需求。为了解决用户在一般搜索引擎上无法迅速定位所需的信息,以及集中式的搜索引擎在处理大数据集时效率低的问题。本文综合研究了搜索引擎,数据挖掘以及Hadoop分布式集群的相关内容,主要完成以下工作:1.设计并实现了一种基于分布式集群基础上的聚类搜索引擎,包括信息采集、信息预处理,对信息聚类处理和相应用户的检索需求展示检索结果。2.针对无法爬取全面信息的问题,本文基于元搜索引擎Nutch和脚本解释引擎Rhino,提出并设计了一种动静结合的网络爬取策略,可以在信息采集阶段全面的获取网络动态和静态网页信息。3.本文在聚类模块中对于Canopy-Kmeans聚类算法以及Canopy-Kmeans基于最大最小原则的改进算法由串行运行实现了Map Reduce的并行运行的模式,进而对检索结果进行聚类,同时也实现了Dirichlet和LDA等经典的聚类算法,对不同类型的信息库可选用不同的算法聚类,以达到相对较好的效果。4.在聚类标签生成的过程中,本文设计并实现的是自动产生和自定义结合的方式,使得聚类标签具有很好的可读性和合理性。5.在用户检索显示模块,本文用层次化的目录结构来显示搜索结果与聚类之间的关系,使得用户能够更高效更准确的对检索结果进行浏览。(本文来源于《电子科技大学》期刊2014-03-01)

聚类搜索引擎论文开题报告

(1)论文研究背景及目的

此处内容要求:

首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。

写法范例:

日新月异的Internet革命给人们带来了极大便利。随着大数据时代的到来,如何更高效的获取信息越来越成为人们关注的焦点,而搜索引擎正是解决此类问题的有效工具之一。但从目前来看,搜索引擎技术仍有很多不足,虽然有众多的商业搜索引擎供用户选择,很多时候用户还是难以在第一时间找到感兴趣的内容。由于全文搜索引擎之间数据库内容和排序算法上都有很大不同,导致用户得到的结果集也千差万别,为了提高搜索引擎的覆盖率和查全率,元搜索引擎技术孕育而生。传统搜索引擎还存在着另一个不足之处,用户提交关键字进行搜索时,得到的结果集往往十分庞杂,需要用户一一筛选,而在关键字具有多种含义时这种不足尤为明显,在大量具有不同类别含义的结果集面前用户常常会花费很多时间查找有用信息。一种解决方案是对结果集进行聚类处理,当用户提交关键字查询时,返回结果以聚类的形式呈现给用户,从而提高搜索效率。目前,越来越多的元搜索引擎开始引入聚类功能,如开源搜索引擎Carrot2和Vivisimo等。但聚类搜索引擎的技术还没有进入完全成熟的阶段,分类水平、类标签的可读性、对中文语言的支持等方面都存在着一定不足,有待于进一步研究。本文针对元搜索引擎和聚类算法进行了一定的分析和研究,并在此基础之上使用java语言和myEclipse10工具设计实现了一个基于后缀树聚类算法的元搜索引擎,主要工作如下:1.对元搜索引擎的工作原理进行了介绍,阐述了元搜索引擎各个模块的工作方式和实现。2.针对短文本聚类算法的研究,介绍了几种常用的聚类算法,深入比较了这些聚类算法的优缺点,对后缀树聚类算法的原理进行了细致分析。3.针对聚类算法产生的类标签描述性不强的问题,首先对类标签的选取方法进行了研究和改进,使得评分较高的类标签更符合汉语的语言习惯;其次,在后缀树聚类和类融合之后,对具有相同类标签的簇再一次融合,保证标签不具有重复性;最后引入语义规则对所有类的标签进行再一次的筛选,通过筛选的类簇才作为结果进行返回,保证标签的可读性。在实现该搜索引擎的同时,本文对该系统的性能进行了分析,实验结果表明该系统对中文的支持较好,聚类算法所花费的时间和分类能力比较令人满意,类标签的质量有了一定的提升,无意义类标签数量明显减少。下面给出该系统存在的一些问题和应该改进的方向:1.本系统仅对检索信息的标题和摘要进行聚类,并未赋予其权值,在以后的信息采集过程中,除了可以为标题和摘要赋予权值比重外,还可以引入如段首段尾这些信息量强的内容,这样可以进一步增强文本特征,提高聚类效果。2.本系统实现的后缀树聚类算法是完全基于内存处理的,这对于处理结果的总量产生了制约,可以考虑将该聚类算法改进成一种外归并聚类算法,当处理结果超过一定数量级后,按用户需求提供二次聚类或多次聚类。3.目前中文同义词词库较少,未来可以加入中文同义词词典,在聚类中引入语义相似度计算方法,从而对语义上相近的类簇进行合并。

(2)本文研究方法

调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。

观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。

实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。

文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。

实证研究法:依据现有的科学理论和实践的需要提出设计。

定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。

定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。

跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。

功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。

模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。

聚类搜索引擎论文参考文献

[1].韦美峰,王亚民.基于后缀树聚类的主题搜索引擎研究[J].情报理论与实践.2017

[2].陈建华.基于后缀树聚类算法的元搜索引擎的设计与实现[D].吉林大学.2017

[3].白亮,于天元,刘湜,老松杨,杨征.基于改进谱聚类方法的搜索引擎排序算法[J].计算机科学.2016

[4].于童.文本聚类在搜索引擎中的应用研究[J].科技经济市场.2016

[5].刘典型,刘完芳,钟钢.基于概念聚类的Web数据挖掘搜索引擎的设计与实现[J].软件工程师.2015

[6].李力.面向大数据的云搜索引擎设计及并行K均值聚类算法研究[D].重庆大学.2015

[7].袁峰.基于模糊聚类算法及推荐技术的搜索引擎结果排序研究[J].硅谷.2014

[8].王佳乐.面向搜索引擎的文本聚类研究[D].武汉工程大学.2014

[9].徐树振.聚类反馈式电网资源分布搜索引擎研究与实现[D].昆明理工大学.2014

[10].玉兆辉.基于MapReduce的分布式聚类搜索引擎设计与实现[D].电子科技大学.2014

标签:;  ;  ;  

聚类搜索引擎论文-韦美峰,王亚民
下载Doc文档

猜你喜欢