垂直搜索引擎系统论文-卢群乐

垂直搜索引擎系统论文-卢群乐

导读:本文包含了垂直搜索引擎系统论文开题报告文献综述及选题提纲参考文献,主要关键词:垂直搜索引擎,主题爬虫,信息检索,医学领域

垂直搜索引擎系统论文文献综述

卢群乐[1](2015)在《基于Nutch的医学领域垂直搜索引擎系统的研究与实现》一文中研究指出随着近几年互联网的快速发展,人们获取信息的方式越来越多,各种各样的信息充斥在人们的生活中,给人们带来了极大的便利,随之而来的还有面对丰富信息的无所适从。搜索引擎的出现极大地缓解了这一现状,然而,随着互联网上网页数目呈现指数级速度增长,通用搜索引擎在提高搜索效率方面愈发艰难,而垂直搜索引擎凭借其高度的信息集中度和较强的专业领域知识,成为时下研究的热点。因此,各领域内垂直搜索引擎平台相继出现,但在与人们生活健康息息相关的医疗卫生领域却依然没有一个较好的搜索平台,人们对于各种疾病的预防和治疗信息大多只能通过医生了解,信息渠道单一,而且由于地理环境、经济发展等因素限制,优势医疗资源发展不均衡。若能实现一个医疗领域的垂直搜索引擎,人们足不出户就可获取医疗信息,这将有利于缓解我国目前医疗意识和基础设施薄弱的问题。本文基于Nutch开源搜索框架,针对垂直搜索引擎中的主题爬虫模块和信息检索模块进行分析和设计,并最终实现医学领域的垂直搜索引擎。在该垂直搜索引擎的搭建中,主题爬虫模块的构建一直是当下研究的热点,本文通过对主题爬虫爬行策略中的Fish-Search算法进行分析试验,依据网页链接和网页内容对网页进行综合相关度评价,采用弹性阈值机制,在限制“隧道现象”的基础上对医学领域相关的网页进行爬取、下载。在抓取该医学领域的网页后,利用网页解析工具和网页分块技术对网页进行解析,并将解析后的网页文本内容进行中文分词,构建倒排索引结构的倒排表。针对信息检索中网页的排序问题,本文通过对Lucene搜索结果评分机制的分析与研究,对Page Rank算法在权值传递过程中的平均分配问题加以优化,并添加时间反馈因子,减少旧网页的天然优越性,并将优化后的Page Rank算法与Lucene中的向量空间模型结合,在抑制“主题漂移”现象的基础上提高网页的主题相关性和权威性,最后将经过排序处理后的结果网页返回给用户,实现医学领域垂直搜索引擎的整个流程。通过对垂直搜索引擎系统的设计与实现,用户可以以快捷高效的方式获得较为权威的医学领域信息,对个人的健康与卫生等行为有着积极的促进作用,同时为人们带来更为合理健康的生活方式。(本文来源于《东华理工大学》期刊2015-06-19)

徐婕[2](2015)在《垂直搜索引擎系统研究与实现》一文中研究指出搜索引擎是一种互联网数据信息检索工具,它可以从复杂无序的信息中检索出用户需要的有用信息,将杂乱的信息变得有序、清晰。但由于网络上有着大量信息,搜索到的信息难免不够全面与精准,可能存在过多垃圾信息。为了很好地解决以上问题,一种新型的搜索服务模式——垂直搜索引擎系统应运而生。该系统可为用户提供最专业、及时的信息,并加强了搜索结果的精准性和全面性。(本文来源于《软件导刊》期刊2015年05期)

宋献民[3](2015)在《垂直搜索引擎系统的研究与设计》一文中研究指出随着互联网走进千家万户,网络上的信息量也呈现出了前所未有的快速增长,通用搜索引擎在采集信息资源、存储索引海量网页等方面的挑战越来越大。同时,特定行业内的科研和从业人员,希望从互联网上得到更专业、更深入和更有价值的信息,不同的年龄段的人群对网上的信息也有着特定需求,有需求的地方就有市场,服务这些专门搜索需求的搜索引擎,即垂直搜索引擎近年来快速发展,成为了搜索引擎领域研究的热门方向。它提供某一个领域的专门的信息检索服务,更好地满足了专业用户的专业化和精细化信息查询需求。本文首先概述了垂直搜索引擎的总体设计,描述了垂直搜索引擎要实现的目标并介绍了垂直搜索引擎的工作原理,垂直搜索引擎的总体模块有网页信息的收集、网页信息的索引,网页信息排序和检索,其中垂直搜索引擎相比通用搜索引擎,重点在于网页信息收集时只收集主题相关的网页,这就要求垂直搜索引擎的爬行器按照一定的收集策略收集网页。传统的收集策略有两种,即基于网页内容分析的搜索策略和基于链接结构分析的搜索策略,它们都是单一的搜索策略,存在着一定的不足。本文提出了一个综合网页内容分析和链接结构分析的搜索策略。其中网页内容分析搜索策略有Fish-Search算法和Shark-Search算法,链接结构分析算法有PageRank算法和HITS算法,本文对这四大类算法分别进行了一一介绍,在此基础上,先提出改进PageRank算法,进而提出了综合的改进算法,期望能指导爬虫收集更多更好的主题相关的网页。为了测试改进后的算法是否有效,本文设计实现了一个网络爬虫软件:VSE—Spider,此系统多线程分布式地抓取互联网上和设定的主题相关的网页,系统的爬虫程序分别采用传统的网页搜索算法和本文提出的改进后的综合网页搜索算法,对VSE-Spider各组实验结果进行对比分析。结果表明,本文提出的改进后的综合搜索策略在收集主题相关网页时有着更好的表现。(本文来源于《长春工业大学》期刊2015-04-01)

桂佳[4](2014)在《招聘信息垂直搜索引擎系统设计与实现》一文中研究指出在信息技术高速发展的今天,web网站数目呈爆炸式的增长趋势,互联网世界已经进入了大数据时代。当今通用搜索引擎发展已经十分成熟,人们对专业领域的搜索需求越来越迫切,垂直搜索引擎应运而生。虽然已有部分成功的垂直搜索引擎典范,但垂直搜索的主题爬虫技术仍然不成熟,需要更好的算法来提高搜索结果的精确度。本文首先全面分析了垂直搜索引擎各模块的应用的相关技术,然后在深入了解和分析已有的垂直搜索算法的基础上提出一种基于混合模型的主题相关度预测改进算法。该算法综合运用主题相关度预测因子、潜在主题相关度因子及页面质量分析因子对URL进行主题相关度预测及排序,使主题爬虫可优先爬取主题相关页面,从而提高主题爬虫的工作效率。商用搜索引擎排序算法不开源,页面排序受多种因素制约,包括带有商业性质的竞价排名。Nutch框架是一个开源的通用网络爬虫框架,提供基本的网页爬取功能并可以利用其插件机制对其进行扩展和定制。Solr是一款基于Lucene的开源索引服务器,可以提供良好的构建索引的功能。这两种框架内部算法公开透明,旨在打破当今搜索引擎市场基本被几家大公司垄断的局面,提供优质的搜索结果。本文基于Nutch和Solr框架设计并实现了一个招聘信息垂直搜索引擎系统,提供招聘信息专业领域的搜索结果。该系统通过新增页面评分插件修改了Nutch的主题爬虫中页面评分算法,运用基于混合模型的主题相关度预测算法对待爬取URL进行排序,为Solr配置IKAnalyzer分词器用以对网页文档进行预处理,前端使用Struts2框架与用户进行交互。(本文来源于《华中科技大学》期刊2014-01-01)

王聪睿,张翠肖[5](2013)在《一种基于本体的垂直搜索引擎系统模型》一文中研究指出为了弥补互联网信息爆炸带来的搜索引擎用户满意度低的问题,提出了一种基于本体的垂直搜索引擎模型。该模型构建一个本体知识树,利用增加了属性提取和相似度算法的NWeb-Crawler对网页进行抓取,并将非相关信息进行隔离;然后,进行网页源代码格式信息和语义信息两方面的抽取;抽取的数据信息通过分词后建立二维索引表,用户的请求通过本体知识树扩展概念集和二维索引表进行检索。该系统模型从入口网页到出口数据逐步贴近检索需求,具有良好的扩展性,对垂直搜索引擎的研究有一定的参考借鉴作用。(本文来源于《河北省科学院学报》期刊2013年02期)

王恒,王少山,高玉琢[6](2013)在《面向主题的域内垂直搜索引擎系统的研究与实现》一文中研究指出根据校园舆情和信息安全管理的需要,结合垂直搜索的特点,提出了一种面向主题的域内垂直搜索引擎模型.给出了模型在信息采集、分词处理、主题识别、网页索引、检索处理5个功能模块的实现过程,并对模型涉及的中文分词方法、隐形关键词组的扩展运算、检索正态化因子的调整等关键技术进行了讨论.建成的搜索引擎能够很好地满足用户主题检索服务的需要.(本文来源于《宁夏大学学报(自然科学版)》期刊2013年01期)

姚争儿,李志奎[7](2013)在《基于移动终端的学习资源垂直搜索引擎系统研究》一文中研究指出根据互联网免费学习资源的特点,基于Heritrix和Lucene技术,设计一种基于移动终端的计算机类学习资源垂直搜索引擎系统。系统使用PageRank算法优化网页结果排序,在当前垂直搜索引擎的框架上加入移动模块,对网络蜘蛛抓取的HTML网页进行集中翻译,使其成为手机可以识别的WML格式。(本文来源于《现代计算机(专业版)》期刊2013年02期)

龙俊浩[8](2012)在《基于Lucene数码产品垂直搜索引擎系统设计与实现》一文中研究指出随着互联网上信息日新月异的爆炸式增长,如何获取更加准确、更加详细、更加深层的专业资源,成为对搜索引擎技术提出更高的要求。因此,面向专业主题的垂直搜索引擎系统应运而生;与此同时,数码产品为丰富人们的生活注入新的血液,而网上团购数码产品也成了当下流行的消费方式。在如此大市场与技术结合的研究背景下,运用了多个垂直搜索相关的技术相结合,将国内互联网上知名的数码产品网站中的数码产品信息内容作为采集资源对象,在开源的全文检索工具软件包Lucene的平台上,研究和实现了对数码产品信息具有专业化搜索功能的搜索引擎。本文除了详细介绍了垂直搜索引擎的工作原理、以及Lucene核心平台技术外,还介绍了包括了3个构造搜索引擎系统息息相关的关键技术应用:包括聚焦爬虫的工作原理以及Heritrix爬虫技术,在传统爬行策略分析下提出基于爬虫挑食爬行策略进行分析应用,在该策略中引入了几个权重参数如链接的欢迎度、重要度和最短路径查找实现算法;介绍了Web网页信息提取方法步骤,以及常见的方法分类,最后提出基于数码产品设计规则提取方法的分析,研究中针对主题大型网站5个设计规则结构进行分析,并针对这几个设计规则提出内容抽取综合方案;最后通过实验结果分析改进方法的有效性。实现了系统的功能结构图设计、各模块功能设计、用例流程图设计、数据库设计以及类图关系设计编码等。研究实践表明,本文设计实现的数码产品垂直搜索引擎的方案是切实可行的,系统基本能达到了预想的设计理念与目标。(本文来源于《华南理工大学》期刊2012-12-01)

方勇[9](2012)在《分布式智能垂直搜索引擎系统的设计》一文中研究指出本系统旨在开发一个网络环境下的分布式智能垂直搜索引擎系统,其所处理的原始对象以网页为主,它们分散在整个网络图的不同节点上,为提高平台的智能化、自动化,必须把平台作为一个整体进行开发,实现数据的自动采集(网络爬虫)、数据的信息抽取问题(网页解析),数据的高效加工(索引、存储、聚类),数据的有效利用(检索、聚类),最终形成一个统一的系统,实现并完善为解决这些问题所需要的基础环境(分布式存储与并行计算)。(本文来源于《价值工程》期刊2012年13期)

缪丹[10](2012)在《面向商品比价应用的垂直搜索引擎系统设计与实现》一文中研究指出爆炸式增长的信息和不断发展的互联网技术,使得WEB的信息量急剧增长,格式以及内容不断翻新。通用搜索引擎从海量的信息中准确快速地搜索出特定的内容已经十分困难,如何从网络中的海量信息里快速而有效地查询到所需有价值的信息已成为人们关注的重点。垂直搜索引擎具有“专、精、深”的特点,可通过面向某一特定的领域、人群或需求仅搜索网络中的特定主题信息,并且聚合信息、处理索引,提供有价值的相关服务和信息,从而提高用户检索时的准确率。随着电子商务的发展,在要求电商信誉和商品质量的前提下,使用B2C购物的消费者越来越多。为了挑选便宜实惠的商品,消费者在购物中常常进行价格比较。垂直搜索引擎技术针对某一特定领域、某一特定人群或某一特定需求提供信息和相关服务的特点与商品比价应用的需求很好地契合。本论文实现一款手机比价系统,以高精度搜索为目标,应用垂直搜索的理论与技术予以实现。本文选取了两家知名数码电商为搜索目标,为用户提供手机的比价搜索服务,摒弃相关性较弱的信息。本文在掌握Heritrix主要的工作流程及相关的技术要点的基础上,运用Heritrix工具包编写抓取逻辑实现了抓取网页;运用HTMLParser Libr aries编写逻辑实现了HTML的解析与信息提取;在分析和掌握Lucene主要架构和各个部件,详细研究其中的索引模块和检索模块实现机制和原理的基础上,编程实现了网页内容索引;搭建Spring框架并运用Ajax技术实现了检索和用户接口部分。该比价系统实现了设计中所有需求的功能,满足了用户比价的需求,具有一定的实际应用价值。(本文来源于《西南交通大学》期刊2012-05-01)

垂直搜索引擎系统论文开题报告

(1)论文研究背景及目的

此处内容要求:

首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。

写法范例:

搜索引擎是一种互联网数据信息检索工具,它可以从复杂无序的信息中检索出用户需要的有用信息,将杂乱的信息变得有序、清晰。但由于网络上有着大量信息,搜索到的信息难免不够全面与精准,可能存在过多垃圾信息。为了很好地解决以上问题,一种新型的搜索服务模式——垂直搜索引擎系统应运而生。该系统可为用户提供最专业、及时的信息,并加强了搜索结果的精准性和全面性。

(2)本文研究方法

调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。

观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。

实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。

文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。

实证研究法:依据现有的科学理论和实践的需要提出设计。

定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。

定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。

跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。

功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。

模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。

垂直搜索引擎系统论文参考文献

[1].卢群乐.基于Nutch的医学领域垂直搜索引擎系统的研究与实现[D].东华理工大学.2015

[2].徐婕.垂直搜索引擎系统研究与实现[J].软件导刊.2015

[3].宋献民.垂直搜索引擎系统的研究与设计[D].长春工业大学.2015

[4].桂佳.招聘信息垂直搜索引擎系统设计与实现[D].华中科技大学.2014

[5].王聪睿,张翠肖.一种基于本体的垂直搜索引擎系统模型[J].河北省科学院学报.2013

[6].王恒,王少山,高玉琢.面向主题的域内垂直搜索引擎系统的研究与实现[J].宁夏大学学报(自然科学版).2013

[7].姚争儿,李志奎.基于移动终端的学习资源垂直搜索引擎系统研究[J].现代计算机(专业版).2013

[8].龙俊浩.基于Lucene数码产品垂直搜索引擎系统设计与实现[D].华南理工大学.2012

[9].方勇.分布式智能垂直搜索引擎系统的设计[J].价值工程.2012

[10].缪丹.面向商品比价应用的垂直搜索引擎系统设计与实现[D].西南交通大学.2012

标签:;  ;  ;  ;  

垂直搜索引擎系统论文-卢群乐
下载Doc文档

猜你喜欢