主题搜索算法论文-吕鑫

主题搜索算法论文-吕鑫

导读:本文包含了主题搜索算法论文开题报告文献综述及选题提纲参考文献,主要关键词:主题爬虫,爬取策略,Shark-Search算法,PageRank算法

主题搜索算法论文文献综述

吕鑫[1](2018)在《主题搜索及其关键算法的研究》一文中研究指出在现代互联网技术飞速发展的时代,互联网上的各类资源呈现出爆炸式增长,在海量的网络信息中,如何快速、准确的找出用户所需求的信息也日渐困难。通用搜索引擎虽然被广泛使用,但是却难以满足特殊用户想要精准获取所需信息的需求,因此当用户想要获取所需信息时,需要用到垂直搜索引擎。主题网络爬虫爬取策略作为垂直搜索引擎的核心,在页面检索时能够做到只爬取与主题相关性高的页面。但现有的传统主题爬虫的算法也有缺点,如容易产生主题漂移现象,对全局性考虑欠缺等。本文的研究是基于为某研究所开发军事信息检索系统,重点对主题爬虫搜索策略展开研究,针对军事类相关页面,结合不同算法的优缺点对PageRank算法进行改进,以使改进后的算法在爬取页面时展现更好的性能。本文的主要研究内容如下:首先,对网络爬虫中相关理论和技术进行研究。主要分析了通用爬虫与主题爬虫系统的架构与两者之间的区别。再对主题爬虫实现中用到的相关技术进行分析,主要对页面处理,相关度计算等进行分析。然后,针对军事类主题页面的抓取,对PageRank算法进行分析。发现PageRank算法在指导爬虫抓取页面时,容易出现对新网页忽视的问题与发生主题漂移现象,对于军事类注重时效的主题页面,此缺陷更加明显。因此本文针对PageRank算法对新页面出现忽视问题提出改进策略:在对军事类主题页面进行抓取时,将此算法中引入时间因素,通过对时间的处理,使原算法在计算PageRank值时降低旧页面的计算值,消除此算法在新旧页面计算中的缺陷。针对PageRank算法容易产生主题漂移现象提出的改进策略:利用Shark-Search算法在指导爬虫抓取时对页面相关度的考量,将引入时间因素的PageRank算法与Shark-Search算法相结合,使得结合后的算法在页面抓取时与主题相关,以此来消除主题漂移现象。最后,通过实验对改进后的新算法的有效性进行评价。对算法的评价利用了查准率和查全率,互联网中存在与主题相关的所有页面总数很难得到,且在计算中应为恒定值,因此本文利用对比叁种算法对爬取到与主题相关的网页数来代替查全率。通过实验验证,改进后的新算法在军事类主题相关页面的查准率和查全率上都表现出较好的性能。并将算法应用于信息检索系统中,在索引方面与百度索引相比,展现出信息检索系统对索引内容的主题相关性。(本文来源于《西安电子科技大学》期刊2018-06-01)

冷齐[2](2018)在《基于Shark优化算法的主题搜索引擎研究》一文中研究指出由于高新技术不断推动着产业种类与结构向专业化和精细化发展,那么如何高效获取专业实用信息成为了人们普遍关注的问题之一。因传统搜索引擎的检索精度不断下降,于是掀起了研究基于主题的搜索引擎的热潮。本文以搜索引擎相关理论基础为铺垫,简明介绍了搜索引擎的特点、基本架构、关键技术以及主题网络爬虫的原理、结构及工作原理等,接着详细分析了常见的叁种主题爬行算法与比较了Page Rank与HITS两种基于链接结构的网页排序算法,针对使用单一的评估方法无法达到有效预测链接地址实际价值的目的,提出了基于内容评估与Web链接结构组合的搜索策略方案,并基于主题搜索引擎基本思路提出了一种新的主题爬行模型和设计了一种新的多线程协作式主题爬行器。在讨论与设计了搜索引擎基本方案与爬虫系统之后,针对shark算法存在的不足,如无关网页后面连接着相关网页链接、优先度区别过小及URL队列过长,提出了优化改进思路,同时也设计与实现了shark算法,最后根据网页内容链接相关性计算,描述了多媒体主题的网页搜索算法实现步骤与通过仿真实验比较了传统Fish、shark Search算法与优化的shark算法。与通用搜索引擎相比,主题搜索引擎像是一种变体,它在其基本结构与技术上优化了通用搜索引擎的一些功能。为了专业用户更高效更准确地获取所需要的专业领域信息,特针对主题搜索引擎设计了网络爬行器,其爬行网页的基本思想是:针对既定主题搜索网页并过滤与主题无关的网页,留下主题相关网页。Shark-Search算法是一种十分有代表性的主题搜索引擎算法,根据多媒体素材在网页中分布特点,Shark-Search算法主要从叁个方面:搜索广度、链接相似性判断与要抓取链接选择策略上做了进一步优化,而且采用“先搜索、后判断”的查询方案,大大提升了多媒体网页主题搜索的效率。(本文来源于《西北师范大学》期刊2018-05-01)

高庆芳[3](2017)在《主题搜索引擎搜索策略的研究及算法设计》一文中研究指出当前互联网应用中网站的搜索正变得越来越普及,一个网站要想做大做强,其内容必定要丰富,用户想要找到的内容,不管是最新的还是以前的(比如一段时间以前就见过的新闻报道,因为不再是最新的内容而没有出现在首页上),我们都可以借助搜索引擎来查找它。通过搜索引擎,用户可以享受快速获得资源的服务,几乎足不出户,搜索引擎就可以使人们更有效的从互联网络获取各种信息了,所以一个搜索引擎的好坏直接决定了人们的互联网生活。本文通过分析了主流搜索策略及算法,对搜索引擎的分类、技术架构及原理结构进行了深度的剖析,同时研究了基于主题爬虫系统的设计和模型的建立,在现有的技术支持上融入了机器学习算法,具体的讨论了文档的特征选择算法思想,并阐述了目前主流的TF-IDF改进算法,以Python 2.7为开发平台,设计实现了基于Context Graph的主题爬虫系统。最终以国内各大汽车网站为例,将“汽车”设为主题词进行分类爬取,以查全率、查准率、F1值来评价所涉及的系统性能的好坏。通过实验结果,说明本文设计的算法在文档的主题词分类及网页爬取的效率上具有较好的性能。(本文来源于《兰州大学》期刊2017-05-01)

乔建忠[4](2013)在《一种基于改进BFS算法的主题搜索技术研究》一文中研究指出通过对Web主题爬行器在预测链接优先级时所用到的特征因子的细化和重新分类,引入收割率和媒体类型两个新特征作为相关性判断依据,提出一种改进的最好优先搜索算法。该算法采用"细粒度"策略过滤不相关网页,选取多个角度有代表性的特征因子构造链接优先级计算公式,以达到全面揭示和预测链接主题的目的。通过与其他叁类主题搜索算法的小规模实验比较,证明改进算法在收割率和平均提交链接数上效果较好。(本文来源于《现代图书情报技术》期刊2013年Z1期)

吴羽萍,杨仁广[5](2013)在《网络多媒体主题搜索算法比较研究》一文中研究指出针对多媒体链接在网页中分布的特点,对PageRank、Shark-Search两种典型的主题搜索算法进行相关参数的改进,采用改进后的两种算法从网页内容和网页网页的角度计算多媒体网页与主题的相似度。实验结果表明,改进的Shark-Search多媒体主题搜索算法比改进后的PageRank搜索算法更能有效地提高多媒体主题搜索的效率,同时也更适合网络多媒体资源的主题搜索。(本文来源于《图书情报工作》期刊2013年07期)

县小平[6](2011)在《主题搜索引擎的PageRank算法研究》一文中研究指出互联网的迅速发展,搜索引擎也引起了更多人的关注,但主题搜索引擎发展还不够成熟,在国内,它的研究正处于发展阶段,发展缓慢、数量少,用户还不满意.本文提出了一种基于主题预分类的PageRank算法,与传统PageRank算法比较,经验证,该方法在一定的主题下可以提高系统的查准率.(本文来源于《甘肃高师学报》期刊2011年05期)

李群[7](2011)在《主题搜索引擎聚类算法的研究》一文中研究指出当互联网走入我们的生活并逐渐改变这个世界的时候,搜索引擎,作为信息检索最有效的工具也逐渐被我们熟悉和使用。互联网给我们带来了信息共享的一次巨大革命,搜索引擎给这场革命注入了鲜活的血液。面对浩如烟海的网络资源,搜索引擎就好像是航船的指南针,引领着人们在网络中冲浪。根据最近统计,在中国搜索引擎使用率达到81.9%,用户规模3.75亿。搜索引擎已经成为第一大网络应用服务,是用户获取信息的首要途径。本文首先介绍了国内外搜索引擎技术的发展及研究现状,总结了目前常用的全文检索搜索引擎的基本工作原理和存在的问题,接着详细讨论了文本聚类的原理以及几种常有聚类算法和改进方向。本文通过大量实验,提出了词频变差的理论,并将该理论应用于主题词的提取。通过对聚类算法的研究,提出了最优密度选择聚类算法。并将此算法和层次聚类算法结合在一起进行文本聚类,优化了文本聚类技术,提升了搜索引擎查询性能。在此基础上实现了面向主题的文本聚类算法的搜索引擎。该搜索引擎与同类搜索引擎相比,更具有专业化特点,查询信息的准确度也有所提升。(本文来源于《北京林业大学》期刊2011-04-01)

杨仁广,宋宇,孟祥增[8](2010)在《一种改进Shark-Search的多媒体主题搜索算法》一文中研究指出针对包含多媒体的网页链接特点,对Shark-Search主题搜索算法在搜索宽度、链接相似性判断以及待爬行链接选取策略上进行改进,采取"先搜索、后判断"的搜索过程。实验结果表明,改进的Shark-Search算法能够大大提高多媒体主题网页搜索的效率。(本文来源于《计算机工程与应用》期刊2010年14期)

王学贺[9](2009)在《智能主题搜索算法研究》一文中研究指出分析了4种智能主题搜索算法,对基本遗传算法进行了改进,并将改进的遗传算法应用到主题搜索中,通过改进遗传算子来提高搜索的主题相关度和爬行的准确率.(本文来源于《江汉大学学报(自然科学版)》期刊2009年02期)

杨仁广[10](2009)在《网络多媒体教育资源主题搜索算法研究》一文中研究指出网络多媒体教育资源是指存在于Internet中的多媒体教学资源。随着网络与多媒体技术的发展,Web中的多媒体教学资源,尤其是音频、视频和动画,也日益丰富,成为教育领域的重要组成部分。如何快速、准确地找到特定主题的多媒体教学资源,使其在信息化教育中充分发挥作用,是教育技术工作者亟待解决的问题,也使得传统的搜索引擎面临着巨大的挑战,各类多媒体搜索引擎也随之应运而生并受到广泛的关注。主题搜索器的搜索算法,是搜索引擎的核心,它决定了搜索引擎的搜索效率和质量。本文从主题网页和包含多媒体的网页在Web中分布的特点出发,围绕提高多媒体主题搜索效率的问题,提出一种基于URL链接规则的多媒体主题搜索算法。本文首先介绍了在HTML文档中,与多媒体资源有关的文本信息和HTML标签,深入分析了主题页面和包含多媒体资源的网页在Web上的分布特征。在分析和比较现有的主题搜索算法的优缺点的基础上,归纳了提高搜索效率的几个关键因素。本文对主题搜索领域中传统的主题搜索算法进行了详细的分析,在深入分析主题页面在Web上的分布特征与主题相关性判别算法的基础上,对PageRank、Shark-Search两种典型的主题搜索算法进行相关参数的改进,同时将网页内容相似度和网页链接相似度加入到算法的计算过程中,并将改进后的Topic-PageRank算法、Shark-Search算法应用于多媒体主题搜索领域。针对传统的主题搜索算法不能简单的应用于多媒体主题搜索领域的问题,本文基于包含多媒体的网页往往呈现出“资源相邻性”的特点,提出了一种基于URL链接规则的多媒体主题搜索算法,即从种子网站列表中自动学习出代表“多媒体资源区域”的URL正则表达式,并用这些正则表达式来指导主题搜索器对网页的抓取。在详细介绍URL数据结构、URL距离的度量以及URL正则表达式的学习和指导过程的基础上,对PageRank算法进行改进,实现基于URL链接规则算法在链接方面的相似度计算。为了验证基于URL链接规则多媒体主题搜索算法的高效性,本文采用统一的系统体系结构和软、硬件平台,对Topic-PageRank算法、改进的Shark-Search算法和基于URL链接规则的算法输入相同的种子页面集、限定同一搜索深度进行实验测试。文章从查全率和查准率两个角度,对叁种算法进行比较。实验结果表明本文的工作是相当有效的,尤其是提出的基于URL链接规则的多媒体主题搜索算法,具有相当的创新性和实际应用价值。(本文来源于《山东师范大学》期刊2009-04-10)

主题搜索算法论文开题报告

(1)论文研究背景及目的

此处内容要求:

首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。

写法范例:

由于高新技术不断推动着产业种类与结构向专业化和精细化发展,那么如何高效获取专业实用信息成为了人们普遍关注的问题之一。因传统搜索引擎的检索精度不断下降,于是掀起了研究基于主题的搜索引擎的热潮。本文以搜索引擎相关理论基础为铺垫,简明介绍了搜索引擎的特点、基本架构、关键技术以及主题网络爬虫的原理、结构及工作原理等,接着详细分析了常见的叁种主题爬行算法与比较了Page Rank与HITS两种基于链接结构的网页排序算法,针对使用单一的评估方法无法达到有效预测链接地址实际价值的目的,提出了基于内容评估与Web链接结构组合的搜索策略方案,并基于主题搜索引擎基本思路提出了一种新的主题爬行模型和设计了一种新的多线程协作式主题爬行器。在讨论与设计了搜索引擎基本方案与爬虫系统之后,针对shark算法存在的不足,如无关网页后面连接着相关网页链接、优先度区别过小及URL队列过长,提出了优化改进思路,同时也设计与实现了shark算法,最后根据网页内容链接相关性计算,描述了多媒体主题的网页搜索算法实现步骤与通过仿真实验比较了传统Fish、shark Search算法与优化的shark算法。与通用搜索引擎相比,主题搜索引擎像是一种变体,它在其基本结构与技术上优化了通用搜索引擎的一些功能。为了专业用户更高效更准确地获取所需要的专业领域信息,特针对主题搜索引擎设计了网络爬行器,其爬行网页的基本思想是:针对既定主题搜索网页并过滤与主题无关的网页,留下主题相关网页。Shark-Search算法是一种十分有代表性的主题搜索引擎算法,根据多媒体素材在网页中分布特点,Shark-Search算法主要从叁个方面:搜索广度、链接相似性判断与要抓取链接选择策略上做了进一步优化,而且采用“先搜索、后判断”的查询方案,大大提升了多媒体网页主题搜索的效率。

(2)本文研究方法

调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。

观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。

实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。

文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。

实证研究法:依据现有的科学理论和实践的需要提出设计。

定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。

定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。

跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。

功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。

模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。

主题搜索算法论文参考文献

[1].吕鑫.主题搜索及其关键算法的研究[D].西安电子科技大学.2018

[2].冷齐.基于Shark优化算法的主题搜索引擎研究[D].西北师范大学.2018

[3].高庆芳.主题搜索引擎搜索策略的研究及算法设计[D].兰州大学.2017

[4].乔建忠.一种基于改进BFS算法的主题搜索技术研究[J].现代图书情报技术.2013

[5].吴羽萍,杨仁广.网络多媒体主题搜索算法比较研究[J].图书情报工作.2013

[6].县小平.主题搜索引擎的PageRank算法研究[J].甘肃高师学报.2011

[7].李群.主题搜索引擎聚类算法的研究[D].北京林业大学.2011

[8].杨仁广,宋宇,孟祥增.一种改进Shark-Search的多媒体主题搜索算法[J].计算机工程与应用.2010

[9].王学贺.智能主题搜索算法研究[J].江汉大学学报(自然科学版).2009

[10].杨仁广.网络多媒体教育资源主题搜索算法研究[D].山东师范大学.2009

标签:;  ;  ;  ;  

主题搜索算法论文-吕鑫
下载Doc文档

猜你喜欢