自适应主题爬虫论文-肖新凤,余伟,李石君,陈亚辉,刘倍雄

自适应主题爬虫论文-肖新凤,余伟,李石君,陈亚辉,刘倍雄

导读:本文包含了自适应主题爬虫论文开题报告文献综述及选题提纲参考文献,主要关键词:主题爬虫,动态自适应,URL图结构

自适应主题爬虫论文文献综述

肖新凤,余伟,李石君,陈亚辉,刘倍雄[1](2019)在《可动态自适应主题爬虫的研究》一文中研究指出针对传统的主题爬虫在面对动态变化的互联网时存在着主题知识涵盖不全、领域知识更新以及主题资源中心转移等问题。论文提出了一种可动态自适应互联网信息的主题爬虫。其中,可动态选择种子URL的TopicHub算法,相比于传统的静态种子URL的主题爬虫,抓取效率提升了7%以上,查全率提升了5%以上。另外,针对于静态本体库所存在的主题信息涵盖不全、领域知识变化更新等问题,提出了一种可动态扩充领域语义信息的结合静态本体库和动态语义的主题算法简称为SDTP算法。相比于传统的基于静态本体库的算法查准率提升了13%,相比于基于向量空间模型VSM的算法提升了4%。(本文来源于《计算机与数字工程》期刊2019年05期)

荆文鹏,王育坚,董伟伟[2](2016)在《自适应遗传算法在主题爬虫搜索策略中的应用研究》一文中研究指出如何提高爬虫覆盖率和准确率是主题爬虫的研究热点之一。目前大多采用最佳优先搜索策略,针对该类主题爬虫易陷入局部最优的不足,设计结合遗传算法的主题爬虫搜索策略,并设计动态适应度函数和遗传算子使得爬虫具有一定的自适应性。与其他搜索策略以及结合非自适应遗传算法的搜索策略进行了比较,结果表明该算法能够在一定程度上提高爬虫性能。(本文来源于《计算机科学》期刊2016年08期)

朱庆生,徐宁,周瑜[3](2015)在《一种基于链接和内容分析的自适应主题爬虫算法》一文中研究指出主题网络爬虫是主题搜索引擎中的一种关键技术,针对OTIE算法参数考虑不全的问题,提出结合链接和网页内容分析的自适应算法,通过结合网页链接重要性和内容相关性得分得到主题网页下载优先级的综合评分,同时考虑在爬取主题网页中的隧道穿越问题。从ODP中选择主题和种子网页,将本算法与Best-First算法、Shark-Search算法和OTIE算法进行比较。实验结果表明,本算法不仅具有明显较好的查全率,而且具有很好的查准率。(本文来源于《计算机与现代化》期刊2015年09期)

王斐[4](2005)在《基于增量反馈和自适应机制的主题爬虫系统的设计与实现》一文中研究指出近年来,随着互联网信息的快速几何增长,如何及时准确地从互联网上获取有用信息显得十分重要。主题爬虫是一种基于主题的信息采集系统,可以从互联网上采集到与主题相关的有用信息,在主题搜索引擎、站点结构分析等方面取得越来越广泛的应用。 本论文进行了基于主题的爬虫系统的设计与实现,其主要的研究工作和特点包括: ① 研究了主题爬虫系统的基本理论和基本结构,深入分析和探讨了与主题爬虫相关的技术,并设计和初步实现了一个基于增量反馈和自适应机制的主题爬虫系统——HJSpider。 ② 在页面与主题相关性判定中,引入了文本分类的思想,应用了在自然语言处理中比较成熟的基于向量空间模型的主题相似度计算方法。 ③ 在URL与主题的相关性判定中,综合运用了网页文本内容和Web结构图的启发策略,并在经典的HITS算法基础上提出了引入增量反馈和自适应机制的新的算法。 ④ 总结了主题页面在Web上的分布规律,给出了主题选择的方法以及对主题页面中基于HTML语法的分析方法。(本文来源于《南京理工大学》期刊2005-06-01)

自适应主题爬虫论文开题报告

(1)论文研究背景及目的

此处内容要求:

首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。

写法范例:

如何提高爬虫覆盖率和准确率是主题爬虫的研究热点之一。目前大多采用最佳优先搜索策略,针对该类主题爬虫易陷入局部最优的不足,设计结合遗传算法的主题爬虫搜索策略,并设计动态适应度函数和遗传算子使得爬虫具有一定的自适应性。与其他搜索策略以及结合非自适应遗传算法的搜索策略进行了比较,结果表明该算法能够在一定程度上提高爬虫性能。

(2)本文研究方法

调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。

观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。

实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。

文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。

实证研究法:依据现有的科学理论和实践的需要提出设计。

定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。

定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。

跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。

功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。

模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。

自适应主题爬虫论文参考文献

[1].肖新凤,余伟,李石君,陈亚辉,刘倍雄.可动态自适应主题爬虫的研究[J].计算机与数字工程.2019

[2].荆文鹏,王育坚,董伟伟.自适应遗传算法在主题爬虫搜索策略中的应用研究[J].计算机科学.2016

[3].朱庆生,徐宁,周瑜.一种基于链接和内容分析的自适应主题爬虫算法[J].计算机与现代化.2015

[4].王斐.基于增量反馈和自适应机制的主题爬虫系统的设计与实现[D].南京理工大学.2005

标签:;  ;  ;  

自适应主题爬虫论文-肖新凤,余伟,李石君,陈亚辉,刘倍雄
下载Doc文档

猜你喜欢