网页爬行论文-栾霞,赵晓楠

网页爬行论文-栾霞,赵晓楠

导读:本文包含了网页爬行论文开题报告文献综述及选题提纲参考文献,主要关键词:维基百科,文本相关性,链接分析,相似度计算

网页爬行论文文献综述

栾霞,赵晓楠[1](2014)在《基于维基百科和网页相似度分析的主题爬行策略》一文中研究指出针对当前常用爬虫爬行策略的不足,提出结合维基百科和网页相似度分析的主题爬行策略。利用维基百科分类树的结构对主题进行描述;下载网页后对网页进行相应处理,结合文本相关性和Web链接分析来计算候选链接的优先级。实验表明,该爬虫搜索结果与主题相关度明显高于传统爬虫,爬虫爬全率有一定提高。该主题爬虫主题描述方法和爬行策略有一定的推广价值,尤其在转基因生物领域中,该爬虫中有一定的创新性。(本文来源于《现代电子技术》期刊2014年20期)

张瑶[2](2012)在《面向AJAX脚本网络的网页爬行及解析技术的研究与实现》一文中研究指出随着Web2.0时代的到来,具有AJAX异步传输特征的动态网站已经逐渐成为互联网中的主流表现形式。该技术虽然实现了与服务器的异步通信,带来了良好的用户体验,但是却改变了基于静态页面的传统Web站点的架构。这导致传统网络爬虫无法获取动态站点中的所有页面信息,隐藏在服务器端的很多数据内容无法被获取并进行进一步的分析与利用,造成了资源的浪费。通过上述现状,本文首先分析了AJAX技术的工作原理与主要特点,以及网页分析的核心技术,构建了动态网页数据获取的模型。在此基础上,提出了一种基于动态脚本分析的网页爬行及解析的方法。该方法首先通过对动态页面结构与内容的解析完成了识别第叁方框架、分类相似站点、确定页面事件标签集合、页面表单的自动填写等工作。利用Watij模拟用户操作并通过内嵌Selenium脚本解析器顺序执行相应脚本程序。采用广度优先的页面爬行策略、XMLHttpRequest对象监听和DOM树结构相似性判断相结合的页面状态判定方式、基于状态转换图的状态转换控制方法实现了动态页面的数据获取。通过路径存储仓库和本地缓存的加入,有效地减少了页面重新加载次数且较好地处理了服务器端的主动数据更新。基于该方法的工作原理和处理流程,本文设计并实现了一个用于获取动态网页数据信息的原型系统。实验表明,本文提出的算法能够有效地对动态网页进行解析并获取其中的数据信息。对算法做出的优化,使得该算法在不影响数据获取准确率的情况下,执行时间大大降低,性能较同类型其他算法有显着提升。本文所实现的动态网页数据获取原型系统AjaxCrawler可以应用于实际网络中的各个大型站点,能够基本满足用户对于动态网页数据信息获取的需求。(本文来源于《东北大学》期刊2012-06-01)

熊忠阳,史艳,张玉芳[3](2011)在《基于维基百科和网页分块的主题爬行策略》一文中研究指出针对传统主题爬行策略的不足和局限性,提出一种基于维基百科(Wikipedia)和网页分块的主题爬行策略,通过Wikipedia的主题分类树和主题描述文档获取主题向量,以此来描述主题;并在下载网页后引入网页分块,过滤噪声链接;在计算候选链接优先级时,引入块相关性,以弥补锚文本信息量有限的缺点;通过改变主题向量空间的大小来验证主题描述的详略对爬行性能的影响。实验结果表明,该策略有效,并且在一定限度内,对主题描述越详细,搜集的网页的相关度就越高。(本文来源于《计算机应用》期刊2011年12期)

维尼拉·木沙江,吐尔洪·吾司曼[4](2010)在《维、哈、柯文搜索引擎中网页爬行器的设计与实现》一文中研究指出搜索引擎网页爬行器的任务是收集网页,而收集能力的好坏直接影响搜索结果。本文提出了维、哈、柯多文种搜索引擎中网页爬行器的结构及其设计方案。(本文来源于《少数民族青年自然语言处理技术研究与进展——第叁届全国少数民族青年自然语言信息处理、第二届全国多语言知识库建设联合学术研讨会论文集》期刊2010-06-27)

关鑫[5](2010)在《网页综合信息与领域本体相结合的主题爬行研究》一文中研究指出主题爬行是在背景知识的指导下,根据一定的网页分析算法过滤主题无关的网页,预测并抓取主题相关的网页。主题爬行对于解决从海量信息中提取需要的信息及在特定领域搜索信息具有重要的意义。本文的主要工作是研究利用本体作为背景知识来指导主题爬行策略,将URL的综合信息与本体结合以求提高主题爬行的效率。在传统爬行框架的基础上,本文对网页内容做了具体的分析,指出网页某些位置的信息对于揭示网页主题具有很重要的意义。算法从网页文档提取出特征向量,并将特征向量加上文档位置权重因子与本体的概念进行匹配从而得到网页主题相关度;利用扩展锚文本来预测超链接的主题相关度。根据计算的网页主题相关度与预测链接的主题相关度结合来设计一个爬行策略,并与现有的基于本体的爬行策略对比。通过实验表明,本文的爬行策略收获比明显优于对比实验中的其他爬行策略。通过大量的实验数据对比分析:利用网页综合信息与领域本体结合来指导主题爬行策略,可以有效提升网页主题爬行的收获比。(本文来源于《吉林大学》期刊2010-04-01)

吐尔洪·吾司曼,维尼拉·木沙江[6](2009)在《维、哈、柯多文种搜索引擎中网页爬行器(Crawler)的设计与实现》一文中研究指出搜索引擎网页爬行器的任务是收集网页,而收集能力的好坏直接影响搜索结果.本文提出了维、哈、柯多文种搜索引擎中网页爬行器的结构及其设计方案.(本文来源于《新疆大学学报(自然科学版)》期刊2009年01期)

谭骏珊,陈可钦[7](2008)在《聚焦爬行中网页爬行算法的改进》一文中研究指出因特网的迅速发展对万维网信息的查找与发现提出了巨大的挑战。对于大多用户提出的与主题或领域相关的查询需求,传统的通用搜索引擎往往不能提供令人满意的结果网页,为了克服通用搜索引擎的以上不足,提出了面向主题的聚焦爬虫的研究思路和方法。该文针对聚焦爬虫这一研究热点,对现今聚焦爬虫的爬行方法(主要是网页分析算法和网页搜索策略)做了深入分析和对比,提出了一种改进的聚焦爬行算法。这种基于类间规则的聚焦爬行方法借助baseline聚焦爬虫的架构,应用朴素的贝叶斯分类器并利用主题团间链接的统计关系构造规则找到在一定链接距离内的"未来回报"页面,并通过实验对该算法的性能进行分析、评价,证明其对聚焦爬虫的爬行收获率和覆盖率有很好的改善。(本文来源于《电脑知识与技术》期刊2008年35期)

张忠元,王洪肖[8](2008)在《基于网页分块技术的主题爬行》一文中研究指出因特网的迅速发展对网上信息的查找与发现提出了巨大的挑战。本文提出了面向主题的主题爬行器的研究。主题搜索技术将信息检索限定在特定主题领域,提供特定主题的信息检索服务,是新一代搜索引擎的发展方向之一。本系统介绍了一种对网页自动分块的方法,实现了一个定题搜索系统Crawler,它可以实现在web上爬行下载主题相关网页。(本文来源于《中国高新技术企业》期刊2008年16期)

殷晟[9](2008)在《具有页面更新机制的网页爬行器的设计与实现》一文中研究指出随着Internet的飞速发展,人们越来越依靠网络来查找他们所需要的信息,但是,由于网上的信息源多不胜数,所以如何有效的去发现我们所需要的信息,就成了一个很关键的问题。为了解决这个问题,搜索引擎就随之诞生。而页面爬行器,则是搜索引擎的基础,虽然经过多年的发展,这一技术已广泛应用,但由于搜索引擎商之间的竞争,爬行器的详细设计并不公开,而且描述这些爬行器的文献也太过扼要,使得其难以重现。同时,对搜索引擎而言,及时搜集互联网中新出现和变化的网页也是核心工作之一。这便要求爬行器系统也需具有页面更新与增量搜集的能力。而具体应该怎样更新,依照什么样的策略,如何将这种策略应用于具体的爬行器,便是本文关注的焦点。本文首先对一些早期爬行器的结构,原理与技术进行了分析,总结了当前有关爬行器系统主要问题的解决方法。其后又对页面更新策略进行了研究,对以往的几种算法进行了分析比较,并提出了自己的看法与更新算法。最后,在此基础之上,设计并实现了一个既可完成常规搜集又可进行页面更新与增量搜集的爬行器系统。(本文来源于《吉林大学》期刊2008-04-01)

吴晓平,张长利,朱丽娜[10](2008)在《基于网页内容块策略的主题爬行》一文中研究指出因特网的迅速发展对传统的爬行器和搜索引擎提出了巨大的挑战。各种针对特定领域、特定人群的搜索引擎应运而生。Web主题信息搜索系统(网络蜘蛛)是主题搜索引擎的最主要的部分,它的任务是将搜集到的符合要求的Web页面返回给用户或保存在索引库中。Web上的信息资源如此广泛,如何全面而高效地搜集到感兴趣的内容是网络蜘蛛的研究重点。提出了基于网页分块技术的主题爬行,实验结果表明,相对于其它的爬行算法,提出的算法具有较高的效率、爬准率、爬全率及穿越隧道的能力。(本文来源于《计算机工程与应用》期刊2008年09期)

网页爬行论文开题报告

(1)论文研究背景及目的

此处内容要求:

首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。

写法范例:

随着Web2.0时代的到来,具有AJAX异步传输特征的动态网站已经逐渐成为互联网中的主流表现形式。该技术虽然实现了与服务器的异步通信,带来了良好的用户体验,但是却改变了基于静态页面的传统Web站点的架构。这导致传统网络爬虫无法获取动态站点中的所有页面信息,隐藏在服务器端的很多数据内容无法被获取并进行进一步的分析与利用,造成了资源的浪费。通过上述现状,本文首先分析了AJAX技术的工作原理与主要特点,以及网页分析的核心技术,构建了动态网页数据获取的模型。在此基础上,提出了一种基于动态脚本分析的网页爬行及解析的方法。该方法首先通过对动态页面结构与内容的解析完成了识别第叁方框架、分类相似站点、确定页面事件标签集合、页面表单的自动填写等工作。利用Watij模拟用户操作并通过内嵌Selenium脚本解析器顺序执行相应脚本程序。采用广度优先的页面爬行策略、XMLHttpRequest对象监听和DOM树结构相似性判断相结合的页面状态判定方式、基于状态转换图的状态转换控制方法实现了动态页面的数据获取。通过路径存储仓库和本地缓存的加入,有效地减少了页面重新加载次数且较好地处理了服务器端的主动数据更新。基于该方法的工作原理和处理流程,本文设计并实现了一个用于获取动态网页数据信息的原型系统。实验表明,本文提出的算法能够有效地对动态网页进行解析并获取其中的数据信息。对算法做出的优化,使得该算法在不影响数据获取准确率的情况下,执行时间大大降低,性能较同类型其他算法有显着提升。本文所实现的动态网页数据获取原型系统AjaxCrawler可以应用于实际网络中的各个大型站点,能够基本满足用户对于动态网页数据信息获取的需求。

(2)本文研究方法

调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。

观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。

实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。

文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。

实证研究法:依据现有的科学理论和实践的需要提出设计。

定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。

定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。

跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。

功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。

模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。

网页爬行论文参考文献

[1].栾霞,赵晓楠.基于维基百科和网页相似度分析的主题爬行策略[J].现代电子技术.2014

[2].张瑶.面向AJAX脚本网络的网页爬行及解析技术的研究与实现[D].东北大学.2012

[3].熊忠阳,史艳,张玉芳.基于维基百科和网页分块的主题爬行策略[J].计算机应用.2011

[4].维尼拉·木沙江,吐尔洪·吾司曼.维、哈、柯文搜索引擎中网页爬行器的设计与实现[C].少数民族青年自然语言处理技术研究与进展——第叁届全国少数民族青年自然语言信息处理、第二届全国多语言知识库建设联合学术研讨会论文集.2010

[5].关鑫.网页综合信息与领域本体相结合的主题爬行研究[D].吉林大学.2010

[6].吐尔洪·吾司曼,维尼拉·木沙江.维、哈、柯多文种搜索引擎中网页爬行器(Crawler)的设计与实现[J].新疆大学学报(自然科学版).2009

[7].谭骏珊,陈可钦.聚焦爬行中网页爬行算法的改进[J].电脑知识与技术.2008

[8].张忠元,王洪肖.基于网页分块技术的主题爬行[J].中国高新技术企业.2008

[9].殷晟.具有页面更新机制的网页爬行器的设计与实现[D].吉林大学.2008

[10].吴晓平,张长利,朱丽娜.基于网页内容块策略的主题爬行[J].计算机工程与应用.2008

标签:;  ;  ;  ;  

网页爬行论文-栾霞,赵晓楠
下载Doc文档

猜你喜欢