增量搜集论文-杜言琦,马军

增量搜集论文-杜言琦,马军

导读:本文包含了增量搜集论文开题报告文献综述及选题提纲参考文献,主要关键词:计算机应用,中文信息处理,增量搜集,论坛爬虫

增量搜集论文文献综述

杜言琦,马军[1](2010)在《基于版块的论坛增量搜集策略》一文中研究指出该文研究论坛的增量搜集问题。由于在论坛中同一主题通常分布在多个页面上,而传统增量搜集技术的抓取策略通常是基于单个页面,因此这些技术并不适于对论坛增量搜集。该文通过对许多论坛中版块变化规律的统计分析,提出了基于版块的论坛增量搜集策略。该策略将属于同一版块的所有页面看做一个整体,以它做为抓取的基本单位。同时该策略利用版块权重和局部时间规律确定抓取频率和抓取时间点。实验结果表明本策略对新增和新回复帖子的平均召回率为99.3%,并且与平均调度方法相比系统总延迟最高可减小42%。(本文来源于《中文信息学报》期刊2010年03期)

杜言琦[2](2010)在《面向论坛页面的增量搜集技术研究》一文中研究指出网络论坛是用户创建和讨论话题的平台,每天都有数以百万的用户发表各种话题。论坛数据通常包含大量高价值的知识和信息,已经成为重要的数据源。有些商业搜索引擎利用论坛数据来改善搜索结果的质量,还有些研究试图从论坛数据中挖掘有用的信息。无论何种web应用,最基本的步骤是从各种论坛站点中抓取数据,建立本地网页库,并维持对本地网页库的增量搜集。增量搜集技术的核心理论依据是网页的变化规律和以此为基础的最优化调度策略。论坛站点有一些不同于通常站点的特征:结构复杂且存在许多重复链接;较长的帖子分布在多个页面上,链接深度大;论坛的内容变化更加频繁而且内容增量式更新。传统增量搜集技术以单个页面作为基本调度单位,研究的是单个页面的变化规律,并不适于对论坛数据进行增量搜集。本文主要研究论坛的增量搜集问题,主要贡献有以下几点:1.在论坛中属于同一主题的信息通常分布在多个页面上,本文摒弃传统增量搜集技术中以单个页面为增量搜集的基本单位的做法,将属于同一信息的页面集合作为增量搜集的基本单位。页面集合主要有两种类型:属于同一版块的页面集合和属于同一帖子的页面集合。2.通过对论坛结构的观察和对版块变化规律的统计分析,提出了基于版块的论坛增量搜集策略。策略主要包含两种算法:11.基于版块的增量抓取算法:在大多数论坛中,版块页面即帖子列表页中的帖子是按照最后回复时间进行排序列表,即新发布的帖子或者有新回复的帖子会排列在帖子列表的前部。增量抓取算法利用MDR自动抽取算法,抽取列表页中的帖子链接和最后回复时间,然后判断是否为新发布帖子或者有新回复的帖子。2).基于版块的增量调度算法:通过对版块页面集合变化规律的统计分析,发现不同的版块内容变化频率相差很大,并且版块的变化频率与当天的局部时间相关,具有局部时间规律。算法根据变化频率为不同的版块赋予不同的权重,然后根据权重分配版块的抓取次数,同时根据版块变化的局部时间规律,确定每次的抓取时间点。实验结果表明本策略的带宽利用率为1,能够保证对发生变化的帖子的覆盖率接近百分之百,同时能够大幅减小系统总延迟,与平均调度方法相比系统总延迟最高可减小42%。(本文来源于《山东大学》期刊2010-04-05)

杜言琦,马军[3](2009)在《基于版块的论坛增量搜集策略》一文中研究指出本文研究论坛的增量搜集问题。由于在论坛中同一主题通常分布在多个页面上,而传统增量搜集技术的重抓取策略通常是基于单个页面,因此这些技术并不适于对论坛增量搜集。本文通过对许多论坛中版块变化规律的统计分析,提出了基于版块的论坛增量搜集策略。该策略将属于同一版块的信息定义为一个版块对象,并以版块对象为重抓取的基本单位。同时该策略利用版块权重和局部时间规律分配抓取资源和确定抓取时间点。实验结果表明本策略对新增和新回复帖子的平均召回率为99.4%,并且与平均调度方法相比系统总延迟最高可减小42%。(本文来源于《第五届全国信息检索学术会议论文集》期刊2009-11-14)

雷凯,王东海[4](2008)在《搜索引擎增量式搜集的实现与评测》一文中研究指出针对传统的周期性集中式搜索(Crawler)的弱点和增量式Crawler的难点,提出预测更新策略,给出判别网页更新的MD5算法、URL调度算法和URL缓存算法,描述系统各个模块的分布式构架的实现,建立测试集数据对算法进行评测。该系统在北大天网搜索引擎上运行半年多,更新周期缩短了20天,变化预测命中率达到79.4%,提高了时效性、扩展性和稳定性。(本文来源于《计算机工程》期刊2008年13期)

孟涛,王继民,闫宏飞[5](2006)在《网页变化与增量搜集技术》一文中研究指出互联网络中信息量的快速增长使得增量搜集技术成为网上信息获取的一种有效手段,它可以避免因重复搜集未曾变化的网页而带来的时间和资源上的浪费.网页变化规律的发现和利用是增量搜集技术的一个关键.它用来预测网页的下次变化时间甚至变化程度;在此基础上,增量搜集系统还需要考虑网页的变化频率、变化程度和重要性,选择一种最优的任务调度算法来决定不同网页的搜集频率和相对搜集次序.针对网页变化和增量搜集技术这一主题,对最近几年的研究成果作总结,并介绍最新的研究进展.首先论述对网页变化规律的建模、模型参数估计和估计效率等问题;然后介绍几个着名的增量搜集系统,着重分析它们的任务调度算法;最后,从理论上分析和总结增量搜集系统的最佳任务调度算法及其一个基于启发式策略的近似解,并预测其将来的研究趋势.该工作对增量搜集系统的设计和Web演化规律的研究具有参考意义.(本文来源于《软件学报》期刊2006年05期)

孟涛,闫宏飞,王继民[6](2005)在《一个增量搜集中国W eb的系统模型及其实现》一文中研究指出针对中国W eb的高效增量搜集,设计试验考察了网页的短期变化规律,估算出增量搜集需要的最小搜集能力。提出一个通用的增量式搜集系统模型和它的性能准则,该模型阐明了增量搜集的运行原理。针对该模型,结合北大天网增量搜集系统的开发经验,讨论了它的性能瓶颈并给出解决方案。对增量搜集的两类目标——变化网页和新网页,探讨了相应的搜集策略。介绍了该模型的实现和性能状况。该文的工作为增量搜集系统的设计和实现提供了一个成功的模型。(本文来源于《清华大学学报(自然科学版)》期刊2005年S1期)

增量搜集论文开题报告

(1)论文研究背景及目的

此处内容要求:

首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。

写法范例:

网络论坛是用户创建和讨论话题的平台,每天都有数以百万的用户发表各种话题。论坛数据通常包含大量高价值的知识和信息,已经成为重要的数据源。有些商业搜索引擎利用论坛数据来改善搜索结果的质量,还有些研究试图从论坛数据中挖掘有用的信息。无论何种web应用,最基本的步骤是从各种论坛站点中抓取数据,建立本地网页库,并维持对本地网页库的增量搜集。增量搜集技术的核心理论依据是网页的变化规律和以此为基础的最优化调度策略。论坛站点有一些不同于通常站点的特征:结构复杂且存在许多重复链接;较长的帖子分布在多个页面上,链接深度大;论坛的内容变化更加频繁而且内容增量式更新。传统增量搜集技术以单个页面作为基本调度单位,研究的是单个页面的变化规律,并不适于对论坛数据进行增量搜集。本文主要研究论坛的增量搜集问题,主要贡献有以下几点:1.在论坛中属于同一主题的信息通常分布在多个页面上,本文摒弃传统增量搜集技术中以单个页面为增量搜集的基本单位的做法,将属于同一信息的页面集合作为增量搜集的基本单位。页面集合主要有两种类型:属于同一版块的页面集合和属于同一帖子的页面集合。2.通过对论坛结构的观察和对版块变化规律的统计分析,提出了基于版块的论坛增量搜集策略。策略主要包含两种算法:11.基于版块的增量抓取算法:在大多数论坛中,版块页面即帖子列表页中的帖子是按照最后回复时间进行排序列表,即新发布的帖子或者有新回复的帖子会排列在帖子列表的前部。增量抓取算法利用MDR自动抽取算法,抽取列表页中的帖子链接和最后回复时间,然后判断是否为新发布帖子或者有新回复的帖子。2).基于版块的增量调度算法:通过对版块页面集合变化规律的统计分析,发现不同的版块内容变化频率相差很大,并且版块的变化频率与当天的局部时间相关,具有局部时间规律。算法根据变化频率为不同的版块赋予不同的权重,然后根据权重分配版块的抓取次数,同时根据版块变化的局部时间规律,确定每次的抓取时间点。实验结果表明本策略的带宽利用率为1,能够保证对发生变化的帖子的覆盖率接近百分之百,同时能够大幅减小系统总延迟,与平均调度方法相比系统总延迟最高可减小42%。

(2)本文研究方法

调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。

观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。

实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。

文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。

实证研究法:依据现有的科学理论和实践的需要提出设计。

定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。

定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。

跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。

功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。

模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。

增量搜集论文参考文献

[1].杜言琦,马军.基于版块的论坛增量搜集策略[J].中文信息学报.2010

[2].杜言琦.面向论坛页面的增量搜集技术研究[D].山东大学.2010

[3].杜言琦,马军.基于版块的论坛增量搜集策略[C].第五届全国信息检索学术会议论文集.2009

[4].雷凯,王东海.搜索引擎增量式搜集的实现与评测[J].计算机工程.2008

[5].孟涛,王继民,闫宏飞.网页变化与增量搜集技术[J].软件学报.2006

[6].孟涛,闫宏飞,王继民.一个增量搜集中国Web的系统模型及其实现[J].清华大学学报(自然科学版).2005

标签:;  ;  ;  ;  

增量搜集论文-杜言琦,马军
下载Doc文档

猜你喜欢