导读:本文包含了网页搜集论文开题报告文献综述及选题提纲参考文献,主要关键词:本体,网页搜集器,Proté,gé,MyEclipse
网页搜集论文文献综述
江河[1](2011)在《基于本体的自动化网页搜集器》一文中研究指出在网络信息时代,将有限的时间投入到查找无限的信息资源中是不可取的,如何使用户在信息大潮中搜索到有用的信息,已成为研究的重要课题。主动式网页搜索技术成为当今信息系统中重要的研究方向。基于本体的自动网页检索系统会主动提供关键词判断比对,进而提升网页搜集的精确度。(本文来源于《河北软件职业技术学院学报》期刊2011年01期)
张亮,王纯[2](2009)在《分布式网页搜集系统的设计与实现》一文中研究指出对北大天网实验室发布的搜索引擎Tiny Search Engine的原理进行分析,指出其在实际应用过程中的一些缺陷,并针对这些缺陷对软件体系结构加以改进,增加主控模块,实现了一种可扩展的分布式网页搜集系统.(本文来源于《北京工商大学学报(自然科学版)》期刊2009年01期)
赵胤[3](2008)在《海量网页搜集系统的设计》一文中研究指出搜索引擎是随着WEB信息的迅速增加,从1994年开始逐渐发展起来的技术。根据Netcraft的最新互联网调查,截止到2006年3月31日,互联网上一共有超过8000万个网站。目前全球最大的搜索引擎Google更是收录了超过80亿张网页,这就对搜索引擎技术提出了更高的要求。搜索引擎的网页搜集系统(又称爬虫),是它的主要模块之一,而爬虫的搜集速度、抓取网页质量又是评价搜索引擎好坏的主要指标。本文将分析现有爬虫的体系结构,从网页抓取和信息提取两方面解释爬虫的工作原理。为了让爬虫能够满足海量数据搜集的需要,减少因网页重复搜集而产生的不必要开销,本文采用了一种新的方法——分裂式Bloom filter算法,并在“asBetter-超越”搜索引擎的分布式结构中引入了这种思想。另外,针对局域网条件,“asBetter-超越”采用基于巴科斯范式的HTML词法分析自动机,对网页进行页面分析,从而高效的提取网页的纯正文内容。最后,对“asBetter-超越”进行完整性验证和性能分析,并探讨分布式架构的策略。(本文来源于《东北大学》期刊2008-12-01)
王婷[4](2007)在《面向授权管理的动态网页资源描述与搜集技术研究》一文中研究指出为了实现对动态网页资源的细粒度授权与访问控制,从根本上提高Web网页的安全性,首先需要解决资源的搜集与描述问题。全面的描述、精确的搜集以及合理的组织资源能够给授权管理带来诸多方便,同时为细粒度的授权与访问控制奠定基础。本文以授权管理为背景,针对动态网页资源的特殊属性,探讨如何实现对动态网页资源的细粒度描述和搜集,从而为动态网页资源细粒度的访问控制提供解决方法。本文主要工作如下;1.深入系统地分析了动态网页资源管理的研究现状。在研究动态网页开发技术的基础上,对Web网页资源的授权与访问控制问题进行了深入的分析;重点研究了现有的Web网页资源描述和动态网页资源搜集方法,提出了授权管理中动态网页资源管理面临的主要问题。2.从授权与访问控制的角度给出了动态网页资源的全新定义,设计了适合动态网页资源的统一描述方法。基于通用的资源描述框架RDF规范,分别为动态网页和页面元素定义了反映其动态特征和关联关系的描述词汇集。该词汇集充分体现了动态网页资源的层次结构,能够细粒度、全面的描述动态网页资源的特征属性,为灵活、简便的授权和细粒度的访问控制提供支持。3.提出了面向授权管理的动态网页资源搜集系统模型。该模型采用Robot技术遍历动态网页,并通过数据分析和计算获取动态网页的特殊属性。重点研究了网页交互参数、有效动态变化因子集等动态网页特征属性的获取方法。设计了动态网页页面元素的抽取算法,该算法深入网页文件内部获取页面元素的特征属性,为细粒度、全面的动态网页资源管理奠定基础。4.深入研究了本文提出的动态网页资源管理方法在授权与访问控制中的具体应用。基于授权与访问控制中资源标识的需要,提出了一种基于动态变化因子的动态网页资源标识方法,在此基础上给出了动态网页资源访问控制的初步解决方案。应用表明,本文提出的动态网页资源描述方法能够为授权提供方便和更多的灵活性,简化了授权操作,同时为制定高精度、细粒度的授权策略提供支持。动态网页资源标识问题的解决直接为动态网页资源的访问控制问题提供了有效的解决思路和方法。(本文来源于《解放军信息工程大学》期刊2007-04-20)
孟涛,王继民,闫宏飞[5](2006)在《网页变化与增量搜集技术》一文中研究指出互联网络中信息量的快速增长使得增量搜集技术成为网上信息获取的一种有效手段,它可以避免因重复搜集未曾变化的网页而带来的时间和资源上的浪费.网页变化规律的发现和利用是增量搜集技术的一个关键.它用来预测网页的下次变化时间甚至变化程度;在此基础上,增量搜集系统还需要考虑网页的变化频率、变化程度和重要性,选择一种最优的任务调度算法来决定不同网页的搜集频率和相对搜集次序.针对网页变化和增量搜集技术这一主题,对最近几年的研究成果作总结,并介绍最新的研究进展.首先论述对网页变化规律的建模、模型参数估计和估计效率等问题;然后介绍几个着名的增量搜集系统,着重分析它们的任务调度算法;最后,从理论上分析和总结增量搜集系统的最佳任务调度算法及其一个基于启发式策略的近似解,并预测其将来的研究趋势.该工作对增量搜集系统的设计和Web演化规律的研究具有参考意义.(本文来源于《软件学报》期刊2006年05期)
董颖,袁苏[6](2006)在《搜索竞价时代到来网站争相称霸市场》一文中研究指出搜索改变生活 小艾是首都师范大学中文系的一名大叁学生,“搜龄”已经2年多,现在每次完成老师留的作业前,她必定先上网搜索一圈。“中文系学的东西很杂,老师留的作业面也广,经常需要很多知识来填充。最初我写作业都是去学校图书馆借书看,可不是相关书籍已经被其(本文来源于《市场报》期刊2006-04-21)
胡卓颖[7](2004)在《专题型网页搜集器关键算法的研究及实现》一文中研究指出随着互联网技术的迅速发展,万维网上的可用信息越来越多。但是互联网也为有效进行其中的相关信息发现提出了以下的问题:1.网页的复杂性要远远大于任何传统的文本文档。2.互联网是一个高度动态的信息源。3.互联网所服务用户群体的多样性。4.对于不同的用户互联网上的信息只有一小部分是真正有用的或相关的。 这些问题促使了有效发现和利用互联网信息资源的相关研究工作开展。面向主题搜集技术就是针对这些问题而提出的,它为不同的用户提供不同的服务,以满足他们不同的需求。 这篇论文主要研究了面向主题的搜索中的两个关键算法——网页过滤和链接排序,同时研究了搜索器的实现技术。 在网页过滤方面:针对“互联网上的信息只有一小部分是真正有用的或相关”的这一特点提出一种快速过滤网页的系统过滤算法。这种算法将分类体系组织成一个多层的树状结构,对网页逐层过滤,可以将大量不相关的网页快速的过滤。 在链接排序方面:已有的研究表明网页的分布满足两种局部性,即链接分布的局部性和兄弟分布的局部性。根据这两种局部性的启发,我们提出了一种增量学习的链接相关性估计算法。这种算法简单高效并在不断的搜集过程中增量学习,使其在系统运行一段时间后表现出较好的稳定性。 本文的创新点在于: 在算法方面:1)将层次聚类算法与基于密度的聚类算法思想相结合提出一种基于动态密度的多层聚类算法。2)提出一种简单高效的链接相关性估计算法。 在系统方面:设计并实现一个中文的面向主题的搜索器。(本文来源于《江西师范大学》期刊2004-11-01)
胡卓颖,徐可,万中英,陆玉昌,丁树良[8](2004)在《专题型网页搜集系统的设计与实现》一文中研究指出近年来人们提出了很多新的搜集思想,他们都使用了一个共同的技术———集中式搜集。集中式搜集通过分析搜索的区域,来发现与主题最相关的链接,防止访问网上不相关的区域,这可以大量地节省硬件和网络资源,使网页得到尽快的更新。为了达到这个搜索目标,本文提出了两个算法:一个是基于多层分类的网页过滤算法,试验结果表明,这种算法有较高的准确率,而且分类速度明显高于一般的分类算法;另一个是基于Web结构的URL排序算法,这个算法充分地利用了Web的结构特征和网页的分布特征。(本文来源于《计算机与现代化》期刊2004年10期)
刘玉莲,周春楠,张强[9](2004)在《网页搜集系统的动态可配置性的研究与实现》一文中研究指出Web是动态海量信息的载体,研究的主要目标是要得到一种高性能、高可靠,支持海量网页信息搜集、分析与处理的系统结构。本文主要针对并行网页搜集系统的节点可能出现临时故障的问题,提出了一种系统动态可配置方案。该方案的基础是一种从网页URL到搜集节点的两阶段映射关系,它保证了当配置(节点数)变化时系统能经过一个短暂、安全的过渡过程达到一个新的稳态,从而保证了系统的动态可配置性。(本文来源于《信息技术》期刊2004年07期)
网页搜集论文开题报告
(1)论文研究背景及目的
此处内容要求:
首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。
写法范例:
对北大天网实验室发布的搜索引擎Tiny Search Engine的原理进行分析,指出其在实际应用过程中的一些缺陷,并针对这些缺陷对软件体系结构加以改进,增加主控模块,实现了一种可扩展的分布式网页搜集系统.
(2)本文研究方法
调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。
观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。
实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。
文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。
实证研究法:依据现有的科学理论和实践的需要提出设计。
定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。
定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。
跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。
功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。
模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。
网页搜集论文参考文献
[1].江河.基于本体的自动化网页搜集器[J].河北软件职业技术学院学报.2011
[2].张亮,王纯.分布式网页搜集系统的设计与实现[J].北京工商大学学报(自然科学版).2009
[3].赵胤.海量网页搜集系统的设计[D].东北大学.2008
[4].王婷.面向授权管理的动态网页资源描述与搜集技术研究[D].解放军信息工程大学.2007
[5].孟涛,王继民,闫宏飞.网页变化与增量搜集技术[J].软件学报.2006
[6].董颖,袁苏.搜索竞价时代到来网站争相称霸市场[N].市场报.2006
[7].胡卓颖.专题型网页搜集器关键算法的研究及实现[D].江西师范大学.2004
[8].胡卓颖,徐可,万中英,陆玉昌,丁树良.专题型网页搜集系统的设计与实现[J].计算机与现代化.2004
[9].刘玉莲,周春楠,张强.网页搜集系统的动态可配置性的研究与实现[J].信息技术.2004