网页索引论文-王树西,夏增艳

网页索引论文-王树西,夏增艳

导读:本文包含了网页索引论文开题报告文献综述及选题提纲参考文献,主要关键词:网页分类,索引页面,信息页面,网络传销

网页索引论文文献综述

王树西,夏增艳[1](2014)在《一种区分索引与信息的网页分类数学模型及证明》一文中研究指出综述了网页分类的国内外研究现状,分析了网页分类的核心技术,包括思想、算法、公式、评测标准。为了打击非法网络传销,必须对传销网页进行准确识别与分类。根据网页中"最大内容段"的长度,计算出这个网页为"信息网页"的概率,通过严格的数学公式推导得到数学模型。本数学模型已经得到应用,"网络传销国家监控中心"用这个模型有效地对网络传销网页集合进行了分类。(本文来源于《计算机科学》期刊2014年S2期)

茹立云,李智超,马少平[2](2014)在《搜索引擎索引网页集合选取方法研究》一文中研究指出随着互联网的快速发展,网页数量呈现爆炸式增长,其中充斥着大量内容相似的或低质量的网页.对于搜索引擎来讲,索引这样的网页对于检索效果并没有显着作用,反而增加了搜索引擎索引和检索的负担.提出一种用于海量网页数据中构建搜索引擎的索引网页集合的网页选取算法.一方面使用基于内容签名的聚类算法对网页进行滤重,压缩索引集合的规模;另一方面融合了网页维度和用户维度的多种特征来保证索引集合的网页质量.相关实验表明,使用该选取算法得到的索引网页集合的规模只有整个网页集合的约1/3,并且能够覆盖绝大多数的用户点击,可以满足实际用户需求.(本文来源于《计算机研究与发展》期刊2014年10期)

乐丁惕[3](2012)在《基于索引路径的深度网页数据抽取改良》一文中研究指出介绍了基于索引路径的数据抽取算法的不足,从代码角度和用户需求角度2个方面进行考虑,提出了一种进改良措施,有效地提升了数据抽取的准确率,从而大大减少了数据冗余.由于补充了记录、有效数据等定义,使得抽取出的数据仍然保有其在网页中的结构关系,为之后的语义标注工作带来了极大的方便,为深度网页(Deep Web)数据集成奠定了良好的基础.(本文来源于《海南大学学报(自然科学版)》期刊2012年04期)

陈鸿[4](2011)在《Web网页的时态文本索引研究》一文中研究指出随着互联网技术的快速发展,搜索引擎已成为许多人生活和工作中的重要工具。但是,由于网络信息的快速增长和用户搜索要求的不断提高,通用搜索引擎已经不能满足用户对于信息检索服务的需求。在许多网页中,网页内容具有时间敏感性,比如商业新闻、出版信息、网上商店的折扣信息等。根据用户提出的时态检索请求准确查找到相应网页对用户很有价值。但是主流搜索引擎只能提供针对网页更新时间的查询,缺乏对网页内容时间的查询能力,由此降低了查询结果的有效性。因此建立一个时态信息与文本信息相结合的网络搜索引擎是未来搜索引擎发展的重要方向之一。本文以时态文本搜索引擎为背景,重点研究了结合Web网页中的时间信息与关键字信息的时态文本索引问题。论文通过对通用的关键字索引结构和时态索引结构进行分析和改进,提出了几种时态文本索引结构设计思路,并进行了理论和实验上的比较,最终得出了性能评测较优的一种索引。在此基础上,对性能较优的索引进行再次改进,进一步提高索引性能,提高搜索引擎的查询效率。本文的主要贡献如下:(1)提出了基于时态文本搜索引擎的混合索引结构。针对时态文本搜索引擎中的网页的时间信息的特征,本文将网页的时间信息分成两部分,一个是更新时间,一个是内容时间。在此基础上,我们提出了首要时间的概念,将它加入到索引处理中。我们以B+树、倒排文件和MAP21树为基础,研究并比较了五种混合索引结构。通过在仿真数据集与真实数据集上的实验,在索引大小、磁盘I/O时间以及查询时间的性能比较,得出“先倒排索引后MAP21树”的索引结构具有较好的性能。(2)提出了基于哈希的时态文本索引结构。基于哈希的时态文本索引结构是对先前验证的较好的“先倒排文件后MAP21树”的时态文本索引结构的改进。针对网络的时间特征,特别地,对于时间信息的内容时间的特征的具体分析,尤其是对于首要时间的研究,将内容时间区间转换成内容时间点,将MAP21树用哈希表进行替换,构造出新型的时态文本索引结构,提高查询性能。通过真实数据集上的实验,在索引大小,重建时间以及五种类型查询的查询时间的比较,得到哈希的时态文本索引结构比“先倒排文件后MAP21树”的索引结构更优,更适合作为时态文本搜索引擎的索引结构。(本文来源于《中国科学技术大学》期刊2011-04-01)

张靖宇,梁久祯[5](2010)在《中文网页分布式并行索引的设计与实现》一文中研究指出Internet搜索引擎主要由搜索器、索引器和用户界面叁部分组成。通过分析索引数据库在搜索引擎时效性及有效性方面的重要作用,提出一种多进程并行分词建立索引的方法。以中文网页数据库为基本语料库,采用正向最大匹配法进行中文分词,并用一种高效的倒排索引方式存储索引表。这种方法能够加快索引建立与更新的速度,并且在空间效率上也有较大的提高。(本文来源于《微计算机信息》期刊2010年15期)

梁正友,陈涛[6](2009)在《基于ProActive的分布式并行网页索引算法》一文中研究指出针对单机网页索引器索引速度慢和串行倒排索引算法具有可并行处理的特性,提出分布式并行倒排索引算法。该算法应用分布式并行计算ProActive中间件和单机索引Lucene包,设计和实现一个在机群系统下工作的分布式并行网页索引器。实验结果表明,该索引器有较高的索引性能和较好的扩展性能。(本文来源于《计算机工程》期刊2009年20期)

邓铮[7](2009)在《基于网页分块思想的搜索引擎索引系统》一文中研究指出现有的搜索引擎都是对整个页面建立索引并用于检索的,但某些页面中可能包含不同的主题块,如果用户提交的多个关键词恰好分别位于不同的主题块内,则即使页面与用户检索请求不相关,搜索引擎仍会把该页面返回给用户。为改进搜索引擎的索引系统,引入了网页分块的思想。本文选择了VIPS算法作为网页分块算法,但经典VIPS算法在实际应用中存在着切分粒度不好控制的问题,针对切分过粗和切分过细两种情况,本文分别引入了节点深度阈值和叶子节点数目阈值,使得VIPS算法可以根据页面特征进行切分粒度的自适应。在叁大门户网站爬取页面作为测试集,通过改进算法与经典算法的对比试验,证明了改进算法的有效性。对给定网页先行分块,并基于块内容将主题相关的块合并为子文档,然后再对各子文档分别建立索引。这样只有当用户提交的多个关键词完全包含在某个子文档内时,搜索引擎才会把原页面返回给用户。基于网页分块,设计了改进的搜索引擎索引系统,制定了一些规则过滤与正文无关的块,并对剩下的块进行分类。最后,通过拟定叁组种子关键词组,并向Google提交查询得到测试集,将该集合与索引改进后的检索结果进行比较。实验证明,本文所提供的索引方案较大程度上提高了检索的准确率和F1测试值。(本文来源于《天津大学》期刊2009-05-01)

吴宪君[8](2007)在《基于自动词频的网页索引算法》一文中研究指出引入一种新的基于词频的数据自动检索网页的模型,它结合Web页面使用了全新的特征词汇提取公式,在保持精确率的情况下同时获得较高回现率,为精确描述Web页面提供了依据。同时该模型还能减少检索中存在的一致性的问题,简化Web页面索引维护工作量。(本文来源于《茂名学院学报》期刊2007年04期)

[9](2007)在《于丹及泛国学话题网页索引》一文中研究指出于丹是丹,但不是仙丹,也莫苛求她成为仙丹。以草根名义说变味的国学!于丹的热,更多的是"知识分子进电视热",而非"传统文化热"。(祖佳) http://www.ce.cn/life/xxsh/dwyd/200704/18/t20070418_11075429_1.shtml王小波曾说:"古宅闹鬼,树老成精,一门学问最后可能变成一种妖怪。"国学以后还会怎样热,还能热多久,这不是某个人左右得了的。国学热是尚古还是媚俗,不妨抱着一副怀疑的心态来看待。(卜昌炯)(本文来源于《东西南北》期刊2007年06期)

赫枫龄,左万利,张雪松[10](2006)在《高性能网页索引器JU_Indexer的实现》一文中研究指出高性能网页索引器JU_Indexer用倒排索引表存储网页索引数据,以多线程并行的方式对网页建立索引数据,采用经过优化的检索算法实现用户的查询.首先给出了JU_Indexer的系统框架,然后描述了索引数据在JU_Indexer中的存储结构、建立网页索引的算法、以及实现用户查询的检索算法.实验结果表明,JU_Indexer能在毫秒级的时间内完成用户的查询,它采用的经过优化的词组检索算法缩短了词组的检索时间.(本文来源于《吉林大学学报(理学版)》期刊2006年01期)

网页索引论文开题报告

(1)论文研究背景及目的

此处内容要求:

首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。

写法范例:

随着互联网的快速发展,网页数量呈现爆炸式增长,其中充斥着大量内容相似的或低质量的网页.对于搜索引擎来讲,索引这样的网页对于检索效果并没有显着作用,反而增加了搜索引擎索引和检索的负担.提出一种用于海量网页数据中构建搜索引擎的索引网页集合的网页选取算法.一方面使用基于内容签名的聚类算法对网页进行滤重,压缩索引集合的规模;另一方面融合了网页维度和用户维度的多种特征来保证索引集合的网页质量.相关实验表明,使用该选取算法得到的索引网页集合的规模只有整个网页集合的约1/3,并且能够覆盖绝大多数的用户点击,可以满足实际用户需求.

(2)本文研究方法

调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。

观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。

实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。

文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。

实证研究法:依据现有的科学理论和实践的需要提出设计。

定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。

定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。

跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。

功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。

模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。

网页索引论文参考文献

[1].王树西,夏增艳.一种区分索引与信息的网页分类数学模型及证明[J].计算机科学.2014

[2].茹立云,李智超,马少平.搜索引擎索引网页集合选取方法研究[J].计算机研究与发展.2014

[3].乐丁惕.基于索引路径的深度网页数据抽取改良[J].海南大学学报(自然科学版).2012

[4].陈鸿.Web网页的时态文本索引研究[D].中国科学技术大学.2011

[5].张靖宇,梁久祯.中文网页分布式并行索引的设计与实现[J].微计算机信息.2010

[6].梁正友,陈涛.基于ProActive的分布式并行网页索引算法[J].计算机工程.2009

[7].邓铮.基于网页分块思想的搜索引擎索引系统[D].天津大学.2009

[8].吴宪君.基于自动词频的网页索引算法[J].茂名学院学报.2007

[9]..于丹及泛国学话题网页索引[J].东西南北.2007

[10].赫枫龄,左万利,张雪松.高性能网页索引器JU_Indexer的实现[J].吉林大学学报(理学版).2006

标签:;  ;  ;  ;  

网页索引论文-王树西,夏增艳
下载Doc文档

猜你喜欢