导读:本文包含了正文结构树论文开题报告文献综述及选题提纲参考文献,主要关键词:网页去重,前缀过滤,正文结构树,网页指纹相似度
正文结构树论文文献综述
马月[1](2016)在《基于正文结构树的近似网页去重研究》一文中研究指出随着Internet的不断发展,网络信息呈指数级的增长。大量信息一方面带来更多的消息渠道,另一方面重复网页也带来了检索困难。重复网页不但浪费时间、使索引质量降低,而且还会使排序靠后。因此面对日益增长的网页信息,如何快速、准确的网页去重,成了互联网的一个重要问题。首先,针对各大网站网页互相转载、复制时,转载网页仅仅在内容上进行增删操作,而在网页正文结构上很少作调整这一普遍的现象,分析重复网页产生的原因并阐述传统网页去重算法的优缺点,在其基础上提出基于正文结构树的去重算法,可有效地提高去重的准确率和召回率。其次,结合网页正文结构树的特点,提出基于正文结构树和关键句的去重算法。对网页进行预处理,引入前缀过滤算法初步去重,对保留网页建立正文结构树;采用IDFTF-统计方法对关键字分析时引入标签权重,同时为了避免标签权重过大使得最后的分词权重可比性降低,对标签权重标准化;关键句提取时,采用根据段落长短按比例进行关键句提取的方法;之后用MD5算法进行相似性“指纹”比较。再次,结合网页正文结构树的特点,提出基于正文结构树的布隆过滤去重算法。对预处理后的网页建立正文结构树;网页特征串提取时,采用首1尾2个汉字的提取方法;利用Bloom Filter算法,计算并比较正文结构树的每层结点的“指纹”相似度,该算法能够在允许一定误差的情况下,有效地降低时间和空间复杂度。最后,对提出的算法在去重结果和去重时间方面进行实验验证和分析。(本文来源于《燕山大学》期刊2016-05-01)
周建,汤进,罗斌[2](2013)在《基于DOM结构树的网页正文信息分段方法》一文中研究指出网页正文信息的正确提取与分段,对文本信息挖掘等具有重要的意义。本文提出并实现一种从Web页面获取正文信息并能够正确分段的方法。该方法首先利用网页布局标签<table>和<div>构建一个DOM结构树,然后利用DOM结构树所反映出的布局标签的嵌套关系,对内容块进行取舍,提取出正确的正文信息,最后利用对一些特殊标签的处理,实现正文信息的分段。实验表明,该方法易实现、效率高,能自动准确地提取正文信息并分段。(本文来源于《计算机与现代化》期刊2013年10期)
牙漫[3](2013)在《基于网页正文结构树的近似网页去重算法研究》一文中研究指出据美国计算机协会统计,重复网页数量约占网页总量的30%-45%。伴随搜索引擎数量不断增加,用户对搜索引擎体验要求的提高,搜素质量成为各搜索引擎赢取用户的砝码。搜索引擎若能够及时去除这些重复网页,系统不仅能节省大量存储空间,间接降低设备采购成本,也能提高网络的检索质量和访问效率,提高用户体验满意率。网页正文内容的特征提取以及大规模相似性比较是网页去重的关键问题。按照传统算法的各自突出特点将其分为叁类:基于URL去重算法,仅能根据URL地址去除完全重复网页;基于特征串匹配去重算法,具有较高的准确率,但去重时间消耗高;基于聚类去重算法,具有较高的召回率,对于一些新闻题材或模板类文章准确率较低。分析转载网页发现,重复网页在内容上可能有变化,但文档格式较少发生改变,即网页正文结构几乎不变。针对此特点,本文提出基于正文结构树的两个去重算法。通过分析重复网页发现,长句不具有主题代表性。面对网页采集器更改规则,越长的句子表现越脆弱。本文对基于正文结构及长句去重算法进行改进,提出基于正文结构树及关键句的算法。算法中提取包含关键词的句子作为特征句,且特征句的数目由段落长度决定,使得提取的特征句的数目更全面的概括文章内容。实验表明,改进算法去重准确率、召回率都有所提高。特征项的粒度越小,散列后的特征指纹越不易被干扰。依据此特性,本文提出了基于正文结构树及特征串的去重算法。首先,此算法中提取网页中高频标点所在句子中的首尾汉字作为特征码。其次,利用Bloom Filter算法获取特征指纹。最后,按层次指纹进行相似度判别。实验表明,此算法在召回率方面有大幅度提高,在对小文档去重上表现的尤其明显,且大大降低了去重时间。(本文来源于《重庆大学》期刊2013-04-01)
孙明柱,魏海平[4](2011)在《基于结构树的网页正文内容抽取方法》一文中研究指出网页文本抽取是一种在互联网上运用广泛的数据挖掘技术,主要目的是把一个网页的主题内容抽取出来,为Web数据挖掘提供好的基础数据。基于网页树形结构进行改进,首先对网页进行分块,把每一块存储在树形结构当中,然后通过对所有块进行方差和阈值计算,选择出主题信息。该方法相比传统的基于正则表达式的抽取方法,具有简单、实用的特点。实验结果表明,该抽取方法准确率达到96%以上,有一定的实用价值。(本文来源于《科学技术与工程》期刊2011年28期)
刘秉权,王喻红,葛冬梅,李佳[5](2007)在《基于结构树解析的网页正文抽取方法》一文中研究指出本文采用一种基于结构树解析的方法来实现中文网页正文的抽取。这种方法利用了中文网页中内容信息结构相似和分布聚集的特性,实现简单,通用性好,可以克服包装器方法需要针对特定数据源的缺点。该方法在分析网页时是利用DOM(Document Object Model)的树结构来进行的,通过把网页解析为DOM树使分散的网页有序化。目前该方法已经应用到面向移动平台的新闻信息自动分类系统中,很好地满足了系统的需求。(本文来源于《黑龙江省计算机学会2007年学术交流年会论文集》期刊2007-08-01)
正文结构树论文开题报告
(1)论文研究背景及目的
此处内容要求:
首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。
写法范例:
网页正文信息的正确提取与分段,对文本信息挖掘等具有重要的意义。本文提出并实现一种从Web页面获取正文信息并能够正确分段的方法。该方法首先利用网页布局标签<table>和<div>构建一个DOM结构树,然后利用DOM结构树所反映出的布局标签的嵌套关系,对内容块进行取舍,提取出正确的正文信息,最后利用对一些特殊标签的处理,实现正文信息的分段。实验表明,该方法易实现、效率高,能自动准确地提取正文信息并分段。
(2)本文研究方法
调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。
观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。
实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。
文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。
实证研究法:依据现有的科学理论和实践的需要提出设计。
定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。
定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。
跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。
功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。
模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。
正文结构树论文参考文献
[1].马月.基于正文结构树的近似网页去重研究[D].燕山大学.2016
[2].周建,汤进,罗斌.基于DOM结构树的网页正文信息分段方法[J].计算机与现代化.2013
[3].牙漫.基于网页正文结构树的近似网页去重算法研究[D].重庆大学.2013
[4].孙明柱,魏海平.基于结构树的网页正文内容抽取方法[J].科学技术与工程.2011
[5].刘秉权,王喻红,葛冬梅,李佳.基于结构树解析的网页正文抽取方法[C].黑龙江省计算机学会2007年学术交流年会论文集.2007