包装器生成论文-李丹

包装器生成论文-李丹

导读:本文包含了包装器生成论文开题报告文献综述及选题提纲参考文献,主要关键词:Web信息抽取,包装器,树型结构

包装器生成论文文献综述

李丹[1](2017)在《一种基于树型结构的包装器生成算法研究》一文中研究指出在对传统算法Road Runner研究基础上,本文提出一种基于树型结构的包装器生成算法。在对训练样本进行匹配过程中,引入树型结构进行比较,算法运算效率明显提升,对迭代项和可选项的识别也更加精准。(本文来源于《电子测试》期刊2017年24期)

沈迅[2](2010)在《基于Web页面嵌套模式的包装器生成系统的设计与实现》一文中研究指出随着互联网的高速发展,人们越来越需要从海量的数据中找到自己所需的信息,这些信息大多数都存储在半结构化的Web页面中,以HTML语言表示的Web页面只适合人阅读,计算机是无法理解和自动处理这些信息的。如果能够把Web页面中有用的信息提取出来,存储为计算机易于处理的数据结构,那么就大大加强了对信息的查询和处理的能力。因此,把来自多个网站域的Web页面中的有用信息提取出来,并进行集成,存储为传统的数据库形式是必要的,这就是Web信息提取与集成技术,目前Web信息的自动提取主要是通过包装器(Wrapper)实现的。在Deep Web中,对于具有嵌套结构的Web页面,本文实现了一个能自动生成包装器的系统。对给定的Web页面,该系统分四步构造包装器:1.对Web页面进行预处理,去除网页噪声。针对已有的基于DOM树的去噪算法的缺陷,本文提出了一种新的去噪算法:ENDW(Eliminating Noisy Data in Web pages),它的主要特点是充分利用查询关键字,能够有效的保证Web页面中有效数据的完整性。2.对经过预处理和除噪后的Web页面,把它们的HTML代码看作字符串,用Ukkonen算法构造其后缀树。引入后缀树的目的是找到Web页面内的连续重复子串。3.利用后缀树找到HTML代码中的连续重复子串。由于Deep Web页面内的数据记录构成了连续重复子串,可以用嵌套模式来对Web页面进行建模。得到HTML页面内的连续重复子串后,就可以进一步归纳出能够描述Web页面嵌套模式的正则表达式。4.生成Web页面嵌套模式的正则表达式,即包装器。(本文来源于《北京邮电大学》期刊2010-05-01)

王小朋,李义杰[3](2006)在《基于解释学习的包装器生成》一文中研究指出开发Web信息抽取系统的核心是为各个Web信息源构造包装器,而构造包装器的关键在于规则学习器。鉴于传统的规则学习器一般都基于单一的学习策略,结合归纳学习和分析学习的优点,提出了基于解释学习的规则学习器,以此为核心生成包装器,并将其应用到了实际的包装器生成系统中去。(本文来源于《计算机与数字工程》期刊2006年05期)

包装器生成论文开题报告

(1)论文研究背景及目的

此处内容要求:

首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。

写法范例:

随着互联网的高速发展,人们越来越需要从海量的数据中找到自己所需的信息,这些信息大多数都存储在半结构化的Web页面中,以HTML语言表示的Web页面只适合人阅读,计算机是无法理解和自动处理这些信息的。如果能够把Web页面中有用的信息提取出来,存储为计算机易于处理的数据结构,那么就大大加强了对信息的查询和处理的能力。因此,把来自多个网站域的Web页面中的有用信息提取出来,并进行集成,存储为传统的数据库形式是必要的,这就是Web信息提取与集成技术,目前Web信息的自动提取主要是通过包装器(Wrapper)实现的。在Deep Web中,对于具有嵌套结构的Web页面,本文实现了一个能自动生成包装器的系统。对给定的Web页面,该系统分四步构造包装器:1.对Web页面进行预处理,去除网页噪声。针对已有的基于DOM树的去噪算法的缺陷,本文提出了一种新的去噪算法:ENDW(Eliminating Noisy Data in Web pages),它的主要特点是充分利用查询关键字,能够有效的保证Web页面中有效数据的完整性。2.对经过预处理和除噪后的Web页面,把它们的HTML代码看作字符串,用Ukkonen算法构造其后缀树。引入后缀树的目的是找到Web页面内的连续重复子串。3.利用后缀树找到HTML代码中的连续重复子串。由于Deep Web页面内的数据记录构成了连续重复子串,可以用嵌套模式来对Web页面进行建模。得到HTML页面内的连续重复子串后,就可以进一步归纳出能够描述Web页面嵌套模式的正则表达式。4.生成Web页面嵌套模式的正则表达式,即包装器。

(2)本文研究方法

调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。

观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。

实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。

文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。

实证研究法:依据现有的科学理论和实践的需要提出设计。

定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。

定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。

跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。

功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。

模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。

包装器生成论文参考文献

[1].李丹.一种基于树型结构的包装器生成算法研究[J].电子测试.2017

[2].沈迅.基于Web页面嵌套模式的包装器生成系统的设计与实现[D].北京邮电大学.2010

[3].王小朋,李义杰.基于解释学习的包装器生成[J].计算机与数字工程.2006

标签:;  ;  ;  

包装器生成论文-李丹
下载Doc文档

猜你喜欢