导读:本文包含了包装器模型论文开题报告文献综述及选题提纲参考文献,主要关键词:信息抽取,包装器,DOM树,匹配技术
包装器模型论文文献综述
李知颖[1](2009)在《基于包装器模型的信息抽取算法研究》一文中研究指出随着计算机技术的普及和网络技术的发展, Web己经发展为一个巨大的信息仓库,成为日益重要和最具潜力的全球信息传递与共享的资源。然而,想要快速、准确地从海量的资源中找到所需要的信息并被其他程序所应用,就成为了一大难题。因此,需要应用信息抽取技术从大量的半结构化信息中抽取出结构化的、符合主题的数据。由于HTML网页主要是供浏览的,并不是用来供操纵和使用的,其中的数据很难被应用程序直接使用。因此,将数据从网页中抽取出来并且将它们传递给应用程序使用依然是一个复杂、困难但又有意义的任务。本文对Web信息抽取的一些基本概念做简要介绍,并简述Web信息抽取技术的产生和发展。在此基础上,详细介绍当前Web信息抽取技术的一些常用方法,并对这些方法进行分类,进而对这些方法进行对比分析,指出各种方法的优缺点。作者的工作主要体现在两个方面:一、在WEB页面匹配算法的基础上,采用了先去除噪声的分析与设计思想,对抽取的内容先进行去除噪声处理,将基于视觉的算法与基于DOM树匹配的算法相结合,提出基于视觉的DOM树去噪方法,从而达到提高抽取的效率。二、针对去噪后的页面,研究基于页面树的包装器自动生成方法,结合实例给出发现并解决页面中的选择模式和迭代模式的不匹配方法。通过实验,提出页面匹配树算法。具体分步匹配方法中,先处理字符不匹配和选择不匹配生成初级模板,再处理迭代不匹配后生成终极模板。本文所研究的解决不匹配问题,发现抽象有序树并生成包装器的算法,能够自动地抽取数据,不需要人为干预。(本文来源于《东北师范大学》期刊2009-05-01)
王敬普,林亚平,周顺先,岳文[2](2006)在《基于包装器模型的文本信息抽取》一文中研究指出在分析基于标志和基于文本模式两类算法的基础上,提出了一种新的包装器归纳学习算法。新算法综合上述两类算法的优点,不但能利用页面的标志信息进行信息定位,而且能利用文本的模式信息来进行信息抽取和对抽取结果进行必要的过滤。实验结果表明,新算法具有较高的信息抽取精度与信息表达能力。(本文来源于《计算机应用》期刊2006年03期)
王敬普[3](2005)在《基于包装器模型的文本信息抽取算法研究》一文中研究指出随着因特网技术的迅速发展,网上信息成几何级数增长,如何自动处理这些海量联机文本信息成为目前重要的研究课题。文本信息抽取是指从一段文本中抽取指定的信息(例如事件、事实),并将其形成结构化的数据填入数据库中供用户查询使用的过程。自动文本信息抽取是处理海量文本的重要手段之一。本文研究基于包装器模型的文本信息抽取算法。本文首先总结了叁种常见文本信息抽取模型,对比了叁种文本信息抽取模型的优缺点,着重研究基于包装器模型的文本信息抽取。在分析了基于包装器模型的文本信息抽取典型归纳学习算法的基础上,利用页面的一些重要特性,例如注释和文本模式信息,提出了一种新的归纳学习算法,新算法将注释信息加入到抽取规则的有限状态机的状态序列中,从而能有效地降低算法搜索时间,并能对目标信息进行充分的定位;并且新算法能用学习到的文本模式信息对抽取结果进行必要的过滤。分析和实验结果表明新的算法具有较高的抽取精度和召回率。针对WEB页面结构多变、包装器易于失效这个缺陷,本文提出了一种新的包装器平衡算法,该算法能利用页面上一些不变的重要特性信息来确定数据项的位置,然后对包装器进行修复,从而维持包装器的平衡。实验结果表明,新的算法能适应绝大多数WEB页面的变动,能自动产生新的归纳学习算法,并且具有较高的抽取精度和召回率。考虑到训练数据的手工标记成本很高,本文将主动学习的一些算法应用到上述新提出的归纳学习算法中,用主动学习算法来选择实用价值最高的信息来让用户标记,由此可有效地减少由于用户盲目性而产生的过多的手工操作。(本文来源于《湖南大学》期刊2005-12-12)
包装器模型论文开题报告
(1)论文研究背景及目的
此处内容要求:
首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。
写法范例:
在分析基于标志和基于文本模式两类算法的基础上,提出了一种新的包装器归纳学习算法。新算法综合上述两类算法的优点,不但能利用页面的标志信息进行信息定位,而且能利用文本的模式信息来进行信息抽取和对抽取结果进行必要的过滤。实验结果表明,新算法具有较高的信息抽取精度与信息表达能力。
(2)本文研究方法
调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。
观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。
实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。
文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。
实证研究法:依据现有的科学理论和实践的需要提出设计。
定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。
定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。
跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。
功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。
模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。
包装器模型论文参考文献
[1].李知颖.基于包装器模型的信息抽取算法研究[D].东北师范大学.2009
[2].王敬普,林亚平,周顺先,岳文.基于包装器模型的文本信息抽取[J].计算机应用.2006
[3].王敬普.基于包装器模型的文本信息抽取算法研究[D].湖南大学.2005