数据源包装器论文-刘冬兰

数据源包装器论文-刘冬兰

导读:本文包含了数据源包装器论文开题报告文献综述及选题提纲参考文献,主要关键词:Deep,Web数据集成,Deep,Web数据抽取,包装器,最小代价脚本编辑模型

数据源包装器论文文献综述

刘冬兰[1](2013)在《Deep Web数据抽取中自适应包装器问题研究》一文中研究指出随着互联网技术的飞速发展,Deep Web网站上拥有着海量的数据,并且在快速地增长,使Web成为一个巨大的数据源,这些信息要通过查询接口在线访问其后端的Web数据库。尽管Deep Web中蕴藏了大量丰富的有价值信息,但是Deep Web数据具有动态变化性和异构性等特点,对这些信息进行有效利用是非常有挑战性的工作。Deep Web数据集成至今仍然是一个研究热点,Deep Web数据集成可以对Web数据进行有效整合,为电子商务、市场情报分析、舆情分析等应用提供支持。Deep Web数据抽取是Deep Web数据集成中的核心问题,对Deep Web页面中广泛存在的非结构化和半结构化的数据进行有效地抽取,是实现Deep Web数据集成的基础,为数据融合和数据分析等提供服务。由于Deep Web页面都是基于脚本生成的网页,许多的文档共享公共的Html树结构,通常使用包装器来有效地抽取Web数据。由于Deep Web数据的异构性和动态性,Deep Web网页结构经常发生变化,导致包装器出现中断,从而需要重新学习包装器。Deep Web数据抽取中自适应包装器问题研究中,还存在以下问题有待解决:(1)研究如何提高抽取包装器的健壮性,即当Web网页发生变化时,包装器在新网页中继续保持抽取数据的能力。(2)研究抽取规则是否具有通用性,即针对某一数据源构造的抽取规则能否做自适应调整以便应用于另一数据源,实现领域自适应的抽取。本文针对网站上大量的Deep Web网页,以Deep Web数据集成为目标,针对以上两个待解决的关键问题展开研究,探索了构建健壮的包装器用于Deep Web数据抽取的问题,主要工作与研究成果概括如下:(1)针对包装器健壮性问题,提出了一种基于最小代价脚本编辑模型的健壮的Deep Web数据抽取方法。通过监控网页随着时间变化的过程中,统计插入、删除、替换叁种编辑操作对每个Html标签的变化频率,根据编辑操作变化的频率计算相应的编辑代价,并在此基础上建立抽取模型用于健壮的Deep Web数据抽取。根据网页的变化,调整抽取规则,使得构造的抽取规则能更好的适应网站的变化。实验结果表明,该方法构造的包装器具有较高的抽取准确率,有效解决了Deep Web数据抽取中自适应抽取的问题,提高了Deep Web数据抽取的健壮性和灵活性。(2)根据自底向上(Bottom-up)的逻辑归纳设计思想,提出了一种最小的候选包装器的生成方法。该方法使得构造的包装器的查准率(Precision)和查全率(Recall)都接近于1,提高了包装器的抽取准确率。实验结果表明,该方法构造的包装器具有较小的破损率,抽取准确率较高。(3)针对包装器通用性问题,提出了一种自举法(Bootstrapping)的方式学习包装器,实现领域自适应的抽取。对51job招聘站点上训练得到的抽取模型,用于同领域内其他招聘网站如智联招聘、应届生求职等网站,随机采样一些网页用此抽取模型进行学习,从采样页面中抽取特征后,将抽取模型用于新的网站来识别属性值;由此得到的抽取规则进一步代替之前有标签的样本页面,通过自举式学习抽取模型,使得构造的包装器具有较高的通用性。实验结果表明,本文提出的方法有效地提高了目标网站的抽取准确度,有效解决了从大规模的Deep Web数据中进行抽取的高效性问题。(本文来源于《山东大学》期刊2013-04-05)

罗伟[2](2011)在《Web数据集成中包装器自适应方法研究》一文中研究指出随着互联网的快速发展,Web上产生了大量与领域相关的信息,这些信息也成了人类获取知识的重要来源。互联网已经成为一个巨大的信息交流平台,大量的信息嵌入在Web页面中。Web页面是一种半结构化的数据,Web数据抽取可以将这种半结构化数据抽取并转化为结构化数据,从而为进一步的知识获取做准备,这一过程通常采用一个称之为包装器的应用程序来实现。包装器的工作依赖于页面的结构信息,然而由于互联网的动态特征,站点可能会经常更新其展现形,导致了Web页面结构发生变化,这一变化最终导致包装器停止工作。包装器自适应针对这一问题开展相关的研究。包装器的自适应研究可以分为两个子问题:包装器校验和包装器重归纳。第一个子问题是如何对包装器返回数据进行有效性校验,确保包装器处于正常工作的状态。当站点结构发生变动时,旧的包装器可能无法继续抽取到数据,或者抽取出来的数据是完全错误的,当系统检测出这一情况发生时,对设计者进行提醒,或自动执行包装器修复过程进行修复。包装器重归纳系统对抽取规则进行修复从而使包装器能够在结构变化后的新页面上正常工作。本文充分利用Web数据集成系统中已有数据提供的信息,利用其展现出来的数据特征对新抽取的数据记录进行校验,检测包装器是否正常工作。同时结合Web页面自身体现各种特征,对Web数据页面中的属性标签和数据元素进行准确的标记,生成良好的训练样例,辅助生成新的包装器。实验结果表明,该方法有效地提高了包装器的自适应性能。(本文来源于《山东大学》期刊2011-04-20)

李宏伟,史培中,张素智[3](2009)在《一种可行的Web数据抽取包装器的设计方法》一文中研究指出Web包装器是根据特定的抽取规则从特定的Web数据源执行数据抽取程序,设计Web包装器是Web信息抽取和集成的关键技术。针对网页结构的不确定性和易变性,详细阐述了一种基于预定义模式的Web包装器的设计与实现过程,并选取了几个出版社的新书发布Web页面进行了数据抽取验证和抽取结果分析,取得了较好的效果。充分体现了此Web包装器的可行性,并具有一定的高效性及可维护性,能够应用在基于Wrapper/Mediator方法的Web数据集成。(本文来源于《计算机应用与软件》期刊2009年03期)

李宏伟,史培中,张素智[4](2009)在《一种高效Web数据抽取包装器的设计与实现》一文中研究指出Web包装器是根据特定的抽取规则从特定的Web数据源执行数据抽取程序,设计Web包装器是Web信息抽取和集成的关键技术。详细阐述了一种基于预定义模式的Web包装器的设计与实现过程,并选取了几个出版社的新书发布Web页面进行了数据抽取验证和抽取结果分析,取得了较好的效果。充分体现了此Web包装器的可行性、高效性及可维护性,能够应用在基于Wrapper/Mediator方法的Web数据集成。(本文来源于《计算机技术与发展》期刊2009年02期)

陈志伟[5](2008)在《数据集成中包装器的研究与实现》一文中研究指出随着计算机网络的飞速发展和信息化建设的大力推进,各种网络中可供利用的信息总量正以惊人的速度增长。但这些为不同应用服务的信息都存储在许多不同的数据源之中,其数据内容,数据格式千差万别,且其管理系统也各不相同。为了有效使用长期积累的数据,需要对异构数据进行共享一致处理。由于所集成的各数据源的异构性,即存在着数据库管理系统(DBMS)的差异,或者操作系统(OS)的差异,需要对参与集成的各个数据源进行包装格式转换,向外提供统一的无差别的调用接口,与数据源相关的数据格式包装转换都是在包装器中实现,数据源通过包装器向外提供外观视图,集成器分解后基于单源的查询也是交给包装器执行,并按照集成器能理解的格式返回结果。本文面向叁大主流关系数据库(ORACLE,DB2,SQL SERVER)平台异构性问题的克服,主要工作有下面几个方面。1)探索了数据库DBMS的异构性问题,主要集中在数据类型异构性上,并提出了公共数据类型,及其和各个关系数据库数据类型的转换关系。2)设计并实现了关系型数据库的包装器,实现包装器的基本功能。(本文来源于《暨南大学》期刊2008-05-01)

杨勇生[6](2008)在《数据集成平台中多数据源包装器的实现》一文中研究指出随着当今社会信息化程度的不断提高,企业应用往往需要从大量异构、分布、自治的多数据源中提取数据,如何屏蔽底层异构数据源,将异构数据映射为统一的数据模型,以及如何快捷有效地为上层应用提供对异构数据的访问,成为现阶段企业数据集成领域研究的重要课题。本文以中间件模型的设计思想为基础,研究数据集成平台中底层多数据源映射的相关技术。基于Eclipse平台,以开发多数据源集成框架为目标,设计实现了一个多数据源包装器。该包装器由数据源配置模块和查询模块构成,分别用来配置和查询底层多数据源。其中数据源配置模块作为Eclipse插件项目开发,以向导的形式供用户配置底层数据源,获得数据源的元数据,并将元数据提交给数据服务开发平台,供数据服务开发工具开发数据服务,同时自动生成数据源配置文件;而查询模块提供统一的接口供数据服务管理组件调用,功能包括解析数据源配置文件和查询脚本文件,得到查询信息和数据源配置信息,开发并利用XQuery解析器将XQuery格式的查询语句转化为等价的SQL查询语句,将查询请求映射到具体的底层数据源进行查询,以及将查询结果转化为XML格式。对包装器的扩展性做出了讨论,结合具体的实例说明了包装器的功能。综上所述,本文从数据集成框架的设计,以及底层多数据源包装器的设计展开了一系列工作,最终实现了一个高效的、扩展性强的、涵盖包括数据库、XML文件和文本文件等多种异构数据源的多数据源包装器,为异构系统的集成提供了有力工具,并对集成框架的进一步改进做出了探讨。(本文来源于《天津大学》期刊2008-05-01)

皇甫昱,魏衍君[7](2007)在《基于XML的关系型数据源包装器的设计》一文中研究指出用XML表示的半结构化数据越来越普遍,同时,大量的结构化数据组织存放在关系数据库中。如何集成这些不同结构的数据成为了研究的一个热点。本文设计了一种关系型数据源包装器,它主要具有两个功能模块,一个负责将XQuery查询转换为SQL查询,称为查询转换器;另一个负责将SQL查询返回的元组转换为XML数据格式,称为结果产生器。包装器是一种软件,它相当于数据源的外衣,不影响数据源的本身,它是异构数据集成系统的一个重要组成部分。(本文来源于《中国教育信息化》期刊2007年17期)

王豫[8](2007)在《基于SOA架构异构数据源包装器的设计与实现》一文中研究指出生产生活中信息量的迅速增长,使得人们对数据的需求不仅仅局限于本地数据源的数据,对于异地数据的需求量也与日俱增。异地数据的异构性使企业、部门和机构间的数据访问存在诸多的不便,降低了信息的利用效率。 本文的研究基于国家发展与改革委员会高新技术产业化项目:协同业务集成中间件平台SynchroBIP(Business Integrator Platform)项目中的企业服务总线系统SynchroESB。该系统实现了企业信息系统中各应用软件系统和各异构数据源间的互操作,使用户方便、快捷、准确的从异构数据源上获取数据,而无需了解具体数据源的信息结构和访问接口。 包装器作为系统重要的组成部分,用于对异构数据源进行包装和适配,将外部的应用系统连接进入服务总线,使其能够以标准的消息交换与其它的程序组件和应用系统进行交互,提供了对数据库、消息服务器和遗留系统的广泛连接,本文即对其进行了深入研究。 论文首先对XML相关技术、结构化和非结构化的异构数据源理论以及面向服务的体系架构与企业服务总线等相关理论基础进行了论述。 其次,对面向服务的SynchroESB软件平台的系统架构进行了简要的描述。在该架构的基础上,从详细说明一个具体应用场景在系统中的部署、执行入手,引出包装器在SynchroESB系统中的目的、作用和存在形式。 然后,详细阐述了结构化数据源数据库包装器的设计及关键技术实现,包括:XML文档解析技术、关系数据库与XML之间的映射技术和XPath与SQL之间的查询转换技术。并通过分析Web页面特点和叁种Web信息抽取技术,提出了一种非结构化数据源Web包装器的设计方案,通过网页解析、目的模式定义和样本学习,实现半自动化的Web信息抽取。 最后,对数据源包装器技术作了进一步的探讨和展望。(本文来源于《西北工业大学》期刊2007-03-01)

刘卫宁,朱怡[9](2006)在《ITS虚拟共用信息平台的数据集成包装器》一文中研究指出针对ITS虚拟共用信息平台各子系统数据异构、分布存储的特点,采用异构数据集成模型,探讨了ITS虚拟共用信息平台的数据集成方案,并结合ITS虚拟共用信息平台的体系结构,设计了ITS虚拟共用信息平台的数据集成包装器,并对包装器时间中的关键技术以及包装器的具体实现过程进行了详细说明。(本文来源于《计算机工程与设计》期刊2006年22期)

魏衍君,唐培林[10](2006)在《基于XML的关系型数据源包装器的设计》一文中研究指出用XML表示的半结构化数据越来越普遍,同时,大量的结构化数据组织存放在关系数据库中,如何集成这些不同结构的数据成了研究的一个热点。文章设计了一种关系型数据源包装器,它主要有两个功能模块,一个负责将XQuery查询转换为SQL查询,称为查询转换器;另一个负责将SQL查询返回的元组转换为XML数据格式,称为结果产生器。包装器是一种软件,它相当于数据源的外衣,不影响数据源的本身,它是异构数据集成系统的一个重要组成部分。(本文来源于《计算机时代》期刊2006年10期)

数据源包装器论文开题报告

(1)论文研究背景及目的

此处内容要求:

首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。

写法范例:

随着互联网的快速发展,Web上产生了大量与领域相关的信息,这些信息也成了人类获取知识的重要来源。互联网已经成为一个巨大的信息交流平台,大量的信息嵌入在Web页面中。Web页面是一种半结构化的数据,Web数据抽取可以将这种半结构化数据抽取并转化为结构化数据,从而为进一步的知识获取做准备,这一过程通常采用一个称之为包装器的应用程序来实现。包装器的工作依赖于页面的结构信息,然而由于互联网的动态特征,站点可能会经常更新其展现形,导致了Web页面结构发生变化,这一变化最终导致包装器停止工作。包装器自适应针对这一问题开展相关的研究。包装器的自适应研究可以分为两个子问题:包装器校验和包装器重归纳。第一个子问题是如何对包装器返回数据进行有效性校验,确保包装器处于正常工作的状态。当站点结构发生变动时,旧的包装器可能无法继续抽取到数据,或者抽取出来的数据是完全错误的,当系统检测出这一情况发生时,对设计者进行提醒,或自动执行包装器修复过程进行修复。包装器重归纳系统对抽取规则进行修复从而使包装器能够在结构变化后的新页面上正常工作。本文充分利用Web数据集成系统中已有数据提供的信息,利用其展现出来的数据特征对新抽取的数据记录进行校验,检测包装器是否正常工作。同时结合Web页面自身体现各种特征,对Web数据页面中的属性标签和数据元素进行准确的标记,生成良好的训练样例,辅助生成新的包装器。实验结果表明,该方法有效地提高了包装器的自适应性能。

(2)本文研究方法

调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。

观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。

实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。

文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。

实证研究法:依据现有的科学理论和实践的需要提出设计。

定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。

定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。

跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。

功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。

模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。

数据源包装器论文参考文献

[1].刘冬兰.DeepWeb数据抽取中自适应包装器问题研究[D].山东大学.2013

[2].罗伟.Web数据集成中包装器自适应方法研究[D].山东大学.2011

[3].李宏伟,史培中,张素智.一种可行的Web数据抽取包装器的设计方法[J].计算机应用与软件.2009

[4].李宏伟,史培中,张素智.一种高效Web数据抽取包装器的设计与实现[J].计算机技术与发展.2009

[5].陈志伟.数据集成中包装器的研究与实现[D].暨南大学.2008

[6].杨勇生.数据集成平台中多数据源包装器的实现[D].天津大学.2008

[7].皇甫昱,魏衍君.基于XML的关系型数据源包装器的设计[J].中国教育信息化.2007

[8].王豫.基于SOA架构异构数据源包装器的设计与实现[D].西北工业大学.2007

[9].刘卫宁,朱怡.ITS虚拟共用信息平台的数据集成包装器[J].计算机工程与设计.2006

[10].魏衍君,唐培林.基于XML的关系型数据源包装器的设计[J].计算机时代.2006

标签:;  ;  ;  ;  ;  

数据源包装器论文-刘冬兰
下载Doc文档

猜你喜欢