导读:本文包含了查询接口发现论文开题报告文献综述及选题提纲参考文献,主要关键词:Deep,Web,查询接口发现,元数据信息抽取,集成
查询接口发现论文文献综述
项江[1](2016)在《面向领域的Deep Web查询接口发现与元数据信息抽取研究》一文中研究指出在互联网中,大量的信息隐藏在深处而导致普通搜索引擎不能直接搜索到,然而绝大部分这些搜索引擎无法搜索到的信息正是我们需要的重要内容。这些在互联网上存储在网络数据库里,用户却无法通过超链接的形式访问的资源被称为Deep Web数据。为了获得这些深层网的信息,需要通过它们的查询接口提交查询,建立一个Deep Web信息集成系统,查询接口的发现﹑分类和构建元数据库等是首要任务。但是,深度网中的信息存储在不同的Web数据库里,并且随时都在进行动态变化,相应的查询接口也经常变化着,对元信息的获取产生了巨大的困难。作为集成框架的基础,如何正确、有效的进行Deep Web查询接口的发现、元数据信息抽取显得尤为重要。针对上面的主要问题,本文研究的重点内容在于:(1)对Deep Web查询接口的发现进行研究,本文提出了基于规则的方法,通过爬取相关URL获得相应信息源的查询接口所在的网页,定位该网页中查询接口所在的位置,并获取该信息源的接口信息进行存储。(2)对Deep Web源信息的抽取进行研究,本文主要采用了基于视觉特征和自定义规则的方法,来获取到源查询接口中的属性信息,并将这些信息存储在元信息库中。(3)对获取到的Deep Web源信息进行管理,主要采用表格方式存储数据,为系统集成和结果处理提供便利。(4)通过多线程的技术初步解决了多个信息源元数据更新的效率问题。本文最后对Deep Web元数据信息的抽取结果进行了实验验证。实验结果表明所使用的发现、抽取方法具有可行性和较好的性能,所获取的结果适用于Deep Web系统集成以及查询结果处理。同时,查询接口元信息的管理模块具有一定的可扩展性,为Deep Web集成系统的设计打下较好的基础。(本文来源于《暨南大学》期刊2016-04-20)
魏佳欣,叶飞跃[2](2016)在《基于HTML特征与层次聚类的Web查询接口发现》一文中研究指出针对各网站Web查询接口(WQI)因结构异构而难以被自动发现的问题,提出一种基于超级文本标记语言(HTML)特征和层次聚类的Web查询接口发现方法。利用HTML控件元素之间的层级结构、依附关系和HTML交互控件的终端特性,通过前序和后序遍历相结合的方式解析页面,建立合适的页面树状模型。按照查询区域交互密度的局部集中性定位并初始化聚类集合。将聚类集合中各潜在接口区域结构距离的相似性进行层次聚类,并对所得潜在接口中的交互控件选择合适的文本节点进行语义标注,得出完整WQI区域,利用接口中的文本特征过滤非查询接口。实验结果表明,该方法克服了传统方法对<form>标签的过度依赖,具有较强的通用性,接口识别率与准确率分别达到90.7%和92%。(本文来源于《计算机工程》期刊2016年02期)
李振兴[3](2014)在《面向领域的Deep Web查询接口发现研究》一文中研究指出深层网络指的是位于表层网络之下所隐藏的数据,需要用户填写表单发送查询请求才能获取,其数据量远远超过表层网络且信息价值巨大。由此原因,如何挖掘出位于深层网络中的海量数据成为了研究热点,特别是Deep Web的信息集成研究尤为重要。Deep Web数据集成中的第一步是Web数据库的发现,也就是查询接口的发现。但由于深层网络的数据位于众多的web数据库中,并且处于不断的变化中,相应的接口也可能随之改变,增大了获取的难度。其中最为突出的技术难点是:一,Web数据库分布广泛且数量巨大,获取包含查询接口的网页信息的效率问题有待提高;二,查询接口都是以表单的形式存在,但并非所有的表单都是查询接口,如何从中正确地筛选出Deep Web查询接口、提高分类正确性也是亟待解决的问题。围绕着Deep Web查询接口发现中的两个难题,本文主要做了以下工作:首先,对Deep Web进行研究,其中包括Deep Web的概念、规模、存在方式、获得方法以及Deep Web查询接口发现中的一些关键问题,提出本文研究的研究方向和内容。其次,对查询接口发现中用到的相关技术进行分析,包括通常用的DOM解析和启发式规则研究,然后分析了查询接口发现的主要算法,并进行比较。再次,针对面向领域的Deep Web查询接口获取的效率问题,本文提出了一种查询接口发现算法,包括基于单线程和多线程算法,并进行试验对比,结果显示基于多线程的算法效率提升显着。最后,为了从获取的网页表单中正确地筛选出Deep Web查询接口,本文在前人研究的基础上,提出了基于启发式规则的K最近邻算法,用于从表单中正确识别出Deep Web查询接口,为了进行实验验证,本文从多种途径多个领域取得查询接口和非查询接口,并分别进行实验,实验结果表明,该算法能明显提高对Deep Web查询接口的辨别能力,特别市在面向图书领域的实例中,在查重率和查全率方面都有明显提升。(本文来源于《暨南大学》期刊2014-04-20)
陈海[4](2012)在《Deep Web查询接口发现与模式抽取的研究》一文中研究指出随着互联网的迅猛发展,Web上信息量呈爆炸式增长,然而其中很大一部分信息却被隐藏在在线数据库中。由于传统搜索引擎大都根据网页链接进行信息搜索,因此用户只能通过查询接口来获取这部分被称为"Deep Web"的隐藏信息,而无法借助传统搜索引擎。近年来,Deep Web信息规模之大、质量之高、应用之广,逐渐引起了国内外专家学者的广泛关注,并成为信息检索领域的研究热点。然而,由于Deep Web数据的异构性和动态性,有效地把这些信息加以利用是一件颇具挑战性的工作,其中亟需解决的关键问题包括:查询接口发现、模式抽取、接口集成、查询转换以及结果信息抽取等。目前,针对这些问题已经展开了大量的研究工作,并取得了一系列研究成果,但还存在许多不足和亟待完善的地方。本文针对Deep Web数据集成中特定领域查询接口发现和模式抽取中的特征空间维度高、忽略传统搜索引擎、模式抽取精度不高以及人工干预比较多、没有实现全自动方式等问题进行了深入的研究,主要研究成果如下:(1)提出了通过构造多层分类器获取包含特定领域查询接口页面的方法。查询接口的发现是Deep Web数据集成研究中需解决的首要问题。本文首先对定向爬虫返回的页面进行是否含有Form表单的过滤,去掉非查询接口,并根据关注点的不同将分类器模型构造为可查询接口分类、特定领域分类、传统搜索引擎分类等多个层次,将页面的不同特征放在多层分类器上训练,从而降低特征空间维度,提高查询表单领域分类的精度。进一步对查询表单中的传统搜索引擎进行过滤,最终得到包含特定领域查询接口的页面。实验表明,该方法可以减少人工干预,有效消除噪音,提高分类效果。(2)提出了基于空间聚类的Deep Web查询接口模式抽取方法。Deep Web查询接口模式是由所包含的多个属性构成的,但HTML并没有明确规定如何定义接口模式,因此要想正确理解查询接口的模式信息是非常困难的。本课题从查询接口集成和转换入手,应用空间聚类算法抽取层次结构属性树,并利用查询接口属性的空间位置关系(相邻、对齐方式和方位)发现它们之间的内在关系,进而采用ATTACH和ATTACHONE算法将查询接口中的标签分配到层次结构属性树上,实现Deep Web查询接口模式的抽取。实验表明,空间聚类算法对于查询接口属性之间的顺序识别率较高,可以在查询接口模式抽取中取得良好的效果。(本文来源于《首都师范大学》期刊2012-04-15)
贺迅[5](2012)在《Deep Web查询接口发现与特征提取技术研究》一文中研究指出伴随着Internet快速发展,许多网络应用深入人们日常生活,搜索引擎技术是其中的佼佼者。传统的搜索引擎技术无法找到的网络数据资源被称为Deep Web。Deep Web数据挖掘研究是网络数据管理与集成的热点研究方向。现阶段的Deep Web研究主要集中在查询接口深度集成和查询结果模式抽取两方面,目的是建立起Deep Web数据集成框架,但是真正的集成体系尚未构建完善。作为集成框架的基础,正确有效的进行Deep Web查询接口发现、分类、集成处理尤为重要。本文研究工作是寻找一种自动深度网查询接口发现技术和查询接口特征提取技术从而有效的进行查询接口深度集成,主要研究及成果如下:第一:Deep Web页面的标签特性、视觉特性、层次特性通过对大量Deep Web页面的分析,发现了Deep Web页面存在着标签特性,视觉特性,层次特性。标签特性方面,分析Deep Web页面的HTML文档将其标签结构转化为树形结构,从而更好的利用计算机进行数据分析和处理;视觉特性方面,分析了Deep Web页面的页面布局,通过对各个标签的视觉特征属性进行分析从而将其转化为视觉块,标签视觉块的有效组合拼凑构成了页面整体;层次特性方面,根据人们浏览网页资源时的视觉特性以及网页标签的树形结构,构建标签树层次结构对应的视觉图层,页面是视觉图层的迭加。第二:基于层次结构的Deep Web查询接口发现结合Deep Web页面的标签、视觉、层次特征,文本提出了基于层次结构的DeepWeb查询接口发现技术。该方法通过分析页面的总体标签结构构建出页面的标签树,通过分析标签的视觉特征构建出视觉块,然后将标签树各个层次按视觉块堆积转化为视觉图层,分析查询接口的标签特性和视觉特性以及查询接口占据页面核心区域的特点,最后计算控件标签的聚合度来判断查询接口。第叁:基于潜在领域的查询接口特征提取深度网查询接口由多个控件和词组汇集而成,本文将查询接口转化为纯文本,然后结合文本处理的研究方法来处理查询接口的特征提取,论文提出基于潜在领域的查询接口特征提取技术。该方法基于潜在领域模型,针对每个词都有属于不同主题、领域不同概率这一特性,通过对查询接口文本进行聚类分析,判断出文本潜在领域,最终提取出深度网数据源领域相关词汇作为查询接口的特征。(本文来源于《重庆大学》期刊2012-04-01)
胡道京[6](2010)在《决策树算法研究及在查询接口发现中的应用》一文中研究指出本文针对决策树学习过程中存在的多值偏向问题,提出两种改进方法,从不同的角度来解决ID3算法的缺陷并优化决策树学习算法。同时,在算法优化的基础上,以Eclipse为开发平台,设计实现了决策树算法演示软件,将其作为算法的实验平台,并使用UCI机器学习数据集作为实验数据,对相应的算法进行实验效果的验证。同时又将决策树学习算法应用到Deep Web查询接口发现中,更好的对查询接口进行分类与发现。本文的主要研究成果概括为以下四个方面:(1)分析研究决策树构建过程中存在的多值偏向问题,并在此基础上提出了一种基于等预测能力的决策树分支合并算法,采用预剪枝的策略对非叶子节点中分类预测能力相等的分支进行合并。(2)针对经典ID3算法中采用信息增益作为选择标准存在多值偏向问题,引入均欧氏距离作为启发信息,提出了一种基于均欧氏距离的决策树优化算法,通过理论分析,该算法可以有效的克服多值偏向问题。(3)以决策树算法演示软件作为实验平台,将上述方法应用于其中,分析各个算法的优劣和各类参数的性能比较,并提出可以进一步改进实验效果的若干思想。(4)以Deep Web为应用平台,将改进的决策树优化算法应用于Deep Web查询接口发现中,改善了过去查询接口发现中分类准确率较低,时间开销较大的问题。(本文来源于《苏州大学》期刊2010-04-01)
林培光,吕超[7](2008)在《领域Web数据库查询接口的自动发现》一文中研究指出由于Deep Web查询接口的自动发现是获取Deep Web信息的基础,提出了基于搜索引擎的表单发现方法和基于语义相似度的查询表单判定方法.该文首先定义了查询表单的特征的表示方法,然后自动提取样本查询接口的特征并将其中的文字特征进行组合提交给搜索引擎以实现查询表单的搜索,最后基于语义相似度和字面相似度的方法判定搜索表单和样本表单之间的相似度,并由此判定是否是WDB的查询接口.实验证明该文方法具有良好的可行性和实用性,为深入研究Deep Web提供了良好的条件.(本文来源于《江西师范大学学报(自然科学版)》期刊2008年02期)
查询接口发现论文开题报告
(1)论文研究背景及目的
此处内容要求:
首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。
写法范例:
针对各网站Web查询接口(WQI)因结构异构而难以被自动发现的问题,提出一种基于超级文本标记语言(HTML)特征和层次聚类的Web查询接口发现方法。利用HTML控件元素之间的层级结构、依附关系和HTML交互控件的终端特性,通过前序和后序遍历相结合的方式解析页面,建立合适的页面树状模型。按照查询区域交互密度的局部集中性定位并初始化聚类集合。将聚类集合中各潜在接口区域结构距离的相似性进行层次聚类,并对所得潜在接口中的交互控件选择合适的文本节点进行语义标注,得出完整WQI区域,利用接口中的文本特征过滤非查询接口。实验结果表明,该方法克服了传统方法对<form>标签的过度依赖,具有较强的通用性,接口识别率与准确率分别达到90.7%和92%。
(2)本文研究方法
调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。
观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。
实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。
文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。
实证研究法:依据现有的科学理论和实践的需要提出设计。
定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。
定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。
跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。
功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。
模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。
查询接口发现论文参考文献
[1].项江.面向领域的DeepWeb查询接口发现与元数据信息抽取研究[D].暨南大学.2016
[2].魏佳欣,叶飞跃.基于HTML特征与层次聚类的Web查询接口发现[J].计算机工程.2016
[3].李振兴.面向领域的DeepWeb查询接口发现研究[D].暨南大学.2014
[4].陈海.DeepWeb查询接口发现与模式抽取的研究[D].首都师范大学.2012
[5].贺迅.DeepWeb查询接口发现与特征提取技术研究[D].重庆大学.2012
[6].胡道京.决策树算法研究及在查询接口发现中的应用[D].苏州大学.2010
[7].林培光,吕超.领域Web数据库查询接口的自动发现[J].江西师范大学学报(自然科学版).2008