查询接口分类论文-苟和平,景永霞,刘强

查询接口分类论文-苟和平,景永霞,刘强

导读:本文包含了查询接口分类论文开题报告文献综述及选题提纲参考文献,主要关键词:Deep,Web,查询接口,特征表示,XML

查询接口分类论文文献综述

苟和平,景永霞,刘强[1](2016)在《一种基于XML分析的Deep Web查询接口分类研究》一文中研究指出Deep Web查询接口分类是实现Deep Web在线数据库分类访问的主要方法,本文在研究查询接口特征数据抽取和表示的基础上,通过对查询接口所在Web页的位置来构建对应的接口特征XML文档,根据XML文档中的节点位置不同,分别为不同的查询接口特征赋予不同的分类权重因子,以提高有效特征的分类能力,并采用信息增益算法实现最终分类特征的选择,然后采用KNN分类算法实现查询接口分类,实验结果表明此方法的实际可行性.(本文来源于《南华大学学报(自然科学版)》期刊2016年02期)

王琳,王行甫,杜云开[2](2016)在《使用双层分类器在垂直搜索中自动识别交互式查询接口》一文中研究指出一框式检索功能普遍提供于各类互联网信息门户的首页,由于需要交互式操作以及返回页面仅包含与用户所提交关键字相关的查询结果等原因,较少受到传统搜索引擎的关注.但是在垂直搜索中,若能够有效利用远程服务器自带的站内检索功能,将在显着降低本地计算资源和带宽消耗的同时,提高查全和查准率.提出并实现了一种用于在主题相关的页面采集过程中自动定位交互式查询接口的双层分类器.针对8个不同领域主题的规模化实验显示,该分类器能够准确过滤非相关域名和非可查表单,实现搜索接口的有效识别.(本文来源于《小型微型计算机系统》期刊2016年06期)

苟和平,景永霞,吴多智[3](2016)在《基于XML Schema的Deep Web查询接口分类研究》一文中研究指出Deep Web在线数据库蕴含大量的信息,但由于这些信息检索困难,利用率不高,本文提出一种基于XML Schema的查询接口分类方法,建立数据查询接口的XML Schema文档,通过各数据源名的语言学相似度实现查询接口的初次分类;根据查询接口标签属性,建立特征-接口向量空间模型实现查询接口向量化,再采用KNN算法进行二次分类,减少KNN算法分类带来的计算开销,提高Deep Web数据检索的效率。(本文来源于《长春大学学报》期刊2016年04期)

石龙,强保华,谌超,吴春明[4](2013)在《基于查询接口文本VSM的Deep Web数据源分类》一文中研究指出随着Internet技术的快速发展,Web数据库数目庞大而且仍在快速增长。为有效组织利用深藏于Web数据库上的信息,需对其按领域进行分类和集成。Web页面上的查询接口是网络用户访问Web数据库的唯一途径,对Deep Web数据源分类可通过对查询接口分类实现。为此,提出一种基于查询接口文本VSM(Vector Space Model)的分类方法。首先,使用查询接口文本信息构建向量空间模型,然后通过典型的数据挖掘分类算法训练分类器,从而实现对查询接口所属领域进行分类。实验结果表明给出的方法具有良好的分类性能。(本文来源于《计算机应用与软件》期刊2013年08期)

任忠良[5](2011)在《深网查询接口模式识别与分类方法的研究》一文中研究指出近年来,大量丰富而有价值的数据在网络中趋于深化,隐藏在查询接口后面的在线数据库中。人们只能通过向特定的Deep Web查询接口提交查询来获取这些动态信息。因此,如何为用户提供面向同一领域的集成查询接口成为人们研究的热点。获取接口所属的领域、包含的属性以及查询能力,即对接口特征信息进行识别并对接口按领域及查询条件的不同进行分类是建立Deep Web集成接口的两个重要问题。本文针对这两方面展开研究。具体工作如下:在识别方面,针对计算、维护复杂以及匹配歧义等问题,提出一种基于标签分组排序的接口识别算法--SortIden:与传统方法中将每一个查询接口作为一个识别单位不同,该方法首先将接口中的标签按排列的方向性和不规则性进行编码并分组;然后以每一个标签组作为一个独立单位进行特征信息识别,提出了简单属性、复合属性的识别方法以及孤立文本的处理方法,通过对标签下标的约束确定与元素匹配的文本;最后,通过两次聚类有效解决了接口层次嵌套问题。考虑到接口模式的多样性和复杂性,当整个接口排列不整齐的时候,提出了基于二维空间切割的接口识别算法—CuttingIden:该方法按标签排列的不规则性及视觉差异将一个接口切割成不同的单元,论文给出了切割的策略及算法;通过标签的横坐标或纵坐标进行约束,给出了以单元为单位进行接口特征信息识别的方法。在分类方面,本文在贝叶斯分类器的基础上兼顾分类效率、准确率、计算量等因素,提出了一种基于贝叶斯的优化分类器——BayesOpt:给出了分类器节点结构设计;提出将对接口查询条件的关注转换成分类器中节点的权值,通过权值大小排列分类器节点的顺序;论文给出了分类器的形成过程、分类器的自学习算法以及采用分类器进行分类的过程。最后,通过实验验证了本文所提方法的合理性。SortIden与CuttingIden有效解决了识别过程中计算、维护复杂以及匹配歧义等问题;与传统分类器相比,BayesOpt在分类效率、准确率、计算量等方面都有明显改善。(本文来源于《吉林大学》期刊2011-12-01)

华慧,伏玉琛,周小科[6](2010)在《基于查询接口文本的Deep Web数据源分类》一文中研究指出根据Deep Web数量的爆炸性增长特点,提出一种基于查询接口文本的Deep Web数据源分类算法,对于分类的查询接口,采用2种方法:基于向量空间的TF-IDF方法和基于知网的语义相似度方法。综合2种方法获得接口之间的相似度。借鉴K-NN算法,提出WDB分类算法,从而实现Deep Web数据源的分类。实验结果表明,该算法在熵和F-measure 2种评价标准上均能获得较高质量,具有一定实用价值。(本文来源于《计算机工程》期刊2010年12期)

罗斐[7](2010)在《基于本体的Deep Web数据源分类和查询接口模式抽取》一文中研究指出互联网按“深度”可以分为Deep Web和Surface Web。与通过超链接访问的Surface Web不同,Deep Web中的信息只能通过向表单提交查询来获得。Surface Web上的信息多为非结构化信息。Deep Web则正好相反,其中蕴含的信息绝大多数是结构化信息,因而受到研究人员的重视。Deep Web数据源分类和Deep Web查询接口模式抽取是Deep Web信息获取的关键技术。根据Deep Web信息的特点,本文使用本体技术解决Deep Web信息获取技术上的一些难题,有效地解决了传统方法的局限性。首先,本文基于互动百科、CWB中文词库中的知识,根据Deep Web信息的特点,使用Protege本体编辑器,通过人工方式为图书、电影、音乐、数码产品、房地产这五个领域建立了中文本体,为Deep Web数据源分类和Deep Web查询接口模式抽取提供了中文本体知识库的支持。其次,针对中文Deep Web网站,提出了基于查询接口文本的Deep Web数据源分类方法。该方法使用查询接口中的文本信息作为分类属性集,基于空间向量模型,利用本体构造特征,提高了分类准确率。最后,提出了基于本体的Deep Web查询接口模式抽取方法,使得计算机能够在语义层次上理解查询接口,并在领域本体的帮助下将查询接口模式转换为本体模式。本文对5个领域200个查询接口抽取模式信息,实验结果表明本文方法的准确率和召回率均高于传统的基于启发式规则的方法。(本文来源于《南京航空航天大学》期刊2010-01-01)

罗斐,毛宇光[8](2009)在《基于领域分类的查询接口模式抽取方法》一文中研究指出本文研究了基于启发式规则的查询接口模式抽取方法,并在此基础上提出了一种新的基于领域分类的查询接口模式抽取方法。该方法先将查询接口按照领域分类,在领域知识的帮助下提高对查询接口的理解能力,解决了多义词的问题,解决了属性结点周围出现零个或数个提示文本时如何获取名字的问题。实验表明在使用该方法后,准确率和召回率都有了一定程度上的提高。(本文来源于《2009年研究生学术交流会通信与信息技术论文集》期刊2009-09-01)

徐和祥,王述云,胡运发[9](2008)在《基于本体的Deep Web查询接口分类》一文中研究指出目前对于分类问题,主要工作集中在文本或Web文档的分类研究,而很少有对deepWeb查询接口的分类研究.deepWeb源包括查询接口和查询结果,大量的deepWeb源的存在,对它们查询接口的分类是通向deepWeb分类集成和检索的关键步骤.本分提出一种deepWeb本体分类方法,包括:分类本体的概念模型和由此产生的deepWeb空间向量模型(VSM).试验表明,这种分类方法具有良好的分类效果,平均准确率达到91.6%,平均查全率达到92.4%.(本文来源于《小型微型计算机系统》期刊2008年10期)

方巍,黄黎,崔志明[10](2008)在《基于最大熵分类器的Deep Web查询接口自动判定》一文中研究指出Web中包含着海量的高质量信息,它们通常处在网络深处,无法被传统搜索引擎索引,将这样的资源称为Deep Web。因为查询接口是Deep Web的唯一入口,所以要获取Deep Web信息就必须判定哪些网页表单是Deep Web查询接口。由于最大熵模型可以综合观察到的各种相关或不相关的概率知识,对许多问题的处理都可以达到较好的结果。因此,基于最大熵模型的分类性能,利用最大熵分类算法自动判定查询接口。并通过实验,将最大熵分类法与其它常用分类方法进行了比较,结果显示它的分类性能优于Bayes方法和C4.5方法,与SVM方法相当,表明这是一种非常实用的查询接口分类方法。(本文来源于《计算机工程与应用》期刊2008年21期)

查询接口分类论文开题报告

(1)论文研究背景及目的

此处内容要求:

首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。

写法范例:

一框式检索功能普遍提供于各类互联网信息门户的首页,由于需要交互式操作以及返回页面仅包含与用户所提交关键字相关的查询结果等原因,较少受到传统搜索引擎的关注.但是在垂直搜索中,若能够有效利用远程服务器自带的站内检索功能,将在显着降低本地计算资源和带宽消耗的同时,提高查全和查准率.提出并实现了一种用于在主题相关的页面采集过程中自动定位交互式查询接口的双层分类器.针对8个不同领域主题的规模化实验显示,该分类器能够准确过滤非相关域名和非可查表单,实现搜索接口的有效识别.

(2)本文研究方法

调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。

观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。

实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。

文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。

实证研究法:依据现有的科学理论和实践的需要提出设计。

定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。

定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。

跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。

功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。

模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。

查询接口分类论文参考文献

[1].苟和平,景永霞,刘强.一种基于XML分析的DeepWeb查询接口分类研究[J].南华大学学报(自然科学版).2016

[2].王琳,王行甫,杜云开.使用双层分类器在垂直搜索中自动识别交互式查询接口[J].小型微型计算机系统.2016

[3].苟和平,景永霞,吴多智.基于XMLSchema的DeepWeb查询接口分类研究[J].长春大学学报.2016

[4].石龙,强保华,谌超,吴春明.基于查询接口文本VSM的DeepWeb数据源分类[J].计算机应用与软件.2013

[5].任忠良.深网查询接口模式识别与分类方法的研究[D].吉林大学.2011

[6].华慧,伏玉琛,周小科.基于查询接口文本的DeepWeb数据源分类[J].计算机工程.2010

[7].罗斐.基于本体的DeepWeb数据源分类和查询接口模式抽取[D].南京航空航天大学.2010

[8].罗斐,毛宇光.基于领域分类的查询接口模式抽取方法[C].2009年研究生学术交流会通信与信息技术论文集.2009

[9].徐和祥,王述云,胡运发.基于本体的DeepWeb查询接口分类[J].小型微型计算机系统.2008

[10].方巍,黄黎,崔志明.基于最大熵分类器的DeepWeb查询接口自动判定[J].计算机工程与应用.2008

标签:;  ;  ;  ;  ;  

查询接口分类论文-苟和平,景永霞,刘强
下载Doc文档

猜你喜欢