数据库模式匹配论文-赵志力

数据库模式匹配论文-赵志力

导读:本文包含了数据库模式匹配论文开题报告文献综述及选题提纲参考文献,主要关键词:众包,MongoDB,MySQL,模式映射

数据库模式匹配论文文献综述

赵志力[1](2018)在《众包数据的数据库模式映射方案和近似多字符串匹配研究》一文中研究指出随着众包模式作为一种新型的经济模式,国内外不同类型的众包平台也如同雨后春笋般的涌现。基于NoSQL数据库的轻量级众包平台是目前使用的最为广泛的众包模式,其高效的读写性能以及支持分布式存储的特点能应对大数据量下的存储问题。但是其弱结构化的存储方式,也带了通用性较差等和对数据本身的事物操作支持较弱等不足。因此,如何高效且能通过事物操作处理大数据量众包数据成为了目前研究的主要热点。基于NoSQL数据库对事物性操作的不敏感性,目前已经有大量的工作旨在通过研究数据结构之间的转换来优化该问题,但是系统的针对由NoSQL数据库向关系型数据库的模式映射方案的研究较少。另外,在某些众包数据的提取中存在着多字符串匹配的问题,目前国内外的主要研究是还未将字符串匹配技术应用到该领域,基于现有的算法无法实现对众包数据中的多个字符串进行匹配提取。本文以Recital众包平台及其数据为研究基础,主要对数据库间的模式映射和多字符串模糊匹配进行研究,具体的研究内容和研究结果如下:(1)首先分析了众包系统的设计原理,着重对轻量级众包平台所使用的MongoDB数据库与关系型数据库进行框架和数据结构上的对比分析,为模式映射方案做理论准备。(2)研究字符串比较的算法,详细介绍编辑距离(Edit Distance)与Needleman-Wunsch算法的基本原理,为多字符串的模糊匹配算法提供理论支持和对比研究。(3)针对MongoDB中数据向MySQL应用迁移需求,本文通过数据迁移与数据映射两模块提出对应的模式映射方案,根据不同环境下的数据类型与数据库结构间的差异比较完成了对MySQL的迁移方案。并使用伪代码的形式对映射过程进行详尽的解析。(4)针对多字符串的提取问题,提出了基于编辑距离的多字符串模糊匹配算法,使用卷积的思想,逐位使用编辑距离计算相似程度,并且根据相应输出准则进行匹配结果筛选。在输出的阈值参数选取中,阈值越高时匹配结果准确度越高,但是匹配耗时也随之增加,统筹考虑到匹配的准确率选取最佳阈值。实验表明,在多字符串的模糊匹配与单字符串的提取过程中,本文提出的基于编辑距离的算法都在准确率上优于Needleman-Wunsch算法并且耗时更短。(本文来源于《广东工业大学》期刊2018-05-01)

杨航,侯琼煌[2](2015)在《基于Q-Gram的数据库模式匹配算法》一文中研究指出模式匹配是数据集成的重要步骤之一,而数据库异构、数据量大等特点是匹配的难点所在。在梳理模式匹配概念和研究现状的基础上,提出一种基于Q-Gram数据库模式匹配算法,通过对实例数据进行切分,计算域之间的相似度,得到域的语义匹配度。该算法具有线性的时间复杂度,实验显示其能给出较为精确的匹配结果。(本文来源于《信息技术》期刊2015年08期)

刘国峰[3](2013)在《面向关系数据库的模式匹配方法研究》一文中研究指出随着信息技术的高速发展,不同企业在实际应用中都产生了大量的数据,这些数据通常以关系数据库形式存储,并维护于各自的信息系统当中。随着信息共享需求的日益加强,企业内部或企业之间通常需要对已有数据进行交换,进而挖掘出有利于商业智能的信息。然而,在数据集成过程中,人们发现即使对于同一应用领域,其数据库模式的设计也往往存在较大差异,这种异构性严重阻碍了数据间的互操作性。目前,该问题的主要解决方式是由系统设计者或DBA手动建立两个模式元素间的对应关系,并在此基础上实现异构数据间的集成,然而该操作却需要花费大量的人力和物力,且容易出现较多错误。此外,随着数据库应用领域的不断扩展,异构数据源的数量呈指数级增长,数据库中可能包含数百张表、上千个属性,显然单纯的手工匹配方式已不能满足应用的需求。近年来,一些半自动/自动化的模式匹配方法被提出,这些方法利用模式信息、数据实例信息和元素间的结构信息对匹配关系进行推理,进而实现元素对应关系的自动发现。相对来说,基于模式信息的匹配方法相对简单,信息获取也较容易,因此早期的模式匹配方法主要集中于该类信息的使用,但由于其信息量有限,故在应用上具有一定的局限性。随后人们开始致力于数据实例信息或结构信息的使用,并希望从中挖掘出更有价值的信息,进而增强匹配关系的发现。总体来看,基于上述信息的模式匹配方法虽然在某种程度上缓解了异构数据集成所带给人们的压力,但仍存在些许不足:首先,匹配操作过于追求自动化,其内在固有的不确定性导致匹配结果需要花费大量人力去验证;其次,为了便于记忆,越来越多的企业将模式或模式所含元素以中文方式命名,致使已有传统的模式匹配方法适用性不高,进一步增加了匹配的难度;再次,以往匹配方法较多关注于模式信息的运用,而较少考虑数据实例或数据实例所反映出的其他信息,该类信息对于匹配操作来说同样具有参考价值;最后,不同匹配方法的适用性有所不同,在缺少专业知识的情况下,用户无法做出合理判断,导致匹配方法选择不当使得匹配结果可用性不高。为此,结合已有的模式匹配算法,本文针对关系数据库中的模式匹配方法开展了以下几个方面的研究工作:1)研究匹配过程中专家知识的有效引入。在执行整体匹配之前,首先基于元素名称确定待匹配模式元素间的初步对应关系,并选取少量关系交由用户验证,以此推理出当前任务下已知的匹配、不匹配关系和不同匹配器的适用性;然后基于上述分析所收集到的先验知识对匹配器进行选取,并指导单独匹配器所得结果的合并、调整及优化;最后对优化结果的选择性进行评估,从而为当前匹配任务推荐最为合理的候选匹配生成方案。2)研究中文环境下的模式冲突问题。对缺少数据实例信息或仅能获取元素中文描述信息的待匹配模式,首先提取数据字典中有关元素的中文描述信息,利用中文信息处理技术将其转化为词条向量的形式,并采用聚类分析技术将特征相似的关系划分到相同聚簇中,进而缩小匹配执行范围,提高整体匹配效率;对于同一聚簇中的不同关系,借助辅助词典中词语的组织方式计算元素间的中文语义相似度,并采用多种选择策略相结合的方法对匹配结果进行过滤。3)研究面向数据的模式匹配解决方案。在模式信息不可用或不充足的情况下,该方法利用相似数据检测算法标识出待匹配模式数据实例间的相似元组,并以此生成元素间的初始相似度;此外,对于关系中的每个元素,该方法利用数据实例所蕴含的元素内在联系提取与每个元素相关联的强关联关系元素集合,并由集合中元素的相似性反映出待匹配元素的关联相似度;最后由数据实例相似度及关联相似度综合决定元素间的整体相似度。4)研究自适应模式匹配流程的构建方法。对于一个给定的模式匹配任务,该方法通过用户交互与自动抽取相结合的方式对输入模式信息进行深入挖掘,从中提取切实可用的辅助匹配信息及该信息所适用的模式匹配算法,然后在此基础上自适应构建和调整模式匹配流程,使匹配方法能够随应用场景的变化而变化,进一步增强模式匹配方法的适用性,充分发挥不同匹配算法所具有的优势。(本文来源于《哈尔滨工程大学》期刊2013-06-20)

邢文端[4](2013)在《数据库领域中的模式及模式匹配》一文中研究指出一、模式为了有效地组织、管理数据,提高数据库的逻辑独立性和物理独立性,人们为数据库设计了一个严谨的体系结构,模式是通过某些数据结构连接起来的数据成员集合,是数据成员的逻辑级视图。数据库领域公认的标准体系结构是叁级模式结构,它包括外模式、模式和内模式。1.外模式外模式又称子模式,对应于用户级。它是某个或某几个用户所看到的数据库的数据视图,是与某一应用有关的数据的逻辑表示。外模式是从模(本文来源于《中国校外教育》期刊2013年07期)

张媛新[5](2013)在《基于实例聚类的数据库模式匹配方法研究》一文中研究指出随着近些年信息技术的飞速发展使得数据库成为数据管理的重要工具,但由于不同行业和不同部门间描述数据的方式和方法不同,要实现这些大量的异构的数据共享成为了当今数据集成领域广泛研究的热点。数据集成的首要步骤就是要实现模式匹配,即数据模式元素之间的语义对应关系,因此本课题研究模式匹配对于数据挖掘具有重要意义。已提出的模式匹配方法多数是基于模式信息来实现的,但从评估结果来看任何方法都远远达不到100%的准确率,并且在模式信息不明确或者有冲突的情况下这些方法经常受到限制。通过对现有方法的分析本文提出一种利用模式信息辅助实例信息聚类的数据库模式匹配方法—DSMIC(Database Schema Matching based on Instances Clustering),该方法分为叁大模块,即预处理模块、聚类处理模块、映射生成模块。其中,在预处理模块中利用经典的遗传算法对模式信息进行处理生成候选匹配集合;在聚类处理模块中提出一种改进的K-Means聚类算法将候选匹配集合中模式元素的实例数据进行聚类,根据聚类结果计算出模式元素间的相似度;映射生成模块根据模式元素间的相似度生成图论中的完全加权二分图,利用最大权匹配算法提炼出模式元素的最终结果。最后,本文通过实验验证了基于实例聚类的模式匹配方法的可行性,并以此表明该方法在一定程度上提高了模式匹配的准确率、召回率和全面性等技术指标。(本文来源于《哈尔滨工程大学》期刊2013-03-01)

陈旦,杨非,叶晓俊[6](2012)在《基于模式匹配的数据库入侵检测技术》一文中研究指出通过机器学习等方法发现数据库系统用户的合法行为模式,并据此对用户提交的数据库请求实时进行检测是一种主动的深度防御机制.依据结构化查询语言(SQL)的语法结构和语义特性,设计了适用于组合攻击检测的SQL语句模型,并依据SQL操作对象的层次性,引入SQL操作泛化,给出了一种通用的基于SQL操作序列的用户行为模型.分析了引入SQL泛化后,BIDE算法位置拓展检验和BackScan剪枝判定的合理性,提出了面向SQL操作序列的多层频繁闭序列挖掘算法MLBIDE,使之能挖掘出更为完整的用户合法行为模式.最后,通过开源数据挖掘集EXTENDED BAKERY Dataset验证引入SQL泛化后算法能够挖掘更多的隐含序列,通过自定义的安全攻击实验验证了上述挖掘出的行为模式能够使入侵检测的准确率得到提升.(本文来源于《第29届中国数据库学术会议论文集(B辑)(NDBC2012)》期刊2012-10-12)

阙舒,洪玫,李海怒[7](2012)在《基于模糊匹配的数据库模式测试方法》一文中研究指出数据库模式测试是数据库系统测试的重要工作,在前期的研究中已经实现了一种简单的数据库模式测试方法,该方法针对数据库ER模型和逻辑模型不一致的问题进行了研究.但是该匹配方法单一,属于一对一的语义匹配,为了解决这一局限性,提出了一套基于"模糊匹配"的数据库模式测试方法.该方法考虑了以上方法的不足,使用"模糊匹配"对数据库模式进行测试,解决了由于数据库结构复杂导致测试结论误报率高的问题,并且将数据字典信息作为匹配标准,对匹配信息进行种类划分,减少了匹配工作量,同时还将语义信息和结构信息相结合,提高了匹配准确度.(本文来源于《四川大学学报(自然科学版)》期刊2012年05期)

李风举[8](2012)在《数据库模式发现与匹配方法的研究》一文中研究指出随着时代的进步,信息化成为了发展的主旋律,这其中XML已经成为了WEB数据交换和信息交换的最佳载体。而模式匹配作为模式操作中最重要的环节,正在数据集成、数据仓库、电子商务等诸多领域中起着重要的作用。本文对国内外关于结构化模式匹配和非结构化模式匹配的研究现状进行了综合分析,主要从模式发现和模式匹配的角度对复杂模式匹配过程进行了研究,并着重研究基于结构化和非结构化数据的模式匹配以及模式发现小枝算法的改进工作。论文主要使用XML作为文档载体,使匹配结果更具有移植性和灵活性,更容易在不同系统之间进行交流。本文主要研究工作如下:1.通过研究数据库模式匹配方法的现状,总结其实现方法、应用范围、应用特点,其中相似度的计算是模式匹配的基础,模式匹配算法的优劣在很大程度上取决于最终相似度计算的情况。本文提出了一种新的CMExt系统,首先从不同数据库中抽象出模式数据,使用kettle做数据清洗,然后把数据读写到内存上,然后改进现有CM系统中相似度估价模块,从而提高了模式匹配的精确度。2.基于XML文档树的特点和上文中基于结构化数据模式的匹配技术成果,分析和比较了基于非结构化数据模式的匹配技术和当前主要模式匹配技术,提出了基于数据名称和数据域的基本相似度匹配和基于模式上下文结构相似度匹配,并对多种相似度做出了整合,从而改进了相似度的准确度,提高了基于非结构化数据模式的模式匹配技术的效率。3.本文分析和比较了现有经典TwigStack算法和一些对其改进的算法,发现这些算法存在的缺陷,并通过对TwigStack算法进行了改进,提出了一种新的TwigStackExt算法,解决了在处理查询中含有父子关系时效率不高和处理查询过程中当分支结点也含父子边时,仍然会产生中间结果的问题。4.针对基于结构化和非结构化数据模式算法做出的改进,以及针对经典TwigStack算法做出的改进算法做了实验测试,验证了本文所提出的算法的有效性。(本文来源于《电子科技大学》期刊2012-03-01)

丁国辉[9](2011)在《数据库模式匹配算法的研究》一文中研究指出模式匹配被广泛应用于数据库相关领域中,例如数据集成、数据空间、DeepWeb、数据仓库、以及本体合并等。针对模式匹配的研究已有几十年的历史,从早期的手工完成匹配操作到目前的自动发现匹配,人们已经取得了很多研究成果。给定源模式和目标模式,模式匹配的目标是发现两个模式间元素的对应关系,具有对应关系的元素表示相同或者相似的语义。由于模式匹配的发现是一个利用已有知识对元素语义进行挖掘和理解的过程,所以其在一定程度上相当于自然语言处理,这也体现了模式匹配固有的困难性。因此,为进一步提高模式匹配的质量,人们仍需要更多的关于模式匹配的研究。近些年,随着互联网的发展以及通讯工具的普及,人们对数据共享和交换的需求越来越强烈,这也使得模式匹配问题成为目前的研究热点。所以针对模式匹配的研究不但具有理论意义而且具有实际应用基础。本文从数据库的查询日志中为属性提取可用于匹配的统计信息,并以此为基础,提出一些模式匹配的发现及改进算法。同时,本文对模式匹配在模式集成领域中的应用进行了研究,提出了基于用户偏好的多模式产生算法。本文主要针对关系模式的匹配问题进行探讨,具体研究工作如下:(1)匹配的发现首先,本文利用属性的出现频率来发现匹配。通过日志中每个属性在相应查询子句中的出现频率构建特征向量。采用聚类技术对不同属性的特征向量进行分组,处在同一聚类中的属性则具有相同或者相似的语义。为进一步提高聚类结果的准确性,通过最大相似性阈值来发现聚类中语义异常的属性,并设计了异常属性去除算法。实验结果表明所提出的方法具有较高的准确率。其次,本文利用属性在查询结果的模式结构中的出现顺序发现匹配。本文方法包含叁个阶段。第一,从查询日志中抽取出现序列,并对属性在这些出现序列中的出现顺序进行统计。第二,利用矩阵对属性出现顺序的统计信息进行组织。第叁,针对具有不同基数的映射,采用两种打分函数度量不同输入模式统计信息矩阵间的相似性,并采用模拟退火算法寻找最优映射。实验结果表明所提出的方法能返回较准确的匹配。最后,本文利用日志中关于SQL语句内容和结构的统计信息进行模式匹配。本文方法包括四个阶段。第一阶段对SQL语句的子句进行统计,并构建子句关联图cag。其次,利用cag构建“匹配对”集合,每个匹配对表示一对属性序列。第叁,度量匹配对的两种相似性,即属性(property)相似性和结构相似性。最后,设计两种将匹配对分解成单一匹配的算法,并利用阈值策略选择最优匹配。实验结果表明基于查询语句的匹配方法是有效的、准确的。(2)匹配的改进针对匹配不能适应数据实例包含分类的情况,本文提出模式匹配的改进算法。从源模式的数据实例中发现隐含的分类语义,并将其与匹配进行关联以提高匹配的质量。本文方法包含叁个阶段。首先,通过聚类技术发现源实例中的可能分类。其次,通过信息熵技术去除干扰属性得到真正的分类属性。最后,通过引入一个称为c-mapping的概念实现分类语义和匹配间的关联。实验结果表明本文方法具有较好的性能。(3)匹配的应用模式匹配的最终目标是解决实际问题。所以本文对模式匹配在模式集成中的应用进行了研究,提出一种基于用户偏好的自动的模式集成方法。通过引入一个称为参考模式的概念将用户偏好实例化。参考模式能够导向集成过程根据用户偏好产生中间模式(集成模式)。本文通过属性密度方法测量候选模式与标准模式间的相似性。在此基础上,设计一个top-k排序算法用于找到k用户真正需要的中间模式作为算法最后的输出。实验结果表明本文方法具有较高的效率。(本文来源于《东北大学》期刊2011-11-04)

邓青[10](2011)在《异构Web数据库集成中查询接口模式匹配问题的研究》一文中研究指出随着计算机技术,特别是Internet的迅速发展,可共享的资源越来越多,各种Web数据库中已经存放了涵盖各个领域的大量有价值的信息,成为人们获取信息的主要渠道。然而由于Web数据库所独有的空间复杂性导致了其数据源的极端多样性,这也使得Web数据库的表达形式之间存在巨大的差异,描述同一事物的数据却表现出了明显的异构特征。如何快速、准确、低成本地将各种描述同一事物的异构Web数据集成到同一个关系数据库中是很有意义的研究课题,它可以为用户提供访问数据的统一接口,实现异构形式对用户的透明。传统的异构Web数据库集成方式采用Mediator-Wrapper框架模式,使用XQuery作为公共的查询语言,系统的所有功能都建立在全局数据的XML/元数据表达上。本文针对Web数据库的信息量大且更新速度快的特点,结合经典的决策树分类方法对海量含噪的异构Web数据库集成中的查询接口匹配问题展开研究。主要工作如下:1.综述并分析了现有异构Web数据库集成框架Mediator-Wrapper的基本理论体系及当前主要的查询接口模式匹配方法。2.系统总结了传统的决策树模型的基本理论,并分析了其经典算法及优化策略。3.针对异构Web数据中含噪较多的特征,结合已有的决策分类算法,给出一种基于可疑实例影响度分析的混合决策树学习算法MDSII,通过采用信息增益率函数选择分裂属性,分析可疑Web数据全局影响度,判定匹配模式,可以在很好地提高模式的匹配精度的同时解决Mediator-Wrapper框架对XML/元数据表达的过度依赖问题,大大提高了模型的抗噪性。4.针对传统模式匹配方法在处理海量数据时存在的建模速度慢、过度依赖领域知识、分类规则过拟合现象严重等缺陷,提出一种基于当前节点中最大纯度差(PDN)变化趋势的自主数据集成分类算法PDN_(_trends),通过对数据自身的跟踪和观察计算来判定决策树的预剪枝时机,不依赖领域知识使得数据集成分类更加自主,同时减小模型规模使得分类规则更具可理解性,同时在保证一定分类精度的基础上提高了建树效率。5.基于上述研究,实现了异构Web数据库模式匹配规则生成系统,通过大量多样的数据库实验说明了所提出的关于异构Web数据库集成中的查询接口模式匹配方法的正确性和有效性。(本文来源于《合肥工业大学》期刊2011-11-01)

数据库模式匹配论文开题报告

(1)论文研究背景及目的

此处内容要求:

首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。

写法范例:

模式匹配是数据集成的重要步骤之一,而数据库异构、数据量大等特点是匹配的难点所在。在梳理模式匹配概念和研究现状的基础上,提出一种基于Q-Gram数据库模式匹配算法,通过对实例数据进行切分,计算域之间的相似度,得到域的语义匹配度。该算法具有线性的时间复杂度,实验显示其能给出较为精确的匹配结果。

(2)本文研究方法

调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。

观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。

实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。

文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。

实证研究法:依据现有的科学理论和实践的需要提出设计。

定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。

定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。

跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。

功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。

模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。

数据库模式匹配论文参考文献

[1].赵志力.众包数据的数据库模式映射方案和近似多字符串匹配研究[D].广东工业大学.2018

[2].杨航,侯琼煌.基于Q-Gram的数据库模式匹配算法[J].信息技术.2015

[3].刘国峰.面向关系数据库的模式匹配方法研究[D].哈尔滨工程大学.2013

[4].邢文端.数据库领域中的模式及模式匹配[J].中国校外教育.2013

[5].张媛新.基于实例聚类的数据库模式匹配方法研究[D].哈尔滨工程大学.2013

[6].陈旦,杨非,叶晓俊.基于模式匹配的数据库入侵检测技术[C].第29届中国数据库学术会议论文集(B辑)(NDBC2012).2012

[7].阙舒,洪玫,李海怒.基于模糊匹配的数据库模式测试方法[J].四川大学学报(自然科学版).2012

[8].李风举.数据库模式发现与匹配方法的研究[D].电子科技大学.2012

[9].丁国辉.数据库模式匹配算法的研究[D].东北大学.2011

[10].邓青.异构Web数据库集成中查询接口模式匹配问题的研究[D].合肥工业大学.2011

标签:;  ;  ;  ;  

数据库模式匹配论文-赵志力
下载Doc文档

猜你喜欢