数据源发现论文-马如霞,孟小峰

数据源发现论文-马如霞,孟小峰

导读:本文包含了数据源发现论文开题报告文献综述及选题提纲参考文献,主要关键词:真值发现,数据冲突,数据源分类可信性,信息质量

数据源发现论文文献综述

马如霞,孟小峰[1](2015)在《基于数据源分类可信性的真值发现方法研究》一文中研究指出网络的普及和电子商务的发展改变了人们信息获取以及消费的方式.Web已经成为大多数人获取信息的重要来源.与此同时,互联网信息质量问题也逐渐凸显.Web中存在大量过时、错误、虚假、片面的信息.其中,不同网站为相同对象提供冲突信息的问题尤为突出.如何从这些冲突信息中找到正确信息成为亟待解决的问题,这类问题又被称为真值发现问题.通过对现有真值发现问题解决方法的调研,发现现有方法均未考虑数据源分类可信性差异对真值发现的影响.因此,提出基于数据源分类可信性的真值发现问题.提出2种方法探测数据源分类可信性差异,并采用贝叶斯的方法迭代计算数据源分类可信性和属性值准确性.另外,通过考虑数据源覆盖率和对象难度对真值发现的影响,进一步提高真值发现算法的准确性.一个真实数据集的实验结果表明,所提方法可以显着提高真值发现的准确性.(本文来源于《计算机研究与发展》期刊2015年09期)

常甜甜[2](2015)在《Deep Web数据源的发现和分类》一文中研究指出在快速发展的互联网时代,信息技术迅速成为社会的重要资源。如何使用户快速、高效地获取信息资源成为当前领域研究的热点。通常情况下,我们在检索数据时使用的搜索引擎一般只能够访问到一些静态网页等数据资源(即Surface Web),而对于信息质量更高的Deep Web数据源则需要在包含查询接口的页面,通过不断地填写表单提交查询才能获取到。这种传统的Deep Web数据源获取方式大大降低了信息资源的利用率。为了最大限度的获取Deep Web数据源信息,并对获取到的数据源信息进行分类,方便后续的数据集成工作以及用户的检索使用,本文基于传统的Deep Web数据源发现方法的优缺点,提出了一种新的Deep Web数据源发现和分类方法。我们根据系统响应用户查询时获取数据的途径不同,即数据是从各应用网站获取还是来源于集成的本地数据库,将Deep Web数据源发现搜索框架分为实时的和非实时的两种情况。本文在系统地概括了这两种框架的基础上,着重介绍了实时的搜索框架以及各模块实现的主要功能,通过“数据源发现引擎应用程序模块”和“客户端数据源应用程序模块”的相互通信,实现了Deep Web数据源的有效发掘以及用户的快捷查询。为保证检索效率,面对数据库中庞大的分类词典,本文进一步提出了基于同义词词林和知网融合的分类方法来对各个被检索网站和用户的查询关键词进行了分类。本文提出的框架模型方法能够有效的克服传统方法基于领域研究的局限性,可以更好的利用Deep Web数据库的结构性特征,极大地方便了后续的集成工作,并能够大大节省用户在检索时的时间开销。(本文来源于《上海师范大学》期刊2015-04-01)

牟晓伟[3](2015)在《Deep Web数据源发现与分类技术研究》一文中研究指出从因特网的“深度”将其分为Deep Web 和 Surface Web两类。Deep Web中蕴含有极其丰富的信息,并且比Surface Web所蕴含的信息更加具有利用价值。然而,由于DeepWeb信息是以相互独立的形态分散在因特网的各个角落里,并且这些信息一直处于种动态的、不断变化的状态,这就使获取Deep Web信息的工作变得非常困难。因此,为了用户能够更好地获取到这些有价值的信息,就必须使用Deep Web数据集成的方法去达到这一目的。Deep Web查询接口的判定是Deep Web数据集成的首要工作,是为了用户可以通过真正的Deep Web查询接口获取到真正的Deep Web信息。首先根据页面的URL对页面进行初步的筛选,在对页面表单进行特征提取之前运用启发式判定规则对网页表单进行进一步的筛选。利用Adaboost算法对多个弱贝叶斯分类器融合最终形成一个强贝叶斯分类器,对原有的朴素贝叶斯进行加强,降低了朴素贝叶斯算法对独立性属性要求预先进行假设过度依赖的缺点,根据每个贝叶斯分类器相互间存在的差异性来提升整个分类器的效率。在上一步工作的基础上,抓取到真正的Deep Web数据源,然后再对Deep Web数据源进行分类。利用朴素贝叶斯算法将那些对最后分类结果影响不大的属性进行简约,从而可以减少一部分KNN分类过程中的一些不必要的判定操作,实现对KNN分类算法的优化改进。(本文来源于《长春工业大学》期刊2015-04-01)

王继奎,李少波[4](2015)在《基于真值发现的冲突数据源质量评价算法》一文中研究指出针对目前冲突数据源的质量评价模型仅考虑准确度与精确度2个方面,没有考虑数据源提供错误描述与提供空值对数据源质量会产生不同影响的情况,通过将数据源提供的错误描述定义为主动错误,并将数据源没有为实体提供描述定义为被动错误,从主动错误、被动错误2个方面建立数据源质量模型.该模型以敏感度、明确度代替了准确度与精确度;为了处理多真值问题,预先合并数据源对实体的描述,并定义了合并描述的包含关系及包含度计算模型;在包含度计算模型的基础上,提出了基于描述包含度的冲突数据源质量评价算法(TFDQ).在通用数据集Books-Authors上的实验表明,与Vote算法、TruthFinder算法相比,TFDQ算法实验结果更接近真实情况.(本文来源于《浙江大学学报(工学版)》期刊2015年02期)

王继奎,李少波[5](2015)在《基于真值发现的冲突数据源质量评价算法》一文中研究指出针对目前冲突数据源的质量评价模型仅考虑了准确度与精确度2个方面,没有考虑数据源提供错误描述与提供空值对数据源质量会产生不同影响的情况,通过将数据源提供的错误描述定义为主动错误,并将数据源没有为实体提供描述定义为被动错误,从主动错误、被动错误2个方面建立数据源质量模型.该模型以敏感度、明确度代替了准确度与精确度;为了处理多真值问题,预先合并数据源对实体的描述,定义合并描述的包含关系及包含度计算模型;在包含度计算模型的基础上,提出基于描述包含度的冲突数据源质量评价算法(TFDQ).在通用数据集Books-Authors上的实验表明,与Vote算法、TruthFinder算法相比,TFDQ算法实验结果更接近真实情况.(本文来源于《浙江大学学报(工学版)》期刊2015年01期)

张朕[6](2014)在《基于多数据源的热点话题自动发现技术研究》一文中研究指出随着互联网和网络技术的飞速发展,网络成为一种人们获取信息的新兴媒体和渠道。面对互联网上呈指数式增长的信息数据,怎样从这浩瀚的信息海洋中获取需要的以及感兴趣的信息,也成为信息时代人们普遍关注的问题。热点话题发现技术是话题检测与追踪技术在实际中的应用,它能够从网络信息流中发现热点话题,帮助人们更加全面的了解和认识一个事件,在政府、金融、信息安全等诸多领域有很大的实际应用前景。本文首先概括介绍了话题检测与追踪技术国内外的发展与研究现状,接着介绍了热点话题发现技术国内外的研究概况,分析和总结热点话题发现存在和面临的问题。针对这些问题,本文做了重点研究和改进,所做主要工作如下:第一,本文综合考虑媒体和用户两方面因素,通过融合两方面的特征,提出一种基于新闻报道和微博的热点话题热度计算公式,对话题进行热度评估。利用热度计算公式对话题热度进行评定得到热度值,然后按照热度值对话题进行排序,最后得到任意一段时间内的话题热度排序。方便人们及时了解最新、最热话题,同时利于政府部门监控和引导网络舆论。第二,对话题发现算法做了改进,提出了一种基于关键词的网络热点话题发现算法。定义了关键词,并用关键词的集合对话题进行表示。在改进的话题发现算法中,采用两层聚类策略,首先对新闻的标题向量进行第一次聚类,找出新出现的话题,设定初始阈值,对于满足条件的报道合并到其对应的话题集。接着对话题里存放的新闻报道进行第二次聚类,利用本文中提出的热度计算公式进行热度分析,最后发现某时间段内的热点话题。第叁,将热点话题的热度值计算方法和改进的热点话题发现算法应用到网络舆情分析与监测系统中,对应用系统进行了整体介绍,详细的说明了系统各模块的功能以及实现过程,最后结合具体的实际案例验证本文所做工作的可行性和实际应用性。(本文来源于《山东师范大学》期刊2014-05-30)

王继奎,李少波[7](2014)在《多数据源冲突的主数据真值发现算法》一文中研究指出为了解决多数据源冲突的主数据真值发现问题,基于对冲突数据值之间的支持度往往是非对称的直观认识,提出了一种非对称的数据值支持度计算算法;该算法改进了目前真值发现算法中以数据值之间的相似度代替支持度的对称算法。在考虑了数据值的可信度取决于数据源权威度和数据值支持度的基础上,提出了TRFinder迭代算法,并在TRFinder算法的基础上给出了主数据生成算法。通过对典型的books_authors数据集和模拟数据进行实验,实验结果表明,TRFinder算法比Vote算法与TruthFinder算法具有更高的准确率并保留了更多的真值信息,验证了算法的有效性。(本文来源于《计算机工程与设计》期刊2014年01期)

盛钰[8](2013)在《深层网络数据源发现与查询结果抽取研究》一文中研究指出随着互联网技术的飞速发展,网络中蕴藏的有价值信息愈来愈多。但各站点提供的信息在数量及质量上都存在巨大的差异。这给人们选取高质量信息带来了困难。搜索引擎技术可以对网络资源进行分类整理和检索,极大地提高了人们获取有价值资源的效率。然而有的数据资源位于后台数据库中,不能被传统搜索引擎检索,这部分网络资源称为深层网络。深层网络所包含的数据具有结构化程度高、数据量大、质量优质等特点。因此,研究这些数据具有重要的意义。本文针对如何发现并抽取深层网络数据展开了相关研究。要利用深层网络中的信息,首要问题就是发现深层网络的数据源。其次,对于向深层网络提交查询后所返回的结果数据区域,如何自动发现这些区域是对其信息抽取的前提。针对这些问题,本文主要完成叁个方面的工作:研究并改进了一种数据源的发现方法;采用了一种新的网页结构相似度比较算法,在算法的基础上实现了网页数据区域的识别:设计了深层网络信息集成系统框架,并实现了数据源发现与结果网页信息抽取功能模块。首先是深层网络数据源的发现及方法改进。论文设计了一种数据源发现框架。针对查询接口的判定问题,本文分析了查询接口与其他表单的区别,采用了一系列规则进行判断。数据源一般只限某一类领域,为准确查找数据源,必须判定其是否与主题类别相关。论文分析了传统数据源分类方法在特征选择方面的不足之处,并对特征选择策略进行了改进。实验表明,改进的方法能有效发现主题相关的数据源站点。然后是网页信息抽取及新算法的应用。本文通过分析在线数据库返回结果页面的特点,发现每个数据区域对应的标签树在结构上十分相似。论文采用了一种新的网页结构相似度比较算法,识别数据区域所在位置。新算法将网页的标签表示成树的形式,并定义一种特殊的子树,将整个树的比较划为对这些特殊子树的比较,实验证明了此算法能有效反映网页结构的相似程度。使用该算法找出数据区域所在位置之后,本文利用网页结构特点及关键词提取相关记录,并将这些信息抽取出来。最后是深层网络数据集成框架设计与主要模块实现。论文设计了深层网络信息集成框架。并且在第叁章数据源发现方法及第四章深层网络结果页面信息抽取方法的基础上,实现了该集成框架的主要模块。(本文来源于《西南交通大学》期刊2013-06-01)

卓林[9](2012)在《基于本体和语义相似度的Deep Web数据源发现技术》一文中研究指出Deep Web数据源发现是指从Web中搜索到含有Web数据库的Deep Web站点。查询接口作为DeepWeb数据源信息访问的唯一入口,发现工作更多地转向了对查询接口的判定。本文在处理时,首先构建领域本体模型,并利用HowNet语义知识辞典进行语义相似度计算,完成查询接口判定工作,同时通过启发式规则提高查询接口判定的效率。(本文来源于《计算机光盘软件与应用》期刊2012年20期)

曾淑琴,吴扬扬[10](2012)在《基于数据空间的数据源内容关系发现机制》一文中研究指出数据空间的提出旨在解决模式驱动型的数据管理方式中所遇到的瓶颈,并最终解决数据管理所面临的挑战。而其中数据源内容之间的内部关联性成为数据空间研究的重点。从自然语言处理的角度出发,建立描述数据空间的模式实体,并且综合考虑基本刻面和内容刻面的主要内容,提出基于数据空间的数据源内容的关系发现机制,从而为下一步创建索引、浏览、搜索、查询以及其他服务提供良好的基础。(本文来源于《微型机与应用》期刊2012年14期)

数据源发现论文开题报告

(1)论文研究背景及目的

此处内容要求:

首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。

写法范例:

在快速发展的互联网时代,信息技术迅速成为社会的重要资源。如何使用户快速、高效地获取信息资源成为当前领域研究的热点。通常情况下,我们在检索数据时使用的搜索引擎一般只能够访问到一些静态网页等数据资源(即Surface Web),而对于信息质量更高的Deep Web数据源则需要在包含查询接口的页面,通过不断地填写表单提交查询才能获取到。这种传统的Deep Web数据源获取方式大大降低了信息资源的利用率。为了最大限度的获取Deep Web数据源信息,并对获取到的数据源信息进行分类,方便后续的数据集成工作以及用户的检索使用,本文基于传统的Deep Web数据源发现方法的优缺点,提出了一种新的Deep Web数据源发现和分类方法。我们根据系统响应用户查询时获取数据的途径不同,即数据是从各应用网站获取还是来源于集成的本地数据库,将Deep Web数据源发现搜索框架分为实时的和非实时的两种情况。本文在系统地概括了这两种框架的基础上,着重介绍了实时的搜索框架以及各模块实现的主要功能,通过“数据源发现引擎应用程序模块”和“客户端数据源应用程序模块”的相互通信,实现了Deep Web数据源的有效发掘以及用户的快捷查询。为保证检索效率,面对数据库中庞大的分类词典,本文进一步提出了基于同义词词林和知网融合的分类方法来对各个被检索网站和用户的查询关键词进行了分类。本文提出的框架模型方法能够有效的克服传统方法基于领域研究的局限性,可以更好的利用Deep Web数据库的结构性特征,极大地方便了后续的集成工作,并能够大大节省用户在检索时的时间开销。

(2)本文研究方法

调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。

观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。

实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。

文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。

实证研究法:依据现有的科学理论和实践的需要提出设计。

定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。

定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。

跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。

功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。

模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。

数据源发现论文参考文献

[1].马如霞,孟小峰.基于数据源分类可信性的真值发现方法研究[J].计算机研究与发展.2015

[2].常甜甜.DeepWeb数据源的发现和分类[D].上海师范大学.2015

[3].牟晓伟.DeepWeb数据源发现与分类技术研究[D].长春工业大学.2015

[4].王继奎,李少波.基于真值发现的冲突数据源质量评价算法[J].浙江大学学报(工学版).2015

[5].王继奎,李少波.基于真值发现的冲突数据源质量评价算法[J].浙江大学学报(工学版).2015

[6].张朕.基于多数据源的热点话题自动发现技术研究[D].山东师范大学.2014

[7].王继奎,李少波.多数据源冲突的主数据真值发现算法[J].计算机工程与设计.2014

[8].盛钰.深层网络数据源发现与查询结果抽取研究[D].西南交通大学.2013

[9].卓林.基于本体和语义相似度的DeepWeb数据源发现技术[J].计算机光盘软件与应用.2012

[10].曾淑琴,吴扬扬.基于数据空间的数据源内容关系发现机制[J].微型机与应用.2012

标签:;  ;  ;  ;  

数据源发现论文-马如霞,孟小峰
下载Doc文档

猜你喜欢