导读:本文包含了多知识库论文开题报告文献综述及选题提纲参考文献,主要关键词:实体链接,候选集构建,实体消歧
多知识库论文文献综述
杨紫怡[1](2018)在《基于多知识库的实体链接研究》一文中研究指出随着知识图谱的提出和快速发展,作为知识图谱构建中的一个重要环节,实体链接任务受到越来越多学术界和工业界研究者们的关注。在自然语言文本中,有很多的指称会存在歧义,这些歧义对很多的自然语言处理任务都会造成很大的困扰。实体链接任务可以消除指称的歧义并将指称链接到一个目标知识库中的对应实体上。这样不但解决了指称的歧义问题,也给文本补充了额外的背景信息,使得在进行其它自然语言处理任务的时候,可以利用更多的信息来提高任务的性能。根据实体链接的实现过程,本文将实体链接的流程划分成了两个部分:候选集构建和实体消歧。并且针对这两个部分提出了基于多知识库的实体链接方法。本文的具体研究内容包括:(1)多知识库信息抽取:对多个知识库的结构和包含的内容进行了分析,从而针对每个知识库中的特有信息,抽取出对实体链接比较有用的信息。(2)实体链接基本框架构建:对实体链接进行了定义,总结出了实体链接的基本流程。根据总结出的基本流程,选择了实现的方法和特征,完成了实体链接基本框架的构建。(3)基于多知识源的多策略实体候选集构建方法:根据已经搭建好的实体链接平台,针对实体候选集构建模块进行方法改进。提出了基于多知识源的多策略候选集构建方法,构建了一个更高质量的候选集。(4)基于卷积神经网络和多知识库的实体消歧方法:将实体消歧部分划分为两个部分,并针对这两个部分提出了基于卷积神经网络、Ranking SVM以及多知识库实体类别筛除的实体消歧改进方法。(本文来源于《苏州大学》期刊2018-05-01)
陈桂强[2](2017)在《基于多知识库科技报告术语实体链接研究》一文中研究指出科技报告作为一种重要的文献资源,对其的深入挖掘与分析具有重要的价值和意义。然而,目前针对科技报告的研究仍停留在对其基本概念、属性的界定,以及科技报告体系建设研究,而对科技报告内容深入挖掘与分析研究非常少。科技报告中含有大量的专业术语实体,这些专业术语实体多为科技报告的研究主体,代表着我国科学技术的发展现状与未来趋势。因此,对科技报告内容的挖掘分析,识别其中的专业术语实体对推动科技创新具有重要意义。实体识别技术作为自然语言处理的关键技术,可用于自动识别文本中的人名、地名、机构名等实体,将其扩展应用使得自动识别专业术语实体成为可能。本文以科技报告为研究对象,首先利用新词发现技术发现科技报告中未登录的潜在术语新词,然后构建专业术语知识库作为术语实体识别与链接的语料支撑,最后利用Stanford NER实体识别框架实现科技报告中术语实体的自动识别,并与多个知识库进行链接消歧。主要的研究工作如下:(1)针对目前中文分词存在的问题以及科技报告术语的特点,提出了基于词性组合的新词发现方法,通过制定专业术语的词性组合规则抽取符合规则的词串,并根据词串的支持度以及词长、互信息等内外部特征确定新词,有效发现专业术语新词,在一定程度上提高了中文分词的准确度,为术语实体的识别奠定了基础。(2)构建专业术语知识库。实体识别需要大量的语料作为支持,通过训练语料提取实体特征,实现实体的自动识别。由于目前缺乏公开的科技报告术语语料,本文以中国规范术语网提供的专业术语知识作为数据源,利用网络爬虫,数据库等信息技术设计并构建术语知识库。(3)详细介绍了目前实体识别的主流方法,并选择成熟的基于条件随机场模型的Stanford NER开源实体识别框架,通过训练术语实体模型,实现科技报告术语实体的自动识别,并结合多知识库与语义相似度计算实现术语实体的链接消歧。(4)选取国家科技报告服务系统发布的科技报告作为实验数据,设计并开发基于多知识库的科技报告术语实体链接原型系统。该系统主要集成了科技报告数据预处理、新词发现、实体识别与实体链接功能,实现了对科技报告术语实体的自动识别与消歧,并验证了本文方法的正确性和有效性。(本文来源于《华中师范大学》期刊2017-05-01)
周鹏程,武川,陆伟[3](2016)在《基于多知识库的短文本实体链接方法研究——以Wikipedia和Freebase为例》一文中研究指出【目的】基于多知识库进行实体链接,解决基于单一知识库的实体链接覆盖度低的问题。【方法】首先生成文本的n-gram并利用词性和多个指称–实体字典获取候选指称,然后生成指称组合并保留覆盖度最大且不被其他组合包含的指称组合,接着生成候选实体序列并利用多知识库信息计算实体序列的相关度,最后选择相关度最大的实体序列为最终结果。【结果】以Wikipedia和Freebase为例的实验结果表明,基于Wikipedia+Freebase的实体链接准确率、召回率、F值分别达到71.81%、76.86%、74.25%。【局限】基于词性过滤n-gram缺乏理论依据,数据集FACC1具有高准确率和低召回率的特点。【结论】利用多个知识库的实体信息,能够提升实体链接效果。(本文来源于《现代图书情报技术》期刊2016年06期)
陈生海[4](2013)在《基于粗集的多知识库模型集成研究》一文中研究指出粗糙集理论是20世纪80年代初由波兰数学家Pawlak Z.首先提出的一种新型的处理模糊和不确定知识的数学工具,其基本思想是在保持分类能力不变的前提下,通过知识约简,导出概念的分类规则。目前,己在数据挖掘、机器学习、模式识别、人工智能、故障检测、决策分析等方面得到了广泛的应用。本文主要对于基于粗糙集理论产生多知识库方法及其决策融合的问题进行了研究。论文阐述了粗糙集产生多知识库的原理,给出了多知识库的形式化定义。同时描述了知识库中决策规则的多种度量,分析了它们体现的性质,并把这些度量指标引入到规则集中,研究了规则集合的决策度量,从整体上体现了一个规则集合的性能,为多知识库决策奠定了基础。论文基于模型集成的基本理论,提出了把一个规则知识库作为一个决策模型,分析了模型网的构造与模型集成方法,通过模型集成实现决策融合,从而在模型一级实现了综合的决策过程。研究中对模型网的概念作了形式化定义,分析设计了模型网的构造方法。并给出了对模型网进行化简的算法,在此基础上研究了基于模型网的模型集成方法。由于在模型网构造的过程中,数据类型转换都是单一类型的,这将会导致生成的模型网具有回路,从而会使模型网的化简和模型集成方法失效。为此,研究了消除模型网中回路的措施和方法。图19副,表14个,参考文献60篇。(本文来源于《中南大学》期刊2013-05-01)
付剑锋,刘宗田,刘念祖[5](2013)在《基于多知识库和局部反馈的查询扩展研究》一文中研究指出查询扩展是优化信息查询的一种重要手段。提出了一种基于多知识库和局部反馈的查询扩展方法,该方法首先融合了领域本体与同义词词林两种不同类型的知识库对查询关键词进行扩展,然后再用局部反馈方法对扩展结果进行筛选。实验表明,该方法可以有效提高查询性能。(本文来源于《情报杂志》期刊2013年02期)
杨龙,张公让,王力,魏炎炎[6](2014)在《基于知识库分割的多知识库整合方法》一文中研究指出知识库是集团企业云制造平台中知识服务的重要基础,知识库的质量直接决定着知识服务的质量。目前单一分散的知识库不能提供统一的知识资源全局视图,不利于知识资源的共享。多知识库整合技术已经成为该领域的研究热点之一。提出一种基于知识库分割的多知识库整合方法,采用基于蚁群聚类的分割策略,将知识库有效划分为知识块集。在知识块间利用语义概念映射生成知识块间映射图,从而实现多知识库整合。通过对算法的时间复杂度进行分析,表明该方法在时间复杂度方面要优于基于最小概念集的多知识库整合方法;实验结果也表明该方法在运行性能方面明显优于已有的方法。(本文来源于《计算机工程与应用》期刊2014年07期)
彭志平,夏战锋,周超[7](2012)在《多知识库整合技术在企业供应链中的应用》一文中研究指出企业供应链中数据的独立性较差,智能化程度较低。为此,提出一种多知识库整合技术,并将其应用于企业供应链中。通过寻找TBox间的重迭区域,建立概念关联,消除数据冗余性和不一致性,以整合知识库。设计多ABox优化技术及其实现算法,给出服务请求子系统结构、服务接收子系统和知识库整合中心框架。实验结果表明,该技术能减少系统运行时间。(本文来源于《计算机工程》期刊2012年02期)
王美铃[8](2011)在《基于多知识库电力变压器故障诊断专家系统》一文中研究指出电力变压器结构复杂,其发生故障的形式错综复杂。传统的电力变压器故障诊断方法是对变压器进行离线电气试验,这种方法难以实时检测故障且可能造成过度检修;另一种方法是基于油中溶解气体分析的故障诊断方法,该方法对检测故障非常有效,但不能对故障进行定位。因此,本文研究并开发了电力变压器故障诊断系统。论文的主要成果如下:1、提出基于Huffman树型支持向量机故障分类器的设计。首先将基于Huffman树型的故障分类器运用在变流器的故障诊断上,在MATLAB上建立叁相逆变器模型并获取66个故障波形,利用小波分析和奇异值分解方法提取故障波形特征值,然后利用基于Huffman树的支持向量机进行波形分类,实验结果显示基于Huffman树支持向量机对时序序列的分类准确率达到95%以上;本文将基于Huffman树型支持向量机的故障分类器应用到电力变压器的故障诊断中,该分类器能实现对变压器的10种性质的故障进行分类,实验结果显示分类准确率达到90%以上。2、针对电力变压器故障机理复杂多样的特征,提出了基于知识库为核心的电力变压器故障诊断专家系统,建立了以油中溶解气体分析(DGA)知识库、绝缘系统检测知识库、油中微水含量检测知识库叁个知识库信息融合的故障确诊策略。其中,针对油中溶解气体分析知识库中知识量大的特征,使用规则置信度对一故障信息可匹配多条规则知识的情况进行冲突消减;根据电力变压器故障种类概率呈现中间大两头小的特点,建立动态知识库模型以存入变压器近期故障,推理机进行推理时首先扫描动态知识库。实验结果表明,该专家系统在检测变压器故障时表现出了较高的准确率和较高的诊断速率。3、本文以VS2008为开发工具、Microsoft SQL Server2005为后台数据库,设计开发了电力变压器故障诊断系统软件,该系统软件包括6个功能模块,实现查看实时状态,浏览数据,进行设备和用户的管理、设置采样计划、查看系统日志等功能。该系统集成了基于知识库的变压器专家系统,以实现自动分析并处理接收的变压器数据,对变压器进行故障分析并给出处理建议。现场应用结果表明,该系统能够很好地实现对电力变压器状态的实时监控。(本文来源于《中南大学》期刊2011-06-30)
彭志平,夏战锋[9](2011)在《基于最小概念集的多知识库整合》一文中研究指出在语义Web环境下,知识库往往是单一、分散的,阻碍了语义Web的发展。为此,提出一种基于最小概念集的多知识库整合方法。定义知识库系统的最小概念集,给出生成最小概念集的方法,对基于风险最小化的本体映射模型中的映射策略进行改进,并设计基于最小概念集的多知识库整合算法,通过应用实例验证算法的复杂度。(本文来源于《计算机工程》期刊2011年08期)
夏战锋[10](2011)在《语义Web中基于描述逻辑的多知识库整合研究》一文中研究指出自从1998年语义Web的理念和体系架构被提出后,这个被称为下一代Web的技术受到广泛关注,在近十几年,研究者对相关层面上的知识表示、推理、存储方式等进行深入研究,并逐渐地将相关领域内的技术思想和研究成果运用到语义Web的开发和实际应用。语义Web开发的核心技术之一是构建具有逻辑推理功能的知识库,它已经在互联网上得到广泛的应用,尤其是为语义Web提供语义信息,实现Web信息的自动处理。知识库的分散式、单一化的特性导致知识库之间构建标准不统一、数据不一致、信息交互困难以及“信息孤岛”等问题,从而严重影响机器自主推理能力,降低语义Web的智能化效果。为了有效解决上述问题,并考虑如何维护知识库的正确性及有效组织推理规则进行逻辑推理以最大化地满足语义Web所需要的隐含信息,知识库整合技术的研究在语义Web领域中具有重要意义。目前,语义Web下的多知识库整合需要人工参与大部分工作,而其过程又是单调的重复性工作。基于此点,本文针对语义Web中描述逻辑构建的多知识库整合进行较为全面的分析与研究。本文的主要贡献如下:(1)实现知识库的逻辑推理功能。证明了描述逻辑中的所有推理问题都可转化为可满足性关系和目标的一致性检测关系,并给出两种关系的变形规则,理论证明显示变形后的规则更适合于知识库的逻辑推理。(2)提出一种基于最小概念集的多TBox整合方法及其算法。设计最小概念集生成算法,利用并改进RiMOM(Risk Minimization based Ontology Mapping)模型中的映射策略,构建TBox间映射图,最后将若干个局部TBox整合成一个全局TBox。仿真结果显示该整合方法性能良好。(3)提出一种分割与关联的多ABox优化技术及算法。通过构建子ABox图来分割ABox,根据连通图判定算法判定子ABox图间相互依赖关系,通过数据描述法关联存有依赖关系的子ABox。仿真结果显示该优化方法大幅度提高检索效率。(4)设计一款自动化的多知识库整合查询系统MKBMQS (Multiple Knowledge Bases Merge and Query System),并设计整合后TBox和ABox上的查询算法。通过工程应用实例,利用设计好的查询算法,该系统可验证文中的整合技术是可行的。(本文来源于《江苏科技大学》期刊2011-01-04)
多知识库论文开题报告
(1)论文研究背景及目的
此处内容要求:
首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。
写法范例:
科技报告作为一种重要的文献资源,对其的深入挖掘与分析具有重要的价值和意义。然而,目前针对科技报告的研究仍停留在对其基本概念、属性的界定,以及科技报告体系建设研究,而对科技报告内容深入挖掘与分析研究非常少。科技报告中含有大量的专业术语实体,这些专业术语实体多为科技报告的研究主体,代表着我国科学技术的发展现状与未来趋势。因此,对科技报告内容的挖掘分析,识别其中的专业术语实体对推动科技创新具有重要意义。实体识别技术作为自然语言处理的关键技术,可用于自动识别文本中的人名、地名、机构名等实体,将其扩展应用使得自动识别专业术语实体成为可能。本文以科技报告为研究对象,首先利用新词发现技术发现科技报告中未登录的潜在术语新词,然后构建专业术语知识库作为术语实体识别与链接的语料支撑,最后利用Stanford NER实体识别框架实现科技报告中术语实体的自动识别,并与多个知识库进行链接消歧。主要的研究工作如下:(1)针对目前中文分词存在的问题以及科技报告术语的特点,提出了基于词性组合的新词发现方法,通过制定专业术语的词性组合规则抽取符合规则的词串,并根据词串的支持度以及词长、互信息等内外部特征确定新词,有效发现专业术语新词,在一定程度上提高了中文分词的准确度,为术语实体的识别奠定了基础。(2)构建专业术语知识库。实体识别需要大量的语料作为支持,通过训练语料提取实体特征,实现实体的自动识别。由于目前缺乏公开的科技报告术语语料,本文以中国规范术语网提供的专业术语知识作为数据源,利用网络爬虫,数据库等信息技术设计并构建术语知识库。(3)详细介绍了目前实体识别的主流方法,并选择成熟的基于条件随机场模型的Stanford NER开源实体识别框架,通过训练术语实体模型,实现科技报告术语实体的自动识别,并结合多知识库与语义相似度计算实现术语实体的链接消歧。(4)选取国家科技报告服务系统发布的科技报告作为实验数据,设计并开发基于多知识库的科技报告术语实体链接原型系统。该系统主要集成了科技报告数据预处理、新词发现、实体识别与实体链接功能,实现了对科技报告术语实体的自动识别与消歧,并验证了本文方法的正确性和有效性。
(2)本文研究方法
调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。
观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。
实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。
文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。
实证研究法:依据现有的科学理论和实践的需要提出设计。
定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。
定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。
跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。
功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。
模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。
多知识库论文参考文献
[1].杨紫怡.基于多知识库的实体链接研究[D].苏州大学.2018
[2].陈桂强.基于多知识库科技报告术语实体链接研究[D].华中师范大学.2017
[3].周鹏程,武川,陆伟.基于多知识库的短文本实体链接方法研究——以Wikipedia和Freebase为例[J].现代图书情报技术.2016
[4].陈生海.基于粗集的多知识库模型集成研究[D].中南大学.2013
[5].付剑锋,刘宗田,刘念祖.基于多知识库和局部反馈的查询扩展研究[J].情报杂志.2013
[6].杨龙,张公让,王力,魏炎炎.基于知识库分割的多知识库整合方法[J].计算机工程与应用.2014
[7].彭志平,夏战锋,周超.多知识库整合技术在企业供应链中的应用[J].计算机工程.2012
[8].王美铃.基于多知识库电力变压器故障诊断专家系统[D].中南大学.2011
[9].彭志平,夏战锋.基于最小概念集的多知识库整合[J].计算机工程.2011
[10].夏战锋.语义Web中基于描述逻辑的多知识库整合研究[D].江苏科技大学.2011