导读:本文包含了实体信息挖掘论文开题报告文献综述及选题提纲参考文献,主要关键词:开放信息源,知识挖掘,实体抽取,词向量
实体信息挖掘论文文献综述
王莉军,李旭婕,刘志辉,翟云[1](2019)在《基于开放信息源的实体挖掘方法研究》一文中研究指出【目的/意义】互联网上的信息资源日益丰富,开放信息源成为一些领域知识获取的重要渠道。本文以中医领域为例,为向本体和知识图谱的构建提供数据,提出了一种基于开放信息源的知识挖掘方法。【方法/过程】在缺乏领域训练语料的情况下,先获取一部分语料,使用规则模板、词向量结合词分类的方法获取部分领域实体词,通过回标文本语料得到训练集,再使用条件随机场进行实体的识别和抽取。【结果/结论】本文提出的规则结合SVMCRF实体抽取模型具有较高的有效性和通用性。在所使用的中医实体中,方剂和症型实体的抽取准确率仍待进一步提升。(本文来源于《情报科学》期刊2019年08期)
李思豪[2](2017)在《面向实体信息挖掘的多标签学习算法研究》一文中研究指出实体是现实世界中数据和信息的主要载体,通过对实体的语义内容、属性特征和内在联系等有价值的信息进行挖掘,可以解决大数据分析中的数据不完整问题,提高数据处理性能,并为诸多工作提供重要的参考资料。对能够表征实体内容或属性的标签进行学习,是实体信息挖掘的主要方法之一。当前针对面向实体信息挖掘的多标签学习算法的研究已经取得很大的进展,但总体上还存在以下叁个方面的不足:(1)在样本分布方面,数据在多标签学习过程中的不平衡现象影响实体信息挖掘性能,而实体数据平衡过程存在弱势类信息大量冗余而强势类信息大量丢失的问题;(2)在特征分布方面,数据的高特征维度导致实体信息挖掘过程面临过拟合、计算复杂度高等挑战,而特征降维过程存在没有充分利用实体标签相关性信息的问题;(3)在标签分布方面,当实体数据集标签规模较大时,多标签学习算法执行效率尚有待进一步提高。针对以上问题,本文结合实体信息挖掘的实际需求,分别从样本分布、特征分布和标签分布叁个方面,对多标签学习进行了研究。论文的主要研究工作如下:(1)针对在样本分布方面存在的问题,提出一种多标签随机均衡采样算法。首先提出平均样本数的概念,在重采样过程中通过标签样本数和平均样本数的比较,保持了数据的原始分布;进而通过优化样本的复制和删除策略,保证重采样过程中不同标签样本集之间的独立性;最后,在上述基础上,提出随机均衡采样思路,充分利用强势类和弱势类信息来平衡数据的冗余和损失。实验表明,该算法能更好地适用于不平衡度较高的数据集,相比其它方法具有更好的性能。(2)针对在特征分布方面存在的问题,提出一种基于实体标签关系改进的多标签特征选择算法。首先引入对称不确定性对信息量进行归一化,然后用归一化的互信息量作为相关性的衡量方法,并据此定义标签重要性权重,对依赖度和冗余度中的标签相关项进行加权处理;进而提出一种特征评分函数,作为特征重要性的评价指标,并依次选择出评分最高的特征组成最佳特征子集。实验表明,该算法在提取出更加精确的低维特征子集后,不仅能够有效提高面向实体信息挖掘的多标签学习算法的性能,也能提高基于离散实体特征的多标签学习算法的效率。(3)针对在标签分布方面存在的问题,提出一种基于标签矩阵分解的多标签学习算法。首先结合标签矩阵元素二元性的特点,将标签矩阵用标签基矩阵和k标签关系矩阵的乘积进行表示,从而在将数据映射到低维基空间的同时,显式地描述了标签的相关性信息;进而在基空间进行传统多标签分类,将在基空间的分类结果与k标签关系矩阵相乘后,得到最终的分类结果。实验表明,该算法在处理标签数大、标签基数高的数据集时,具有良好而稳定的学习性能和算法执行效率。(本文来源于《解放军信息工程大学》期刊2017-04-20)
张意婷[3](2016)在《面向关联信息挖掘的实体案例推荐框架研究》一文中研究指出随着信息化的发展,医疗领域的信息系统中累积了大量医疗数据。这些医疗数据中包含有价值的医疗信息,可以加以利用并辅助医疗的各个流程,因此挖掘这些数据中存在的价值具有重要意义。在诊疗中,医生需要根据病人的病情制定治疗方案,该过程主要依赖于自身经验以及医学知识,但是有时候存在信息不全面、决策不确定问题,如能借助关联挖掘合理利用已有的医疗数据,深入得到数据之间的关联关系、获取有效信息,进行相似案例推荐,能够给医生提供相似的诊疗方案帮助医生诊疗。因此,医院对于医疗领域的案例推荐系统具有较大需求。针对案例推荐的需求,本文提出了面向关联信息挖掘的实体案例推荐框架,利用医疗数据,面向数据进行关联挖掘,针对输入的案例信息进行案例匹配,找出相似的案例,给医生提供指导、建议作用,以了解该病情的治疗方案,帮助诊疗。本文主要的研究内容如下:1.提出了面向关联信息挖掘的实体案例推荐框架根据案例推荐的需求,提出了面向关联信息挖掘的实体案例推荐框架。该框架有五层结构,分别为应用层、数据处理层、关联挖掘层、源数据管理层、数据存储层,以及位于五层结构之上的访问接口。应用层提供案例输入、推荐输出;数据处理层负责对输入的数据进行关联转化;关联挖掘层负责对关联数据进行挖掘;源数据管理层负责管理源数据;数据存储层提供有用医疗数据存储。2.设计了关联数据转化模块对于数据支撑层,根据本文所用医疗数据特点,自定义转化规则,将数据库中的结构化数据转化为关联数据,以便根据关联数据结构关系进行匹配。同时设计了输入信息转化模块,将输入的非结构化案例信息转化为关联数据。3.提出了基于关联数据的案例匹配算法对于推荐流程,提出了对于两个本体案例进行匹配的算法,输入两个本体案例,输出相似度,根据相似度决定是否推荐案例。该案例匹配流程包括关联数据匹配算法以及时序匹配算法。关联数据匹配算法又包括节点匹配算法、开放数据源算法、结构匹配算法、基于剂量以及基于复合药物的匹配算法。进行初步匹配,得到诊疗、药方等医疗流程的节点初步相似度;接着基于医疗数据的时序性进行时序扩展,并且提出了时序匹配算法找出时序匹配对,接着根据绝对时间间隔再匹配算法,得到最终时序相似度。根据相似度阈值对案例进行推荐。4.对本文所提框架进行应用验证本文选取医院的胃癌、肠癌、胃炎、肠炎数据作为基础数据,通过数据分析、数据处理构造了有效信息的数据库。在医疗数据基础之上,构建案例推荐平台。通过对构建过程的详细描述,显示了框架的可行性以及可用性。(本文来源于《上海交通大学》期刊2016-12-01)
杨丹,申德荣,聂铁铮,于戈,寇月[4](2014)在《异构信息空间中实体关联关系挖掘算法CFRQ4A》一文中研究指出丰富的实体关联关系是在异构信息空间中进行数据分析、数据挖掘、知识发现和语义查询等许多应用的前提条件和关键所在.然而不同于同构信息网络,由于异构信息空间中实体关联关系的复杂性、多样性和异构性使得实体关联关系挖掘并不是一件简单的任务,更具有挑战性.以作者文献网络为例,提出了一个通用的,由聚类、过滤、推理和量化4步骤组成的异构信息空间中基于聚类的实体关联关系挖掘算法CFRQ4A(clustering,filtering,reasoning and qualifying for associations).CFRQ4A算法不仅利用了异构实体自身的属性值,还利用了异构信息网络的结构(路径)信息;在挖掘过程中引入关联关系约束来保证关联关系的语义和逻辑正确性,并且针对实体关联关系的特点提出了关联强度量化模型.在真实数据集DBLP上的实验结果表明所提出算法是可行和有效的.(本文来源于《计算机研究与发展》期刊2014年04期)
刘悦[5](2013)在《基于微博特定实体的关联信息挖掘算法研究》一文中研究指出作为随着web2.0技术而兴起的互联网社交类应用,微博已经逐渐成为人们日常生活里不可或缺的一部分。微博的火爆带来的是微博数据量的爆炸式增长。如何利用庞大的微博数据,如何从海量数据中获得符合需求的信息,如何挖掘和指定实体的关联信息,成为现阶段学术界的重点研究方向。本论文通过分析微博的特点,提出了基于微博的特定实体对象的信息挖掘系统——微邮系统,并从微博环境下的信息检索,特定实体信息挖掘和基于实体间关联性的推荐系统叁个方面由浅入深地进行了研究。本文的主要创新点和贡献在于以下几个方面:首先,提出了一种基于电阻网络模型的查询扩展方法,利用电路系统上的电阻网络模型来模拟文本空间的词间关系网络,以有效电阻来表征词间的关联度。此方法有效地简化了复杂的词间关系网络的计算。TREC提出的Microblog Track评测的结果表明,此方法可以得到符合用户原始查询意图的扩展词,并提高各项检索指标。其次,在查询扩展的基础上,提出了一种基于词激活力模型的扩展词间关联性挖掘算法。利用词激活力模型中词间亲密度,计算扩展词问的关联性,得到扩展词对,并利用扩展词对进行查询重构。实验数据说明,扩展词对可以有效减少因扩展词引起的信息偏移,在关于实体对象的信息挖掘中取得了较好的效果。最后,设计实现了一个基于词激活力模型,针对用户兴趣和环境信息共同影响下的个性化推荐系统。此系统在TREC的Contextual Suggestion Track评测中取得了优异的成果,充分说明了词激活力模型在实体间关联性挖掘上的有效性。(本文来源于《北京邮电大学》期刊2013-11-30)
包胜华[6](2008)在《基于Web的实体信息搜索与挖掘研究》一文中研究指出随着网络技术的迅猛发展,当今的万维网出现了多代共存、共同发展的新局面。传统万维网(Web 1.0)构成了当今万维网的主体。社会化万维网(Web 2.0)近年来飞速发展,成为了当今万维网的新兴力量。同时,为了能够让机器和人一样地理解并处理各种网络数据,人们正积极推进语义万维网技术的发展,并预期其将成为下一代网络的主流载体(Web 3.0)。所有这些网络的应用均层出不穷,各类实体描述信息散布其间。这给用户带来便利的同时也带来了一个关键的问题,即信息过载。如何从这一巨大而复杂的信息空间中,有效地找到用户所需要的各类实体信息也成为近年来的一个研究热点。根据这一需求,本文分析了各代网络的特点,提出了在Web 1.0、2.0和3.0中进行实体信息检索与挖掘的概念,针对每代网络进行了体系化的理论研究工作,并提出了一系列的挖掘算法。在传统网络(Web 1.0)中,大部分研究工作都以提供用户最为相关的网页为目标,而现实中,越来越多的用户开始关心网页内部所蕴含的信息,而非网页本身。针对这一需求,本文第一部分提出了以下算法对网页中的实体信息进行挖掘:1)专家搜索:本文提出了基于概率的细粒度专家搜索模型。2)专家-技术隐式关联挖掘:本文提出了多类型的可分混合模型用于高效地挖掘专家和技术之间的隐式关联。3)竞争者挖掘:本文提出了一个创新的算法(CoMiner)用于从网上自动地挖掘领域无关的竞争对手信息。4)时间关联的事件挖掘:本文提出了一个新的算法(TESer)用于挖掘网络中的事件信息并按照时间进行整合。Web2.0的快速发展带来了大量对网页、图片、论文、专家等实体进行的大众标注,比如Del.icio.us书签网、Flickr图片共享网等。本文第二部分分析Web 2.0的特性,挖掘其中的各种实体关系,并用挖掘到的信息改善各种现有的应用:1)社会化搜索:本文提出了两个新算法分别用于改进网页搜索的动态排序和静态排序。2)社会化语言模型:本文提出了一个语言标注模型用来进一步改进语言模型的检索效果。3)社会化浏览:本文提出了一个改进的网页浏览算法,该算法能够充分地利用网页标注之间的语义关联和隐含的层次信息。为了让机器也能理解网络信息,人们提出了语义万维网。目前语义万维网正处于早期发展阶段。作为现有万维网的下一个自然扩展,本文将其称为Web 3.0。本文第叁部分对Web 3.0的构建及其应用进行了探讨性的研究:1)语义浮出:通常语义万维网通过专家定义本体信息来构建,本文提出了基于社会化标注自动浮出层次化语义的算法。2)语义应用:本文进一步将语义信息应用到Web服务组合中,并提出了一个新的语义服务的查找与组合算法。研究结果表明,通过对Web 1.0、2.0和3.0环境下的实体挖掘研究,能够极大地减少用户获取目标信息所需的时间,并能更好地帮助用户理解搜索目标。(本文来源于《上海交通大学》期刊2008-05-01)
实体信息挖掘论文开题报告
(1)论文研究背景及目的
此处内容要求:
首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。
写法范例:
实体是现实世界中数据和信息的主要载体,通过对实体的语义内容、属性特征和内在联系等有价值的信息进行挖掘,可以解决大数据分析中的数据不完整问题,提高数据处理性能,并为诸多工作提供重要的参考资料。对能够表征实体内容或属性的标签进行学习,是实体信息挖掘的主要方法之一。当前针对面向实体信息挖掘的多标签学习算法的研究已经取得很大的进展,但总体上还存在以下叁个方面的不足:(1)在样本分布方面,数据在多标签学习过程中的不平衡现象影响实体信息挖掘性能,而实体数据平衡过程存在弱势类信息大量冗余而强势类信息大量丢失的问题;(2)在特征分布方面,数据的高特征维度导致实体信息挖掘过程面临过拟合、计算复杂度高等挑战,而特征降维过程存在没有充分利用实体标签相关性信息的问题;(3)在标签分布方面,当实体数据集标签规模较大时,多标签学习算法执行效率尚有待进一步提高。针对以上问题,本文结合实体信息挖掘的实际需求,分别从样本分布、特征分布和标签分布叁个方面,对多标签学习进行了研究。论文的主要研究工作如下:(1)针对在样本分布方面存在的问题,提出一种多标签随机均衡采样算法。首先提出平均样本数的概念,在重采样过程中通过标签样本数和平均样本数的比较,保持了数据的原始分布;进而通过优化样本的复制和删除策略,保证重采样过程中不同标签样本集之间的独立性;最后,在上述基础上,提出随机均衡采样思路,充分利用强势类和弱势类信息来平衡数据的冗余和损失。实验表明,该算法能更好地适用于不平衡度较高的数据集,相比其它方法具有更好的性能。(2)针对在特征分布方面存在的问题,提出一种基于实体标签关系改进的多标签特征选择算法。首先引入对称不确定性对信息量进行归一化,然后用归一化的互信息量作为相关性的衡量方法,并据此定义标签重要性权重,对依赖度和冗余度中的标签相关项进行加权处理;进而提出一种特征评分函数,作为特征重要性的评价指标,并依次选择出评分最高的特征组成最佳特征子集。实验表明,该算法在提取出更加精确的低维特征子集后,不仅能够有效提高面向实体信息挖掘的多标签学习算法的性能,也能提高基于离散实体特征的多标签学习算法的效率。(3)针对在标签分布方面存在的问题,提出一种基于标签矩阵分解的多标签学习算法。首先结合标签矩阵元素二元性的特点,将标签矩阵用标签基矩阵和k标签关系矩阵的乘积进行表示,从而在将数据映射到低维基空间的同时,显式地描述了标签的相关性信息;进而在基空间进行传统多标签分类,将在基空间的分类结果与k标签关系矩阵相乘后,得到最终的分类结果。实验表明,该算法在处理标签数大、标签基数高的数据集时,具有良好而稳定的学习性能和算法执行效率。
(2)本文研究方法
调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。
观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。
实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。
文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。
实证研究法:依据现有的科学理论和实践的需要提出设计。
定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。
定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。
跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。
功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。
模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。
实体信息挖掘论文参考文献
[1].王莉军,李旭婕,刘志辉,翟云.基于开放信息源的实体挖掘方法研究[J].情报科学.2019
[2].李思豪.面向实体信息挖掘的多标签学习算法研究[D].解放军信息工程大学.2017
[3].张意婷.面向关联信息挖掘的实体案例推荐框架研究[D].上海交通大学.2016
[4].杨丹,申德荣,聂铁铮,于戈,寇月.异构信息空间中实体关联关系挖掘算法CFRQ4A[J].计算机研究与发展.2014
[5].刘悦.基于微博特定实体的关联信息挖掘算法研究[D].北京邮电大学.2013
[6].包胜华.基于Web的实体信息搜索与挖掘研究[D].上海交通大学.2008