导读:本文包含了同名排歧论文开题报告文献综述及选题提纲参考文献,主要关键词:数据质量,实体分辨,同名排歧,有效路径
同名排歧论文文献综述
尚玉玲,曹建军,李红梅,郑奇斌[1](2018)在《基于合作作者与隶属机构信息的同名排歧方法》一文中研究指出同名排歧是实体分辨领域的重要研究内容之一,其旨在分辨出相同姓名对应的不同人。针对传统同名排歧方法需要丰富的信息以及无法解决信息缺乏时的排歧问题,提出了一种基于合作作者和隶属机构信息的同名排歧方法。根据作者间的合作关系以及作者与机构间的隶属关系构造实体关系图,采用广度优先搜索策略搜索图中两两同名作者间的有效路径;根据有效路径长度、数目及路径上边的类型,计算两个同名作者间的连接强度,并将其与阈值进行比较,实现同名排歧。实验结果表明,所提方法比当前最好的方法具有更好的同名排歧效果,且能够实现单一作者的同名排歧。(本文来源于《计算机科学》期刊2018年11期)
陈未路[2](2017)在《基于科研论文合作者关系图的同名排歧方法研究》一文中研究指出大数据时代的到来造成知识更新瞬息万变,网络信息以不同的形式提供了各种各样的知识,造成了知识对象的歧义。如何从浩瀚的知识海洋中获取所需要的、正确、没有歧义的知识,正是当前亟需解决的问题。同名问题是典型的知识对象歧义问题,是一个人名对应多个真实个体的现象。在科学研究中,作者名字歧义问题不仅降低了文献和网络检索的准确性,而且对数据挖掘等研究造成了一定的影响。同名排歧的目的是要将这些混淆在一起的真实个体区分开。考虑到科研论文中存在着复杂的合作者关系,同时为了更准确地描述论文之间真实相似程度,本文基于合作者关系图模型,提出了合作者关联图上的多路径游走同名排歧算法和基于二分图的P-Sim Rank同名排歧算法:(1)针对传统的文本相似度计算方法不能对复杂的合作者关系进行准确度量的问题,结合合作者关联图能传递合作者链接关系的特性,提出了基于合作者关联图的多路径游走(Multi-path Walk Based on Coauthorship Association Graph,MWCAG)同名排歧算法。首先,MWCAG利用论文间的合作者信息构建了合作者文章列表;然后,基于合作者文章列表构建了合作者关联图,并采用简单有效的、且根据同名排歧问题进行优化后的多路径游走策略进行合作者相似度的计算;接下来,用文本相似度方法计算了期刊与标题的相似性;最后,针对排歧集合规模的差异导致不同规模相似值的差异,进行动态层次聚类,实现排歧目的。本文选择了数据格式规范度较高的DBLP数据进行实验,实验结果表明,MWCAG算法有较高的准确率和召回率。(2)分析论文中合作者关系存在间接关联性的特点,结合合作者二分图网络的整体拓扑结构特征,提出了基于二分图的P-Sim Rank同名排歧算法。考虑到原始的Sim Rank算法无法直接适用于同名排歧问题,因此对其进行了两点改进:1)针对Sim Rank算法应用在完全二分图上,导致拥有不同共有邻居节点数目的节点相似值不准确的缺陷,引入了证据(evidence)因子,对其相似值进行了修正;2)针对排歧集合规模的差异造成了相似度差异的问题,引入了惩罚(penalty)因子,平衡了不同集合规模间的相似度。同时结合期刊与标题的文本相似性,进行层次聚类。本文选择了数据格式规范度较高的DBLP数据进行实验,实验结果表明P-Sim Rank算法有较高的准确率和召回率。(本文来源于《杭州电子科技大学》期刊2017-03-01)
王峰[3](2008)在《同名排歧方法研究及其应用》一文中研究指出同名排歧指的是解决同一人名指代多个实体的过程,即解决数据处理中的同名异义问题。同名异义问题在现实社会广泛存在,随着信息化和Web网络的迅速发展,如何解决这同名异义问题已经成为信息集成、信息检索以及众多数据挖掘应用面临的首要问题。本文以学术信息搜索为应用背景研究研究者名称排歧问题,形式化定义了社会关系网络中的同名排歧问题,提出基于原子聚类的排歧方法和基于约束的话题模型的排歧方法,具体工作包括:针对研究者网络中数据点的特征分布过于稀疏,传统聚类算法效果不佳的问题,本文提出基于原子聚类的同名排歧方法。该方法主要包括两个步骤:首先,使用有指导学习算法发现强关联数据点,并将其合并生成原子聚类;接着,基于学习得到的原子聚类,使用多种聚类方法进行聚类,得到最终同名排歧结果。实验证明,该方法可以平均提高k-means聚类算法的同名排歧效果约25%,提高层次聚类算法的同名排歧效果约8%。本文进一步研究基于约束的话题模型方法。该方法的基本思想是利用话题模型,把原始特征空间映射到隐含语义话题空间,然后在隐含语义话题对应的特征空间上使用聚类算法进行同名排歧。研究发现传统话题模型在同名排歧问题上还不能取得很好的效果,因此本文提出了基于约束的话题模型,使用约束作为指导信息,改善话题模型在同名排歧问题上的效果。该模型利用领域背景知识作为约束,定义基于约束的话题模型的目标函数,并通过Gibbs采样的方法对目标函数进行优化,进而得到数据点在话题空间的特征分布。利用话题特征,使用层次聚类的算法得到最终排歧结果。实验证明,该方法可以有效的提高话题模型在同名排歧任务上的表现。本文将提出的同名排歧方法应用到学术搜索系统ArnetMiner中,实现并集成研究者同名排歧模块,验证了本文方法的有效性和可用性。(本文来源于《清华大学》期刊2008-12-01)
同名排歧论文开题报告
(1)论文研究背景及目的
此处内容要求:
首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。
写法范例:
大数据时代的到来造成知识更新瞬息万变,网络信息以不同的形式提供了各种各样的知识,造成了知识对象的歧义。如何从浩瀚的知识海洋中获取所需要的、正确、没有歧义的知识,正是当前亟需解决的问题。同名问题是典型的知识对象歧义问题,是一个人名对应多个真实个体的现象。在科学研究中,作者名字歧义问题不仅降低了文献和网络检索的准确性,而且对数据挖掘等研究造成了一定的影响。同名排歧的目的是要将这些混淆在一起的真实个体区分开。考虑到科研论文中存在着复杂的合作者关系,同时为了更准确地描述论文之间真实相似程度,本文基于合作者关系图模型,提出了合作者关联图上的多路径游走同名排歧算法和基于二分图的P-Sim Rank同名排歧算法:(1)针对传统的文本相似度计算方法不能对复杂的合作者关系进行准确度量的问题,结合合作者关联图能传递合作者链接关系的特性,提出了基于合作者关联图的多路径游走(Multi-path Walk Based on Coauthorship Association Graph,MWCAG)同名排歧算法。首先,MWCAG利用论文间的合作者信息构建了合作者文章列表;然后,基于合作者文章列表构建了合作者关联图,并采用简单有效的、且根据同名排歧问题进行优化后的多路径游走策略进行合作者相似度的计算;接下来,用文本相似度方法计算了期刊与标题的相似性;最后,针对排歧集合规模的差异导致不同规模相似值的差异,进行动态层次聚类,实现排歧目的。本文选择了数据格式规范度较高的DBLP数据进行实验,实验结果表明,MWCAG算法有较高的准确率和召回率。(2)分析论文中合作者关系存在间接关联性的特点,结合合作者二分图网络的整体拓扑结构特征,提出了基于二分图的P-Sim Rank同名排歧算法。考虑到原始的Sim Rank算法无法直接适用于同名排歧问题,因此对其进行了两点改进:1)针对Sim Rank算法应用在完全二分图上,导致拥有不同共有邻居节点数目的节点相似值不准确的缺陷,引入了证据(evidence)因子,对其相似值进行了修正;2)针对排歧集合规模的差异造成了相似度差异的问题,引入了惩罚(penalty)因子,平衡了不同集合规模间的相似度。同时结合期刊与标题的文本相似性,进行层次聚类。本文选择了数据格式规范度较高的DBLP数据进行实验,实验结果表明P-Sim Rank算法有较高的准确率和召回率。
(2)本文研究方法
调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。
观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。
实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。
文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。
实证研究法:依据现有的科学理论和实践的需要提出设计。
定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。
定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。
跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。
功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。
模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。
同名排歧论文参考文献
[1].尚玉玲,曹建军,李红梅,郑奇斌.基于合作作者与隶属机构信息的同名排歧方法[J].计算机科学.2018
[2].陈未路.基于科研论文合作者关系图的同名排歧方法研究[D].杭州电子科技大学.2017
[3].王峰.同名排歧方法研究及其应用[D].清华大学.2008