消歧算法论文-单嵩岩,吴振新

消歧算法论文-单嵩岩,吴振新

导读:本文包含了消歧算法论文开题报告文献综述及选题提纲参考文献,主要关键词:作者相似度,文本相似度,结构相似度,作者消歧

消歧算法论文文献综述

单嵩岩,吴振新[1](2019)在《面向作者消歧和合作预测领域的作者相似度算法述评》一文中研究指出从文本相似度和结构相似度算法入手,对面向作者消歧和科研合作预测领域的作者相似度算法进行了研究。分析和比较了各种常用算法的优劣,以及目前的应用情况,并对作者相似度算法进行系统梳理与展望.(本文来源于《东北师大学报(自然科学版)》期刊2019年02期)

张杨[2](2019)在《基于领域知识图谱实体消歧的协同过滤推荐算法研究》一文中研究指出当今互联网飞速发展,人们生活中充斥着越来越多的选择,因此各大网站的推荐功能应运而生。当朋友推荐一部书籍,访问图书网站查找,目标书籍出现在返回表单中,同时网页会列出一些你可能喜欢的书籍,这就是推荐系统的应用。对于传统的协同过滤推荐算法,只凭借原有参与者的过去意见和行为来进行预测。本文结合知识图谱技术构建图书领域知识库,针对实体语义进行消歧处理,对实体消歧处理后所得到的实体进行语义相似度计算,再将语义相似的邻域与传统协同过滤推荐算法的推荐邻域按照不同比例进行融合,从而将有关中文实体的消歧语义信息融合到传统协同过滤推荐算法。目的是改善传统协同过滤算法未加入实体语义信息的弊端,理论及实验证明本文所改进的算法能有效改善协同过滤算法在推荐过程中的效果,尽可能改善推荐过程中所存在冷启动问题。本文提出基于领域知识图谱实体消歧的协同过滤推荐算法,构建领域知识库并通过网络爬虫技术所获取的图书文本信息构建知识图谱模型。通过基于图谱的随机游走算法对该领域内的实体进行语义相似性计算,将未消歧处理的实体所在的文本关键词与知识库里的实体备选关键词,通过建立模型进行语义相似度的交叉计算,将计算值最大的备选实体选定成所选目标,以实现实体消歧的操作处理。最后针对实体消歧处理后的中文语义数据进行语义相似性矩阵构建并寻找语义邻域,最终将语义邻域与推荐算法计算的邻域按照相应实验比例进行融合,通过调整语义邻域和传统协同过滤算法推荐邻域的融合比例以及领域知识图谱融合维度进行训练,最终实现实体的语义层面融合到推荐领域中。本文采用维基百科数据库中图书类别下的实体信息构建知识库,采用知识库中实体与通过网络爬虫技术所获取的图书文本信息,测试集是图书网站上爬取推荐读的好书列表,通过Word2Vec工具构建知识图谱和词向量模型。实验评估结果将召回率和准确率以及F值作为实验效果参考依据值,通过实验证明,该算法可以在一定程度上提高传统协同过滤推荐的有效性。(本文来源于《天津师范大学》期刊2019-05-01)

邵玉涵[3](2019)在《基于知识和图结构的词义消歧算法研究》一文中研究指出网络的发展带来了文本信息的爆炸式生产,社交网络、购物平台等每时每刻都在产生大量的文本信息。词语歧义作为文本中普遍存在的现象,让自然语言处理遇到了挑战。虽然人类能很好理解歧义词语的释义,但计算机无法很好地自动识别词语的语义。这导致了在机器翻译、信息抽取、文本分类等自然语言处理领域,各种算法都很难精细处理到词语粒度。为了解决词语歧义带来的问题,词义消歧被提出来提高计算机对歧义词语的理解能力,为机器翻译等自然语言处理领域的应用打下基础。本文针对词义消歧展开研究,并围绕基于知识和图模型的消歧算法进行了改进,并运用在短文本领域中。本文主要工作具体如下所示:(1)概述词义消歧的研究领域,对词义消歧算法的发展过程、分类、常用的外部知识等进行了概述,并比较了不同类型词义消歧算法的差异。(2)提出了一种基于全局领域和短期记忆因子的语义图模型,使得语义图能更好的记录全局领域信息,使得消歧结果具有更好的统一性。并基于该语义图进行词义消歧,提高了词义消歧对全局和局部语义的利用能力。大量实验表明:改进的语义图模型对词义消歧算法的结果有显着提升。(3)为了解决短文本即时性、非标准性和语义稀疏的特性,本文将基于图和外部知识的词义消歧运用于短文本分类,使得新提出的方法能有效提升短文本的语义密度。实验结果表明:本文提出的方法对经典算法做出了一定的提升,使得词义消歧在短文本分类的应用上起到了良好效果。(本文来源于《合肥工业大学》期刊2019-04-01)

卓玛吉[4](2018)在《藏文历史文献识别过程中藏文自由虚词的自动识别及消歧算法的研究》一文中研究指出虚词作为藏文文献中重要成分,对文献识别过程也造成了很大的难度。本文通过传统藏文文法和语法规则,主要研究并提出了叁种藏文历史文献中大量藏文自由虚词的识别算法,同时建立了具有284条规则的藏文自由虚词消歧规则库。使文献数字化过程中快速地识别并消除藏文句子中不自由虚词的歧义问题,提高藏文文献自动识别的准确率。(本文来源于《电脑与电信》期刊2018年12期)

王静,谭绍峰,贺东东,陈建辉,闫健卓[5](2018)在《基于上下文特征的领域文献实体消歧算法》一文中研究指出目的面向生物医学领域基于文献的知识学习及应用需求,为解决实体识别中存在的词语歧义问题,提出一种基于上下文特征的实体消歧算法。方法实体消歧通常分为候选生成和实体消歧两部分。在候选生成阶段,本文采用基于知识库的方法对实体指称生成候选,并根据实体在知识库中的先验概率对候选实体进行筛选,这样保证了目标实体的召回率并有效减少消歧阶段的计算复杂度和噪声。在实体消歧阶段,本文提出一种基于上下文特征的实体消歧方法,构建概率模型计算实体上下文和实体指称上下文之间的相似度,选取相似度最大的实体作为目标实体。对从文献中识别出的命名指称做实体消歧实验,通过领域专家判断实体消歧结果的正确性,比较在不同算法下实体消歧的准确率。结果本文提出的方法在所选择的数据集中获得了83%的实体消歧准确率,高于其他算法。结论基于上下文特征的实体消歧算法在本领域的实体消歧工作中效果最佳。(本文来源于《北京生物医学工程》期刊2018年04期)

赵升[6](2017)在《我国专利数据中发明家姓名消歧算法研究》一文中研究指出专利大数据已成为国内外科学研究、商业情报分析以及精准创新创业的重要基础性资源,实现专利数据高质量的数据清洗目标以提高对该资源的利用效率具有重要意义。然而,由于汉字及其输入法特性,我国专利数据中的着录项信息清洗存在其特有的难点,其中发明家姓名消歧是最急需解决的关键性问题。在使用汉字输入法向专利数据库中输入专利信息时,可能把专利数据中的发明家名字输入错误而产生姓名歧义(同音字和形近字歧义),从而导致专利数据质量的降低。在以专利创新为背景的前提下,一些高科技创新企业可能因为专利数据质量的降低而影响对优秀发明家的培养、辨别和他们之间的合作关系考察,从而会弱化资源的合理配置功能。应用专利数据中发明家信息做专利数据分析时,首先需要对发明家姓名的歧义进行检查和纠正。因为专利数据中发明家名字的含糊性为实现高质量的数据清洗目标产生障碍,从而会导致企业的准确性决策、低成本投入、研发方向选择产生一定的偏差。对于专利信息中发明家姓名歧义问题,国外研究已经比较成熟,形成了形形色色的发明家消歧算法,但是对于中文发明家姓名消歧的研究鲜有涉及,由于中英文语言文字在逻辑结构、词语分布特征以及使用习惯等方面有着较大差异,国外专利数据清洗算法已不能够适用于中文专利数据中发明家信息的清洗需求。本文通过对国内外姓名消歧以及英文发明家姓名消歧算法的回顾,主要从中国汉字的特殊性出发,设计了一套高效、科学的姓名消歧算法来解决中国专利数据中存在的发明家歧义。主要贡献是基于专利着录项组合相似度的发明家姓名消歧算法和基于综合集成研讨厅的发明家姓名消歧研究。本文选用2015年我国医药行业百强企业(100家)的专利数据作为样本,证实了所设计消歧算法的科学性和高效性,体现了该消歧算法对提高专利数据质量尤其是针对发明家名字消歧的优势。消歧算法为数据清洗在专利数据库作技术探究提供新思路,进而有助于利用专利数据进行组织网络创新、情报分析以及战略布局等相关研究工作。(本文来源于《北京化工大学》期刊2017-05-20)

阳怡林,周杰,李弼程,李爱国[7](2016)在《基于职业特征的人名消歧算法》一文中研究指出职业是人物实体的代表性特征,能够有效地区分人物实体。传统人名消歧算法仅把职业当作一个普通的特征,忽视了它的重要性。针对以上问题,提出了基于职业特征的人名消歧算法。首先通过互联网手动构建基础职业词典;其次以维基百科的所有中文页面为训练语料,通过词激活力模型扩展基础职业词典得到职业特征词典;然后从文本中提取职业特征,并抽取人名和作品名作为其补充特征,弥补文本中职业特征缺失和同一人物具有多个职业的问题;最后采用凝聚层次聚类实现人名消歧。在CLP2010的人名消歧训练语料上进行实验,结果表明文章算法能够有效地实现人名消歧。(本文来源于《信息工程大学学报》期刊2016年05期)

高璐,赵小兵[8](2016)在《一种实例库与义原关系相结合的概念消歧算法》一文中研究指出本文提出了一种利用知网的实例库与知网关系进行词义消歧算法.该方法首先利用知网提供的实例库进行初步的匹配;若在实例库中没有完全匹配,则利用上下文搭配关键词与知网中的实例搭配词进行相似度计算,若相似度大于给定阈值,则消歧结束.否则,我们再判断歧义词的义原与关键词的义原是否具有某种关系,根据义原权值调节算法调整义原权值.调整后的义原权值大小不一,按照事先的约定,我们选取综合权值最大的义项.我们发现,该方法能够弥补仅依靠实例库的覆盖率低的问题,又能减少仅依靠统计方法产生的噪音,从而提高词义消歧的正确率.(本文来源于《首都师范大学学报(自然科学版)》期刊2016年03期)

张玉亮[9](2016)在《蒙古文网络文本同形词消歧算法研究》一文中研究指出蒙古文的自然语言处理研究相对于其他的语言的研究起步较晚,但是近年来随着国家对少数民族地区的语言文化的重视。在中英文中已经有很多使用网络资源做自然语言处理,收集网络资源,分析舆情、预测事件的研究。在蒙古语方面近年来互联网上也出现了大量蒙古语的网站,本文在第一部分参考其他语言的研究的基础上,设计一个识别和采集人民网蒙文版的文本资源的程序,并对收集到的文本资源做一些简单的分析研究,为未来蒙古文网络资源的使用做探索性研究。本文共收集到了2011年到2015年的807篇文本,内容涉及各方面的内容有政府新闻,蒙古族文化介绍等等。在以上研究的基础上,本文在第二部分将做网络文本的同形词消歧算法的研究,近几十年的蒙古文信息化研究表明,同形词歧义问题将是蒙古文信息处理的基础性研究,是机器翻译、文本分类、语音识别以及信息检索等研究的关键环节。在蒙古文自然语言处理中,对“同音同形同类词”的研究将直接影响后续的句法、语义、语用分析、机器翻译等的研究领域的问题。本文在参考其他语言的研究基础之上,结合现有蒙古文的研究,提出使用谷歌公司的针对网页重要度排名的pagerank算法,将带有歧义的句子构建网络图,将句子中的同形歧义词各个义项和其他词语作为网络图的节点,在单词间计算语义相似度和共现关系度作为边的权重。在开始的时候假设每个单词的重要度相同,经过迭代算法之后,每个单词都获得一个重要度,在同形词的义项中选择重要度最高的作为该词的正确义项。通过人工标注和自动标注,对提出的算法进行实验验证,通过实验的结果分析发现,获得了56.1%的准确率,这是由于蒙古文的网络文本的拼写错误是主要的原因。本研究第一次使用无指导的消歧算法对蒙古文同形词做消歧研究。无指导消歧算法是未来的一个研究方向,不需要大量人工去标注语料。随着未来大规模语料库的出现,将成为研究一个重点。(本文来源于《内蒙古师范大学》期刊2016-04-08)

宋友平,王家宝,苗壮[10](2016)在《基于共同属性和标签共现的标签消歧算法》一文中研究指出为了提高基于标签的个性化推荐技术的准确率,提出了一种基于共同属性和标签共现的标签消歧模型,对已有的基于聚类的标签消歧算法进行改进,针对不同的标签语义问题分别采用不同的方法,缓解了原算法不能识别不同语义的问题。对于多义词语义问题,使用同义词模型进行消歧;对于近义词、同义词语义问题,使用近、同义词模型进行消歧,并将该模型应用于个性化推荐算法。利用公共数据集MovieLens Latest Datasets进行了个性化推荐实验。实验表明,当用户推荐项目数量递增时,推荐算法的准确率和召回率都有提高,能有效消除标签中存在的歧义。(本文来源于《解放军理工大学学报(自然科学版)》期刊2016年05期)

消歧算法论文开题报告

(1)论文研究背景及目的

此处内容要求:

首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。

写法范例:

当今互联网飞速发展,人们生活中充斥着越来越多的选择,因此各大网站的推荐功能应运而生。当朋友推荐一部书籍,访问图书网站查找,目标书籍出现在返回表单中,同时网页会列出一些你可能喜欢的书籍,这就是推荐系统的应用。对于传统的协同过滤推荐算法,只凭借原有参与者的过去意见和行为来进行预测。本文结合知识图谱技术构建图书领域知识库,针对实体语义进行消歧处理,对实体消歧处理后所得到的实体进行语义相似度计算,再将语义相似的邻域与传统协同过滤推荐算法的推荐邻域按照不同比例进行融合,从而将有关中文实体的消歧语义信息融合到传统协同过滤推荐算法。目的是改善传统协同过滤算法未加入实体语义信息的弊端,理论及实验证明本文所改进的算法能有效改善协同过滤算法在推荐过程中的效果,尽可能改善推荐过程中所存在冷启动问题。本文提出基于领域知识图谱实体消歧的协同过滤推荐算法,构建领域知识库并通过网络爬虫技术所获取的图书文本信息构建知识图谱模型。通过基于图谱的随机游走算法对该领域内的实体进行语义相似性计算,将未消歧处理的实体所在的文本关键词与知识库里的实体备选关键词,通过建立模型进行语义相似度的交叉计算,将计算值最大的备选实体选定成所选目标,以实现实体消歧的操作处理。最后针对实体消歧处理后的中文语义数据进行语义相似性矩阵构建并寻找语义邻域,最终将语义邻域与推荐算法计算的邻域按照相应实验比例进行融合,通过调整语义邻域和传统协同过滤算法推荐邻域的融合比例以及领域知识图谱融合维度进行训练,最终实现实体的语义层面融合到推荐领域中。本文采用维基百科数据库中图书类别下的实体信息构建知识库,采用知识库中实体与通过网络爬虫技术所获取的图书文本信息,测试集是图书网站上爬取推荐读的好书列表,通过Word2Vec工具构建知识图谱和词向量模型。实验评估结果将召回率和准确率以及F值作为实验效果参考依据值,通过实验证明,该算法可以在一定程度上提高传统协同过滤推荐的有效性。

(2)本文研究方法

调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。

观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。

实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。

文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。

实证研究法:依据现有的科学理论和实践的需要提出设计。

定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。

定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。

跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。

功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。

模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。

消歧算法论文参考文献

[1].单嵩岩,吴振新.面向作者消歧和合作预测领域的作者相似度算法述评[J].东北师大学报(自然科学版).2019

[2].张杨.基于领域知识图谱实体消歧的协同过滤推荐算法研究[D].天津师范大学.2019

[3].邵玉涵.基于知识和图结构的词义消歧算法研究[D].合肥工业大学.2019

[4].卓玛吉.藏文历史文献识别过程中藏文自由虚词的自动识别及消歧算法的研究[J].电脑与电信.2018

[5].王静,谭绍峰,贺东东,陈建辉,闫健卓.基于上下文特征的领域文献实体消歧算法[J].北京生物医学工程.2018

[6].赵升.我国专利数据中发明家姓名消歧算法研究[D].北京化工大学.2017

[7].阳怡林,周杰,李弼程,李爱国.基于职业特征的人名消歧算法[J].信息工程大学学报.2016

[8].高璐,赵小兵.一种实例库与义原关系相结合的概念消歧算法[J].首都师范大学学报(自然科学版).2016

[9].张玉亮.蒙古文网络文本同形词消歧算法研究[D].内蒙古师范大学.2016

[10].宋友平,王家宝,苗壮.基于共同属性和标签共现的标签消歧算法[J].解放军理工大学学报(自然科学版).2016

标签:;  ;  ;  ;  

消歧算法论文-单嵩岩,吴振新
下载Doc文档

猜你喜欢